Bagaimana Membuat Kluster Hadoop Dengan EMR Amazon?



Dalam artikel ini kita akan meneroka Perkhidmatan EMR AWS dan dalam prosesnya kita akan belajar Bagaimana Membuat Kluster Hadoop Dengan Amazon EMR?

Dalam artikel ini mengenai Cara Membuat Kluster Dengan Amazon EMR kita akan melihat cara Menjalankan dan Skala aplikasi Hadoop dan Big Data dengan mudah. Petunjuk berikut akan dibahas dalam artikel ini,

Teruskan dengan ini Cara Membuat Hadoop Cluster Dengan Amazon EMR?





Bagaimana Membuat Kluster Hadoop Dengan EMR Amazon?

Apabila kita mencari sesuatu di Google atau Yahoo, kita mendapat sambutan dalam masa yang singkat. Bagaimana mungkin Google, Yahoo dan mesin pencari lain mengembalikan hasilnya dengan pantas dari web yang terus berkembang? Enjin carian merangkak melalui internet, memuat turun halaman web dan membuat indeks seperti yang ditunjukkan di bawah. Untuk sebarang pertanyaan dari kami, mereka menggunakan indeks untuk mengetahui semua laman web yang mengandungi teks yang kami cari. Dengan melihat indeks di bawah di sebelah kanan, kita dapat mengetahui dengan jelas bahawa Hadoop ada laman web 1, 2 dan 3.

Imej - Cara Membuat Hadoop Cluster Dengan Amazon EMR - EdurekaKemudian, Algoritma PageRanking digunakan yang berdasarkan bagaimana halaman dihubungkan untuk mengetahui halaman mana yang akan ditunjukkan di bahagian atas dan mana di bahagian bawah. Dalam senario di bawah ini W1 adalah 'paling popular' kerana semua orang menghubungkannya dan W4 adalah 'paling tidak popular' kerana tidak ada yang menghubungkannya. Jadi, W1 ditunjukkan di bahagian atas dan W4 di bahagian bawah dalam hasil carian.



menggabungkan pelaksanaan semacam c ++

Dengan ledakan laman web, mesin pencari ini menemui cabaran untuk membuat indeks dan melakukan perhitungan PageRanking. Di sinilah kelahiran Hadoop berlaku di Yahoo dan kemudian menjadi FOSS (Perisian Sumber Bebas dan Terbuka) di bawah ASF (Apache Software Foundation). Setelah berada di bawah ASF, banyak syarikat mula berminat dengan Hadoop dan mula menyumbang untuk memperbaikinya. Hadoop adalah orang yang memulakan revolusi Big Data, tetapi banyak perisian lain seperti Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume mula berkembang untuk mengatasi batasan dan jurang dalam Hadoop.

Enjin carian web adalah yang pertama menggunakan Hadoop, tetapi kemudian banyak kes penggunaan mula berkembang apabila semakin banyak data dihasilkan. Mari kita ambil contoh aplikasi eCommerce yang digunakan untuk mengesyorkan buku kepada pengguna. Seperti rajah di bawah, pengguna1 membeli buku1, buku2 dan buku3, pengguna2 membeli beberapa buku dan sebagainya. Melihat dengan teliti, kita dapat melihat bahawa pengguna1 dan pengguna2 mempunyai rasa yang sama seperti mereka telah membeli buku1 dan buku2. Oleh itu, book3 boleh dicadangkan kepada pengguna2 dan book4 dapat disarankan kepada pengguna1. Ini dipanggil Penapisan Kolaboratif, sejenis algoritma Pembelajaran Mesin. Kita boleh membalikkan rajah di bawah dan mendapatkan buku yang serupa.

Dalam kes di atas, kami telah membuat indeks, PageRank dan disyorkan kepada pengguna, ukuran data kecil dan kami dapat memvisualisasikan data dan menyimpulkan beberapa hasil dari itu. Apabila saiz data semakin besar dari hari ke hari dan di luar kawalan, di sinilah alat Big Data seperti Hadoop muncul.



Hadoop menyelesaikan banyak masalah, tetapi memasang Hadoop dan perisian Big Data lain tidak pernah menjadi tugas yang mudah. Terdapat banyak parameter konfigurasi yang perlu diubah, seperti integrasi, pemasangan dan masalah konfigurasi yang dapat dikendalikan. Di sinilah syarikat seperti Cloudera, dan Databricks membantu. Mereka menjadikan pemasangan perisian Big Data lebih mudah dan memberikan sokongan komersial, misalnya katakan sesuatu berlaku dalam pengeluaran. Amazon EMR (Elastic MapReduce) lebih mudah menggunakan Hadoop dll. Nama Elastic MapReduce sedikit keliru kerana EMR juga menyokong model pengkomputeran diedarkan lain seperti Resilient Distributed Dataset dan bukan hanya MapReduce.

Dalam tutorial ini, kita akan meneroka cara menyiapkan kluster EMR di AWS Cloud dan dalam tutorial yang akan datang, kita akan meneroka cara menjalankan Spark, Hive dan program lain di atasnya.

Teruskan dengan ini Cara Membuat Hadoop Cluster Dengan Amazon EMR?

Demo: Membuat Kluster EMR di AWS

Langkah 1: Pergi ke Konsol Pengurusan EMR dan klik 'Buat kluster'. Di konsol, metadata untuk kluster ditamatkan juga disimpan selama dua bulan secara percuma. Ini membolehkan klaster yang ditamatkan diklon dan dibuat semula.

Langkah 2 : Dari layar pilihan cepat, klik 'Pergi ke pilihan lanjutan' untuk menentukan lebih banyak perincian mengenai kluster.

Langkah 3: Di tab Pilihan Lanjutan, kita dapat memilih perisian yang berbeza untuk dipasang pada kluster EMR. Untuk antara muka SQL, Hive boleh dipilih. Untuk antara muka bahasa aliran data, Babi boleh dipilih. Untuk koordinasi aplikasi yang diedarkan, ZooKeeper boleh dipilih dan sebagainya. Tab ini juga membolehkan kita menambah langkah, yang merupakan tugas pilihan. Langkahnya adalah pekerjaan pemprosesan Data Besar menggunakan MapReduce, Pig, Hive dll. Mereka boleh ditambahkan dalam tab ini atau kemudian setelah kluster dibuat. Klik “Next” untuk memilih Perkakasan yang diperlukan untuk kluster EMR.

Langkah 4: Hadoop mengikuti seni bina master-pekerja di mana master melakukan semua koordinasi seperti penjadualan dan penugasan kerja dan memeriksa kemajuannya, sementara pekerja melakukan kerja sebenarnya untuk memproses dan menyimpan data. Master tunggal adalah Single-Point-Of-Failure (SPOF). Amazon EMR menyokong multi-master untuk Ketersediaan Tinggi (HA). Langkah sebelumnya memungkinkan untuk menyusun kluster multi-master di EMR.

cara menggunakan logger di java

EMR membenarkan dua jenis nod, Teras dan Tugas. Node inti digunakan untuk memproses dan menyimpan data, simpul tugas digunakan untuk memproses data sahaja. Untuk tutorial ini, kita hanya boleh memilih satu Core dan tiada node Task kerana ia melibatkan kos yang lebih rendah untuk kita. Juga, pilih Contoh tempat berakhir Permintaan kerana contoh Spot lebih murah. Tangkapan dengan contoh Spot adalah bahawa ia dapat dihentikan oleh AWS secara automatik dengan a notis dua minit . Ini baik untuk latihan dan dalam beberapa senario sebenar juga. Contoh spot dihentikan secara automatik kerana mempunyai keutamaan rendah daripada jenis instance lain. Klik “Next”.

Langkah 5: Tentukan nama Kluster. dan klik “Next”. Perhatikan bahawa 'Perlindungan penamatan' dihidupkan secara lalai, ini memastikan bahawa kluster EMR tidak dihapus secara tidak sengaja dengan memperkenalkan beberapa langkah sambil menghentikan kluster.

Langkah 6: Di tab, pilihan keselamatan yang berbeza untuk kluster EMR ditentukan. KeyPair perlu dipilih untuk masuk ke contoh EC2. EMR secara automatik akan membuat peranan dan Kumpulan Keselamatan yang sesuai dan melampirkannya ke nod EC2 induk dan pekerja. Klik pada 'Buat kluster'.

Pembuatan kluster memerlukan masa beberapa minit kerana contoh EC2 mesti dibeli dan perisian Big Data yang berbeza mesti dipasang dan dikonfigurasi. Pada mulanya status kluster akan berada dalam keadaan 'Mulai' dan beralih ke keadaan 'Menunggu'. Dalam keadaan 'Menunggu', kluster EMR hanya menunggu kami untuk menghantar pelbagai pekerjaan pemprosesan Data Besar seperti MR, Spark, Hive dll.

Juga, perhatikan dari Konsol Pengurusan EC2 dan perhatikan bahawa contoh EC2 induk dan pekerja harus dalam keadaan berjalan. Ini adalah contoh Spot yang telah dibuat sebagai sebahagian penciptaan kluster EMR. EC2 yang sama dapat dilihat dari tab Perkakasan di EMR Management Console juga. Perhatikan bahawa pada tab Perkakasan harga untuk contoh Spot EC2 disebut sebagai 0,032 $ / jam. Harga contoh Spot terus berubah dengan masa dan jauh lebih rendah daripada harga EC2 On-Demand.

Langkah 7: Sekarang bahawa kluster EMR telah berjaya ditambahkan, langkah-langkah atau pekerjaan pemprosesan Data Besar dapat ditambahkan. Pergi ke tab Langkah dan klik pada 'Tambah Langkah' dan pilih jenis Langkah (MR, Hive, Spark dll). Kami akan menerangkan perkara yang sama dalam tutorial yang akan datang. Buat masa ini, klik Batal.

Langkah 8: Sekarang setelah kita melihat bagaimana memulakan EMR, mari kita lihat bagaimana menghentikannya.

Langkah 8.1: Klik pada Tamatkan.

Langkah 8.2: Seperti disebutkan pada langkah sebelumnya, 'Perlindungan penghentian' Aktif untuk kluster EMR dan tombol Hentikan telah dinonaktifkan. Klik Tukar.

Langkah 8.3: Pilih butang radio 'Mati' dan klik pada tanda centang. Sekarang butang Hentikan harus diaktifkan. Ini adalah langkah tambahan yang diperkenalkan EMR, hanya untuk memastikan bahawa kami tidak menghapus kluster EMR secara tidak sengaja.

Perhatikan bahawa kluster EMR akan berada dalam status Penamatan dan EC2 akan dihentikan. Akhirnya, kluster EMR akan dipindahkan ke status Dihentikan, dari sini pengebilan kami dengan berhenti AWS. Pastikan untuk menamatkan kluster, agar tidak menanggung kos AWS tambahan.

Kesimpulannya

Dalam tutorial ini kita telah melihat bagaimana untuk memulakan EMR cluster dalam beberapa minit dari konsol web (penyemak imbas), yang sama dapat automatik menggunakan , AWS SDK atau dengan menggunakan CloudFormation AWS . Seperti yang diperhatikan menyiapkan EMR cluster yang dapat dilakukan hanya beberapa menit dan pemprosesan Big Data dapat dimulakan dengan segera, setelah pemrosesan selesai maka output dapat disimpan di S3 atau DynamoDB dan penutupan kluster untuk menghentikan pengebilan. Kerana model harga dan kemudahan penggunaan ini, EMR menjadi tumpuan besar bagi mereka yang melakukan pemprosesan Big Data. Tidak perlu membeli pelayan dalam jumlah besar, dapatkan lesen untuk perisian Big Data dan mengekalkannya. '

Jadi ini dia, ini membawa kita ke akhir artikel ini mengenai Cara Membuat Hadoop Cluster Dengan Amazon EMR?Sekiranya anda ingin mendapatkan kepakaran dalam subjek ini, Edureka telah menyediakan kurikulum yang merangkumi dengan tepat, apa yang anda perlukan untuk menyelesaikan Ujian Arkitek Penyelesaian! Anda boleh melihat perincian kursus untuk latihan.

pengendalian pengecualian di pl sql

Sekiranya ada pertanyaan yang berkaitan dengan blog ini, jangan ragu untuk mengemukakan soalan di bahagian komen di bawah dan kami akan dengan senang hati membalasnya secepat mungkin.