Tutorial Hadoop YARN - Ketahui Asas Seni Bina YARN



Blog ini memfokuskan diri pada Apache Hadoop YARN yang diperkenalkan dalam Hadoop versi 2.0 untuk pengurusan sumber dan Penjadualan Pekerjaan. Ini menerangkan seni bina YARN dengan komponen dan tugas yang dilakukan oleh masing-masing. Ini menerangkan penyerahan aplikasi dan aliran kerja di Apache Hadoop YARN.

Hadoop YARN merajut unit penyimpanan Hadoop iaitu HDFS (Hadoop Distused File System) dengan pelbagai alat pemprosesan. Bagi anda yang benar-benar baru dalam topik ini, YARN bermaksud ' Y dan KE nother R sumber N egotiator ”. Saya juga mencadangkan agar anda melalui kami dan sebelum anda meneruskan pembelajaran Apache Hadoop YARN. Saya akan menerangkan topik berikut di sini untuk memastikan bahawa di akhir blog ini pemahaman anda tentang Hadoop YARN jelas.

Mengapa MENGAMBIL?

Dalam Hadoop versi 1.0 yang juga disebut sebagai MRV1 (MapReduce Versi 1), MapReduce melakukan fungsi pemrosesan dan manajemen sumber daya. Ia terdiri daripada Job Tracker yang merupakan master tunggal. Penjejak Pekerjaan memperuntukkan sumber daya, melakukan penjadualan dan memantau pekerjaan pemprosesan. Ia memberikan peta dan mengurangkan tugas pada sejumlah proses bawahan yang disebut Task Tracker. Task Tracker secara berkala melaporkan kemajuan mereka ke Job Tracker.





MapReduce Versi 1.0 - Hadoop YARN - Edureka

Reka bentuk ini menghasilkan kemerosotan skalabiliti kerana satu Job Tracker.IBM menyebut dalam artikelnya bahawa menurut Yahoo !, had praktikal reka bentuk seperti itu dicapai dengan sekumpulan 5000 nod dan 40,000 tugas berjalan serentak.Terlepas dari batasan ini, penggunaan sumber komputasi tidak cekap dalam MRV1. Juga, kerangka Hadoop hanya terbatas pada paradigma pemprosesan MapReduce.



Untuk mengatasi semua masalah ini, YARN diperkenalkan dalam Hadoop versi 2.0 pada tahun 2012 oleh Yahoo dan Hortonworks. Idea asas di sebalik YARN adalah untuk melepaskan MapReduce dengan mengambil alih tanggungjawab Pengurusan Sumber dan Penjadualan Kerja. YARN mula memberi Hadoop kemampuan untuk menjalankan pekerjaan bukan MapReduce dalam kerangka Hadoop.

Anda juga boleh menonton video di bawah ini di mana kami pakar membincangkan konsep YARN & seni bina secara terperinci.

Tutorial Benang Hadoop | Senibina Benang Hadoop | Edureka

Dengan pengenalan YARN, the sepenuhnya revolusi. Ia menjadi lebih fleksibel, cekap dan berskala. Semasa Yahoo disiarkan secara langsung dengan YARN pada suku pertama tahun 2013, syarikat ini membantu syarikat mengecilkan ukuran kluster Hadoopnya dari 40,000 nod menjadi 32,000 nod. Tetapi jumlah pekerjaan meningkat dua kali ganda menjadi 26 juta sebulan.



Pengenalan Hadoop YARN

Sekarang kerana saya telah memberi pencerahan tentang keperluan YARN, izinkan saya memperkenalkan anda kepada komponen teras Hadoop v2.0, TAHAN . YARN membolehkan kaedah pemprosesan data yang berbeza seperti pemprosesan grafik, pemprosesan interaktif, pemprosesan aliran dan juga pemprosesan kumpulan untuk menjalankan dan memproses data yang disimpan dalam HDFS. Oleh itu YARN membuka Hadoop untuk jenis aplikasi diedarkan lain di luar MapReduce.

typecast double to int java

YARN membolehkan pengguna melakukan operasi mengikut keperluan dengan menggunakan pelbagai alat seperti untuk pemprosesan masa nyata, Sarang untuk SQL, HBase untuk NoSQL dan lain-lain.

Selain daripada Pengurusan Sumber, YARN juga melakukan Penjadualan Kerja. YARN melakukan semua aktiviti pemprosesan anda dengan memperuntukkan sumber dan menjadualkan tugas. Apache Hadoop YARN Architecture terdiri daripada komponen utama berikut:

  1. Pengurus Sumber : Berjalan pada master daemon dan menguruskan peruntukan sumber dalam kluster.
  2. Pengurus Nod: Mereka berjalan di daemon budak dan bertanggungjawab untuk melaksanakan tugas pada setiap Node Data.
  3. Master Permohonan: Menguruskan kitaran hidup kerja pengguna dan keperluan sumber setiap aplikasi. Ia berfungsi bersama dengan Pengurus Node dan memantau pelaksanaan tugas.
  4. Bekas: Pakej sumber termasuk RAM, CPU, Rangkaian, HDD dll pada satu nod.

Komponen YARN

Anda boleh menganggap YARN sebagai otak Ekosistem Hadoop anda. Gambar di bawah mewakili Senibina YARN.

The komponen pertama YARN Architecture adalah,

Pengurus Sumber

  • Ini adalah kuasa utama dalam peruntukan sumber .
  • Setelah menerima permintaan pemprosesan, ia menyampaikan bahagian permintaan kepada pengurus nod yang sesuai, di mana pemprosesan sebenarnya berlaku.
  • Ia adalah penimbang tara sumber kluster dan memutuskan peruntukan sumber yang ada untuk aplikasi yang bersaing.
  • Mengoptimumkan penggunaan kluster seperti menyimpan semua sumber daya sepanjang masa terhadap pelbagai kekangan seperti jaminan kapasiti, keadilan, dan SLA.
  • Ia mempunyai dua komponen utama:a) Penjadualb)Pengurus aplikasi

a) Penjadual

  • Penjadual bertanggungjawab untuk memperuntukkan sumber daya ke pelbagai aplikasi yang berjalan tertakluk kepada kekangan kapasiti, barisan dll.
  • Ini disebut penjadual murni di ResourceManager, yang berarti tidak melakukan pemantauan atau pengesanan status untuk aplikasi.
  • Sekiranya terdapat kegagalan aplikasi atau kegagalan perkakasan, Penjadual tidak menjamin untuk memulakan semula tugas yang gagal.
  • Melakukan penjadualan berdasarkan keperluan sumber aplikasi.
  • Ia mempunyai plug-in kebijakan yang dapat ditangguhkan, yang bertanggung jawab untuk memisahkan sumber kluster di antara pelbagai aplikasi. Terdapat dua pemalam seperti itu: Penjadual Kapasiti dan Penjadual yang Adil , yang saat ini digunakan sebagai Penjadwalan di ResourceManager.

b) Pengurus Aplikasi

  • Ia bertanggungjawab untuk menerima penyerahan pekerjaan.
  • Merundingkan bekas pertama dari Pengurus Sumber untuk melaksanakan Master Aplikasi khusus aplikasi.
  • Mengendalikan menjalankan Master Application dalam kluster dan menyediakan perkhidmatan untuk memulakan semula container Application Master sekiranya gagal.

Datang ke komponen kedua iaitu:

Pengurus Nod

  • Ia menjaga nod individu dalam kluster Hadoop danmenguruskan pekerjaan pengguna dan aliran kerja pada nod yang diberikan.
  • Ia mendaftar dengan Pengurus Sumber dan menghantar degupan jantung dengan status kesihatan node.
  • Tujuan utamanya adalah untuk menguruskan wadah aplikasi yang diberikan kepadanya oleh pengurus sumber.
  • Ini sentiasa dikemas kini dengan Pengurus Sumber.
  • Master Aplikasi meminta bekas yang ditetapkan dari Pengurus Node dengan mengirimkannya Container Launch Context (CLC) yang merangkumi semua yang diperlukan oleh aplikasi untuk dijalankan. Pengurus Node membuat proses kontena yang diminta dan memulakannya.
  • Memantau penggunaan sumber (memori, CPU) setiap kontena.
  • Melakukan pengurusan Log.
  • Ia juga membunuh bekas seperti yang diarahkan oleh Pengurus Sumber.

The komponen ketiga dari Apache Hadoop YARN adalah,

Master Permohonan
  • Permohonan adalah satu pekerjaan yang diserahkan ke kerangka kerja. Setiap aplikasi tersebut mempunyai Master Aplikasi unik yang berkaitan dengannya yang merupakan entiti khusus kerangka.
  • Ini adalah proses yang menyelaraskan pelaksanaan aplikasi dalam kluster dan juga menguruskan kesalahan.
  • Tugasnya adalah untuk merundingkan sumber dari Pengurus Sumber dan bekerjasama dengan Pengurus Node untuk melaksanakan dan memantau tugas-tugas komponen.
  • Ia bertanggungjawab untuk merundingkan sumber sumber yang sesuai dari ResourceManager, mengesan statusnya dan memantau kemajuan.
  • Setelah dimulakan, ia secara berkala mengirimkan degupan jantung kepada Pengurus Sumber untuk mengesahkan kesihatannya dan untuk mengemas kini rekod permintaan sumbernya.

The komponen keempat adalah:

Bekas
  • Ini adalah kumpulan sumber daya fizikal seperti RAM, core CPU, dan disk pada satu simpul.
  • Kontena YARN dikendalikan oleh konteks pelancaran kontena yang merupakan kitaran hayat kontena (CLC). Catatan ini mengandungi peta pemboleh ubah persekitaran, kebergantungan yang tersimpan dalam penyimpanan yang dapat diakses dari jauh, token keselamatan, muatan untuk perkhidmatan Pengurus Node dan arahan yang diperlukan untuk membuat proses.
  • Ini memberikan hak kepada aplikasi untuk menggunakan sejumlah sumber tertentu (memori, CPU dll) pada host tertentu.

Penyerahan Permohonan dalam TAHUN

Lihat gambar dan lihatlah langkah-langkah yang terlibat dalam penyerahan permohonan Hadoop YARN:

1) Hantarkan kerja

2)Dapatkan ID Permohonan

3) Konteks Penyerahan Permohonan

4 a) Mulakan KontenaLancarkan

b) Lancarkan Master Aplikasi

5) Peruntukkan Sumber

6 a) Bekas

b) Melancarkan

7) Laksanakan

Aliran Kerja Aplikasi di Hadoop YARN

Rujuk gambar yang diberikan dan lihat langkah-langkah berikut yang terlibat dalam aliran kerja Aplikasi Apache Hadoop YARN:

  1. Pelanggan mengemukakan permohonan
  2. Pengurus Sumber memperuntukkan bekas untuk memulakan Pengurus Aplikasi
  3. Pengurus Aplikasi mendaftar dengan Pengurus Sumber
  4. Pengurus Aplikasi meminta bekas dari Pengurus Sumber
  5. Pengurus Aplikasi memberitahu Node Manager untuk melancarkan kontena
  6. Kod aplikasi dilaksanakan di dalam bekas
  7. Pelanggan menghubungi Pengurus Sumber / Pengurus Aplikasi untuk memantau status aplikasi
  8. Pengurus Aplikasi tidak mendaftar dengan Pengurus Sumber

Sekarang setelah anda mengetahui Apache Hadoop YARN, lihat oleh Edureka, sebuah syarikat pembelajaran dalam talian yang dipercayai dengan rangkaian lebih daripada 250,000 pelajar berpuas hati yang tersebar di seluruh dunia. Kursus Latihan Pensijilan Hadoop Data Besar Edureka membantu pelajar menjadi pakar dalam bidang HDFS, Benang, MapReduce, Babi, Hive, HBase, Oozie, Flume dan Sqoop menggunakan kes penggunaan masa nyata pada domain Runcit, Media Sosial, Penerbangan, Pelancongan, Kewangan.

Ada soalan untuk kami? Sila sebutkan di bahagian komen dan kami akan menghubungi anda.

cara membalikkan rentetan dalam python