Gambaran Keseluruhan Hadoop 2.0 Cluster Architecture Federation



Apache Hadoop 2.x terdiri daripada peningkatan ketara berbanding Hadoop 1.x. Blog ini membincangkan mengenai Hadoop 2.0 Cluster Architecture Federation dan komponennya.

Persekutuan Senibina Kluster Hadoop 2.0

Pengenalan:

Dalam blog ini, saya akan menyelami Persekutuan Senibina Kluster Hadoop 2.0. Apache Hadoop telah banyak berkembang sejak pembebasan Apache Hadoop 1.x. Seperti yang anda ketahui dari blog saya sebelumnya bahawa mengikuti Topologi Master / Slave di mana NameNode bertindak sebagai master daemon dan bertanggungjawab untuk menguruskan nod hamba lain yang disebut DataNodes. Dalam ekosistem ini, Master Daemon atau NameNode tunggal ini menjadi hambatan dan sebaliknya, syarikat perlu mempunyai NameNode yang sangat tersedia. Sebab ini menjadi asas kepada Senibina Persekutuan HDFS dan Senibina HA (Ketersediaan Tinggi) .

perbezaan antara css dan css3

Topik yang telah saya bahas dalam blog ini adalah seperti berikut:





  • Senibina HDFS semasa
  • Batasan Senibina HDFS semasa
  • Senibina Persekutuan HDFS

Gambaran Keseluruhan Senibina HDFS Semasa:

Senibina Single Namespace HDFS - Gambaran keseluruhan Hadoop 2.0 Cluster Architecture Federation - Edureka

Seperti yang anda lihat dalam gambar di atas, HDFS semasa mempunyai dua lapisan:



  • Ruang Nama HDFS (NS): Lapisan ini bertanggungjawab untuk menguruskan direktori, fail dan blok. Ini menyediakan semua operasi Sistem Fail yang berkaitan dengan Namespace seperti membuat, menghapus atau mengubah fail atau direktori fail.
  • Lapisan Penyimpanan: Ia merangkumi dua komponen asas.
    1. Pengurusan Blok : Ia melakukan operasi berikut:
      • Menyemak degup jantung DataNode secara berkala dan menguruskan keahlian DataNode ke kluster.
      • Menguruskan laporan blok dan mengekalkan lokasi blok.
      • Menyokong operasi blok seperti penciptaan, pengubahsuaian, penghapusan dan peruntukan lokasi blok.
      • Mengekalkan faktor replikasi yang konsisten di seluruh kluster.

2. Penyimpanan Fizikal : Ia dikendalikan oleh DataNodes yang bertanggungjawab untuk menyimpan data dan dengan itu memberikan akses Baca / Tulis ke data yang disimpan dalam HDFS.

Oleh itu, Senibina HDFS semasa membolehkan anda mempunyai ruang nama tunggal untuk kluster. Dalam seni bina ini, NameNode tunggal bertanggungjawab untuk mengurus ruang nama. Senibina ini sangat senang dan senang dilaksanakan. Juga, ia menyediakan kemampuan yang cukup untuk memenuhi kebutuhan kelompok produksi kecil.

Batasan HDFS Semasa:

Seperti yang dibahas sebelumnya, HDFS saat ini cukup memenuhi kebutuhan dan kes penggunaan kluster produksi kecil. Tetapi, organisasi besar seperti Yahoo, Facebook menemui beberapa batasan ketika kluster HDFS berkembang dengan pesat. Mari kita lihat beberapa batasan dengan cepat:



  1. Ruang nama adalah tidak berskala seperti DataNodes. Oleh itu, kita hanya mempunyai sebilangan DataNodes dalam kluster yang dapat dikendalikan oleh satu NameNode.
  2. Dua lapisan, iaitu lapisan ruang nama dan lapisan penyimpanan adalah berganding rapat yang menjadikan pelaksanaan Alternatif NameNode menjadi sangat sukar.
  3. Prestasi keseluruhan Sistem Hadoop bergantung pada throughput Nombor Nama. Oleh itu, keseluruhan prestasi semua operasi HDFS bergantung pada berapa banyak tugas yang dapat dikendalikan oleh NameNode pada waktu tertentu.
  4. NameNode menyimpan keseluruhan ruang nama dalam RAM untuk akses pantas. Ini membawa kepada batasan dari segi saiz memori iaitu bilangan objek ruang nama (fail dan blok) yang dapat ditangani oleh pelayan ruang nama tunggal.
  5. Sebilangan besar organisasi (vendor) yang menggunakan HDFS, membolehkan banyak organisasi (penyewa) menggunakan ruang nama kluster mereka. Jadi, tidak ada pemisahan ruang nama dan oleh itu, ada tiada pengasingan antara organisasi penyewa yang menggunakan kluster.

Senibina Persekutuan HDFS:

  • Dalam Senibina Persekutuan HDFS, kami mempunyai skalabiliti perkhidmatan nama yang mendatar. Oleh itu, kami mempunyai beberapa NameNodes yang digabungkan, iaitu saling bergantung antara satu sama lain.
  • DataNodes ada di bahagian bawah iaitu lapisan simpanan yang mendasari.
  • Setiap DataNode mendaftar dengan semua NameNodes dalam kluster.
  • DataNodes menghantar degupan jantung berkala, menyekat laporan dan menangani arahan dari NameNodes.

Gambaran bergambar Senibina Persekutuan HDFS diberikan di bawah:

Sebelum melangkah ke hadapan, izinkan saya bercakap secara ringkas mengenai gambar seni bina di atas:

  • Terdapat banyak ruang nama (NS1, NS2,…, NSn) dan masing-masing dikendalikan oleh NameNode masing-masing.
  • Setiap ruang nama mempunyai kumpulan bloknya sendiri (NS1 mempunyai Kolam 1, NSk mempunyai Kolam k dan sebagainya).
  • Seperti yang ditunjukkan dalam gambar, blok dari kolam 1 (biru langit) disimpan di DataNode 1, DataNode 2 dan sebagainya. Begitu juga, semua blok dari setiap kumpulan blok akan berada di semua DataNodes.

Sekarang, mari kita fahami komponen Senibina Persekutuan HDFS secara terperinci:

Blok Kolam:

Kumpulan blok tidak lain hanyalah sekumpulan blok milik Ruang Nama tertentu. Oleh itu, kami mempunyai koleksi kumpulan blok di mana setiap kumpulan blok dikendalikan secara bebas dari yang lain. Kebebasan ini di mana setiap kumpulan blok diurus secara bebas membolehkan ruang nama membuat ID Blok untuk blok baru tanpa koordinasi dengan ruang nama yang lain. Blok data yang terdapat di semua kumpulan blok disimpan di semua DataNodes. Pada asasnya, kumpulan blok memberikan abstraksi sehingga blok data yang berada di DataNodes (seperti dalam Senibina Ruang Nama Tunggal) dapat dikelompokkan sesuai dengan ruang nama tertentu.

apakah maksud ruang nama dalam c ++

Isipadu ruang nama:

Kelantangan ruang nama tidak lain adalah ruang nama bersama dengan kumpulan bloknya. Oleh itu, di HDFS Federation kita mempunyai banyak isi ruang nama. Ini adalah unit pengurusan yang serba lengkap, iaitu setiap volume ruang nama dapat berfungsi secara bebas. Sekiranya NameNode atau namespace dihapus, kumpulan blok yang sesuai yang berada di DataNodes juga akan dihapus.

Demo On Hadoop 2.0 Cluster Architecture Federation | Edureka

Sekarang, saya rasa anda mempunyai idea yang cukup baik mengenai Senibina Persekutuan HDFS. Ia lebih merupakan konsep teori dan orang tidak menggunakannya dalam sistem pengeluaran praktikal secara amnya. Terdapat beberapa masalah pelaksanaan dengan HDFS Federation yang menyukarkan penggunaannya. Oleh itu, Senibina HA (Ketersediaan Tinggi) lebih disukai untuk menyelesaikan masalah Single Point of Failure. Saya telah merangkumi Senibina HDFS HA di blog saya yang seterusnya.

Sekarang setelah anda memahami Hadoop HDFS Federation Architecture, lihat oleh Edureka, sebuah syarikat pembelajaran dalam talian yang dipercayai dengan rangkaian lebih daripada 250,000 pelajar berpuas hati yang tersebar di seluruh dunia. Kursus Latihan Pensijilan Hadoop Data Besar Edureka membantu pelajar menjadi pakar dalam bidang HDFS, Benang, MapReduce, Babi, Hive, HBase, Oozie, Flume dan Sqoop menggunakan kes penggunaan masa nyata pada domain Runcit, Media Sosial, Penerbangan, Pelancongan, Kewangan.

Ada soalan untuk kami? Sila sebutkan di bahagian komen dan kami akan menghubungi anda.