Tutorial HDFS: Pengenalan kepada HDFS & Ciri-Cirinya



Blog Tutorial HDFS ini akan membantu anda memahami HDFS atau Hadoop Distused File System & ciri-cirinya. Anda juga akan meneroka komponen utamanya secara ringkas.

Tutorial HDFS

Sebelum melangkah maju dalam blog tutorial HDFS ini, izinkan saya meneliti beberapa statistik gila yang berkaitan dengan HDFS:

  • Pada tahun 2010, Facebook mendakwa mempunyai salah satu penyimpanan kluster HDFS terbesar 21 Petabyte data.
  • Pada 2012, Facebook menyatakan bahawa mereka mempunyai kelompok HDFS tunggal terbesar dengan lebih daripada 100 PB data .
  • Dan Yahoo ! mempunyai lebih daripada 100,000 CPU dalam lebih 40,000 pelayan menjalankan Hadoop, dengan kluster Hadoop terbesarnya berjalan 4,500 nod . Semua diberitahu, Yahoo! kedai 455 petabyte data dalam HDFS.
  • Sebenarnya, pada tahun 2013, sebilangan besar nama besar di Fortune 50 mula menggunakan Hadoop.

Terlalu sukar dicerna? Betul. Seperti yang dibincangkan dalam , Hadoop mempunyai dua unit asas - S torage dan Memproses . Apabila saya mengatakan bahagian penyimpanan Hadoop, saya merujuk kepada HDFS yang bermaksud Sistem Fail Teragih Hadoop . Oleh itu, dalam blog ini, saya akan memperkenalkan anda HDFS .





Di sini, saya akan bercakap mengenai:

  • Apa itu HDFS?
  • Kelebihan HDFS
  • Ciri HDFS

Sebelum bercakap mengenai HDFS, izinkan saya memberitahu anda, apa itu Sistem Fail Teragih?



DFS atau Sistem Fail Teragih:

Sistem Fail Teragih membincangkan mengurus data , iaitu fail atau folder di pelbagai komputer atau pelayan. Dengan kata lain, DFS adalah sistem fail yang membolehkan kita menyimpan data melalui beberapa nod atau mesin dalam kluster dan membolehkan beberapa pengguna mengakses data. Jadi pada dasarnya, ia berfungsi untuk tujuan yang sama seperti sistem fail yang terdapat di mesin anda, seperti untuk windows yang anda mempunyai NTFS (Sistem Fail Teknologi Baru) atau untuk Mac anda mempunyai HFS (Sistem Fail Hierarki). Satu-satunya perbezaan ialah, sekiranya Sistem Fail Terdistribusi, anda menyimpan data dalam beberapa mesin dan bukannya mesin tunggal. Walaupun fail disimpan di seluruh rangkaian, DFS mengatur, dan memaparkan data sedemikian rupa sehingga pengguna yang duduk di mesin akan merasa semua data disimpan di mesin itu.

Apa itu HDFS?

Sistem fail Hadoop Terdistribusi atau HDFS adalah sistem fail diedarkan berasaskan Java yang membolehkan anda menyimpan data besar di beberapa nod dalam kluster Hadoop. Oleh itu, jika anda memasang Hadoop, anda akan mendapat HDFS sebagai sistem penyimpanan yang mendasari untuk menyimpan data di persekitaran yang diedarkan.

Mari kita ambil contoh untuk memahaminya. Bayangkan bahawa anda mempunyai sepuluh mesin atau sepuluh komputer dengan cakera keras 1 TB pada setiap mesin. Sekarang, HDFS mengatakan bahawa jika anda memasang Hadoop sebagai platform di atas sepuluh mesin ini, anda akan mendapat HDFS sebagai perkhidmatan penyimpanan. Sistem Fail Didistribusikan Hadoop diedarkan sedemikian rupa sehingga setiap mesin menyumbang penyimpanan masing-masing untuk menyimpan segala jenis data.



Tutorial HDFS: Kelebihan HDFS

1. Storan Teragih:

Storan Teragih - Tutorial HDFS - Edureka

Apabila anda mengakses sistem fail Hadoop Terdistribusi dari salah satu daripada sepuluh mesin dalam kluster Hadoop, anda akan merasa seolah-olah anda telah masuk ke satu mesin besar yang mempunyai kapasiti penyimpanan 10 TB (jumlah penyimpanan lebih dari sepuluh mesin). Apakah maksudnya? Ini bermaksud bahawa anda boleh menyimpan satu fail besar 10 TB yang akan diedarkan di sepuluh mesin (masing-masing 1 TB).Jadi, memang begitu tidak terhad kepada batasan fizikal setiap mesin individu.

2. Pengiraan Teragih & Selari:

Oleh kerana data dibahagikan di seluruh mesin, ini membolehkan kita memanfaatkannya Pengiraan Teragih dan Selari . Mari kita fahami konsep ini dengan contoh di atas. Misalkan, diperlukan 43 minit untuk memproses fail 1 TB pada satu mesin. Jadi, sekarang beritahu saya, berapa lama masa yang diperlukan untuk memproses fail 1 TB yang sama apabila anda mempunyai 10 mesin dalam kluster Hadoop dengan konfigurasi yang serupa - 43 minit atau 4.3 minit? 4.3 minit, Betul! Apa yang berlaku di sini? Setiap nod berfungsi dengan bahagian fail 1 TB secara selari. Oleh itu, kerja yang memakan masa 43 minit sebelumnya, selesai hanya dalam masa 4.3 minit sekarang kerana kerja tersebut dibahagi lebih dari sepuluh mesin.

3. Skalabiliti Mendatar:

Akhir sekali, marilah kita bercakap mengenai perkara ini penskalaan mendatar atau berskala keluar di Hadoop. Terdapat dua jenis penskalaan: menegak dan melintang . Dalam penskalaan menegak (naikkan skala), anda meningkatkan kapasiti perkakasan sistem anda. Dengan kata lain, anda memperoleh lebih banyak RAM atau CPU dan menambahkannya ke sistem yang ada untuk menjadikannya lebih kuat dan kuat. Tetapi ada cabaran yang berkaitan dengan peningkatan menegak atau peningkatan:

  • Selalu ada had di mana anda dapat meningkatkan kapasiti perkakasan anda. Jadi, anda tidak dapat terus meningkatkan RAM atau CPU mesin.
  • Dalam skala menegak, anda menghentikan mesin anda terlebih dahulu. Kemudian anda menambah RAM atau CPU untuk menjadikannya timbunan perkakasan yang lebih mantap. Setelah meningkatkan kapasiti perkakasan anda, anda hidupkan semula mesin. Waktu henti ketika anda menghentikan sistem anda menjadi satu cabaran.

Dalam kes skala mendatar (skala keluar) , anda menambah lebih banyak nod ke kluster yang ada dan bukannya meningkatkan kapasiti perkakasan mesin individu. Dan yang paling penting, anda boleh tambah lebih banyak mesin semasa dalam perjalanan tanpa menghentikan sistem . Oleh itu, semasa membuat skala kecil, kita tidak mempunyai masa berhenti atau zon hijau, tidak ada yang serupa. Pada penghujung hari, anda akan mempunyai lebih banyak mesin yang berfungsi selari untuk memenuhi keperluan anda.

siri c ++ fibonacci

Video Tutorial HDFS:

Anda boleh melihat video yang diberikan di bawah ini di mana semua konsep yang berkaitan dengan HDFS telah dibincangkan secara terperinci:

Tutorial HDFS: Ciri HDFS

Kami akan memahami ciri-ciri ini secara terperinci apabila kami akan meneroka Senibina HDFS di blog tutorial HDFS kami yang seterusnya. Tetapi, buat masa ini, mari kita ikhtisar mengenai ciri HDFS:

  • Kos: HDFS, secara umum, digunakan pada perkakasan komoditi seperti desktop / komputer riba yang anda gunakan setiap hari. Jadi, sangat menjimatkan dari segi kos pemilikan projek. Oleh kerana, kami menggunakan perkakasan komoditi kos rendah, anda tidak perlu mengeluarkan sejumlah besar wang untuk mengurangkan kelompok Hadoop anda. Dengan kata lain, menambahkan lebih banyak nod pada HDFS anda adalah menjimatkan kos.
  • Kepelbagaian dan Isipadu Data: Apabila kita bercakap tentang HDFS maka kita bercakap tentang menyimpan data besar iaitu Terabyte & petabytes data dan pelbagai jenis data. Jadi, anda boleh menyimpan semua jenis data ke dalam HDFS, sama ada berstruktur, tidak berstruktur atau separa berstruktur.
  • Kebolehpercayaan dan Toleransi Kesalahan: Apabila anda menyimpan data pada HDFS, data tersebut secara dalaman membahagikan data yang diberikan ke dalam blok data dan menyimpannya secara tersebar di seluruh kelompok Hadoop anda. Maklumat mengenai blok data mana yang terletak di node data mana yang direkodkan dalam metadata. Nombor Nama menguruskan data meta dan Nod Data bertanggungjawab menyimpan data.
    Node nama juga meniru data iaitu menyimpan beberapa salinan data. Replikasi data ini menjadikan HDFS sangat dipercayai dan bertolak ansur dengan kesalahan. Oleh itu, walaupun mana-mana node gagal, kita dapat mengambil data dari replika yang berada di nod data lain. Secara lalai, faktor replikasi adalah 3. Oleh itu, jika anda menyimpan 1 GB fail dalam HDFS, ia akhirnya akan menempati ruang 3 GB. Node nama secara berkala mengemas kini metadata dan mengekalkan faktor replikasi yang konsisten.
  • Integriti Data: Data Integrity membincangkan sama ada data yang disimpan di HDFS saya betul atau tidak. HDFS sentiasa memeriksa integriti data yang disimpan berbanding dengan checksumnya. Sekiranya terdapat kesalahan, ia akan melaporkan kepada simpul nama mengenainya. Kemudian, simpul nama membuat replika baru tambahan dan oleh itu menghapus salinan yang rosak.
  • Hasil Tinggi: Throughput adalah jumlah kerja yang dilakukan dalam satuan masa. Ia membincangkan seberapa cepat anda dapat mengakses data dari sistem fail. Pada asasnya, ini memberi anda gambaran mengenai prestasi sistem. Seperti yang anda lihat dalam contoh di atas di mana kami menggunakan sepuluh mesin secara kolektif untuk meningkatkan pengiraan. Di sana kami dapat mengurangkan masa pemprosesan dari 43 minit semata-mata 4.3 minit kerana semua mesin berfungsi selari. Oleh itu, dengan memproses data secara selari, kami menurunkan waktu pemprosesan dengan sangat tinggi dan dengan itu, mencapai hasil yang tinggi.
  • Lokasi Data: Lokaliti data membincangkan tentang memindahkan unit pemprosesan ke data dan bukannya data ke unit pemprosesan. Dalam sistem tradisional kami, kami biasa membawa data ke lapisan aplikasi dan kemudian memprosesnya. Tetapi sekarang, kerana seni bina dan jumlah data yang besar, data akan dibawa ke lapisan aplikasimengurangkan prestasi rangkaian ke tahap yang ketara.Oleh itu, dalam HDFS, kami membawa bahagian pengiraan ke nod data di mana data berada. Oleh itu, anda tidak memindahkan data, anda membawa program atau prosessebahagian data.

Jadi sekarang, anda mempunyai idea ringkas mengenai HDFS dan ciri-cirinya. Tetapi percayalah, ini hanyalah puncak gunung es. Di akhirat saya , Saya akan menyelam jauh ke dalam Senibina HDFS dan saya akan membongkar rahsia di sebalik kejayaan HDFS. Bersama-sama kita akan menjawab semua soalan yang sedang difikirkan seperti:

  • Apa yang berlaku di belakang tabir ketika anda membaca atau menulis data di Hadoop Distused File System?
  • Apa algoritma seperti kesedaran rak yang menjadikan HDFS begitu toleran terhadap kesalahan?
  • Bagaimana Sistem Fail Terdistribusi Hadoop mengurus dan membuat replika?
  • Apakah operasi blok?

Sekarang setelah anda memahami HDFS dan ciri-cirinya, lihat oleh Edureka, sebuah syarikat pembelajaran dalam talian yang dipercayai dengan rangkaian lebih daripada 250,000 pelajar berpuas hati yang tersebar di seluruh dunia. Kursus Latihan Pensijilan Hadoop Data Besar Edureka membantu pelajar menjadi pakar dalam bidang HDFS, Benang, MapReduce, Babi, Hive, HBase, Oozie, Flume dan Sqoop menggunakan kes penggunaan masa nyata pada domain Runcit, Media Sosial, Penerbangan, Pelancongan, Kewangan.

Ada soalan untuk kami? Sila sebutkan di bahagian komen dan kami akan menghubungi anda.