Dengan peningkatan permintaan untuk Big Data, dan Apache Hadoop adalahdiinti revolusi, ia telah mengubah cara kita mengatur dan mengira data. Keperluan organisasi untuk menyelaraskan Hadoop dengan keperluan perniagaan mereka telah mendorong munculnya pengedaran komersial. Pengagihan Hadoop Komersial biasanya dikemas dengan ciri-ciri, yang dirancang untuk melancarkan penggunaan Hadoop. Cloudera Hadoop Distribution menyediakan platform berskala, fleksibel dan bersepadu yang memudahkan untuk menguruskan jumlah dan jenis data yang meningkat dengan cepat di perusahaan anda.
Dalam blog ini di Cloudera Hadoop Distribution, kita akan membahas topik berikut:
Cloudera Hadoop: Pengenalan Hadoop
Hadoop adalah kerangka sumber terbuka Apache yang menyimpan dan memproses Big Data dalam persekitaran yang diedarkanmelintasikluster menggunakan model pengaturcaraan sederhana. Hadoop memberikan pengiraan selari di atas simpanan diedarkan.Untuk mengetahui lebih lanjut mengenai Hadoop secara terperinci dari anda boleh merujuk perkara ini
Selepas pengenalan ringkas Hadoop ini, izinkan saya menerangkan pelbagai jenis Pengagihan Hadoop.
Cloudera Hadoop: Pengagihan Hadoop
Oleh kerana Apache Hadoop adalah sumber terbuka, banyak syarikat telah mengembangkan pengedaran yang melampaui kod sumber terbuka yang asal. Ini sangat mirip dengan pengedaran Linux seperti RedHat, Fedora, dan Ubuntu. Setiap distribusi Linux menyokong fungsi dan ciri tersendiri seperti GUI yang mesra pengguna di Ubuntu. Begitu juga, topi merah popular di dalam syarikat kerana menawarkan sokongan dan juga memberikan ideologi untuk membuat perubahan pada mana-mana bahagian sistem sesuka hati. Red Hat melegakan anda dari masalah keserasian perisian. Ini biasanya merupakan masalah besar bagi penggunayang beralih dari Windows.
Begitu juga, terdapat 3 jenis pengedaran Hadoop utama yang mempunyai sekumpulan fungsi dan ciri tersendiri dan dibina di bawah HDFS asas.
Cloudera vs MapR vs Hortonworks

Gambar: MapR vs Hortonworks vs Cloudera
Pengedaran Cloudera Hadoop
Cloudera adalah trend pasaran di ruang Hadoop dan merupakan yang pertama melancarkan pengedaran Hadoop komersial. Ia menawarkan perkhidmatan perundingan untuk merapatkan jurang antara - 'apa yang disediakan Apache Hadoop' dan 'organisasi apa yang diperlukan'.
Pembahagian Cloudera adalah:
- Cepat untuk perniagaan : Dari analisis hingga sains data dan semua yang ada di antara, Cloudera memberikan prestasi yang anda perlukan untuk membuka potensi data tanpa had.
- Menjadikan Hadoop mudah diuruskan : Dengan Cloudera Manager, ahli sihir automatik membolehkan anda menggunakan kluster dengan cepat, tanpa mengira skala atau lingkungan penyebaran.
- Selamat tanpa kompromi: Memenuhi keperluan keselamatan dan kepatuhan data yang ketat tanpa mengorbankan ketangkasan perniagaan. Cloudera menyediakan pendekatan bersepadu untuk keselamatan dan tadbir urus data.
Horton-Kerja Pembahagian
Platform Data Horton-Works (HDP) sepenuhnya merupakan platform sumber terbuka yang direka untuk menggerakkan data dari banyak sumber dan format. Platform ini merangkumi pelbagai alat Hadoop seperti Hadoop Distused File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive, dan komponen tambahan.
Ia juga menyokong ciri seperti:
- HDP menjadikan Hive lebih pantas melalui projek Stinger barunya.
- HDP mengelakkan penguncian vendor dengan berjanji pada versi Hadoop yang bercabang.
- HDP difokuskan untuk meningkatkan kebolehgunaan dari platform Hadoop.
Pembahagian MapR
MapR adalah penyedia penyelesaian Hadoop yang berfokus pada platform, seperti HortonWorks dan Cloudera. MapR mengintegrasikan sistem pangkalan data sendiri, yang dikenali sebagai MapR-DB sambil menawarkan perkhidmatan pengedaran Hadoop. MapR-DB diklaim empat hingga tujuh kali lebih cepat daripada pangkalan data Hadoop stok, iaitu HBase, yang dijalankan pada pengedaran lain.
Ia mempunyai ciri-ciri menarik seperti:
- Ini adalah satu-satunya pengedaran Hadoop yang merangkumi Babi, Hive, dan Sqoop tanpa pergantungan Java - kerana bergantung pada Sistem File MapR.
- MapR adalah pengedaran Hadoop yang paling banyak dihasilkan dengan banyak peningkatan yang menjadikannya lebih mesra pengguna, lebih pantas dan boleh dipercayai.
Sekarang mari kita bincangkan Pengedaran Cloudera Hadoop secara mendalam.
Langgan saluran YouTube kami untuk mendapatkan kemas kini baru ...
Cloudera Hadoop: Pembahagian Cloudera
Cloudera adalah pemain paling terkenal di ruang Hadoop untuk melepaskan pengedaran Hadoop komersial pertama.
Rajah: Pembahagian Cloudera Hadoop
Cloudera Hadoop Distribution menyokong sekumpulan ciri berikut:
- Cloudera CDH merangkumi semua komponen sumber terbuka, mensasarkan penggunaan kelas perusahaan, dan merupakan salah satu pengedaran Hadoop komersial yang paling popular.
- Terkenal dengan inovasi, Cloudera adalah yang pertama menawarkannya SQL-untuk-Hadoop dengan yang Impala enjin pertanyaan.
- Konsol pengurusan - Pengurus Cloudera , mudah digunakan dan dilaksanakan dengan antara muka pengguna yang kaya menampilkan semua maklumat kluster secara teratur dan bersih.
- Dalam CDH, anda boleh menambahkan perkhidmatan ke kluster yang sedang berjalan dan berjalan tanpa gangguan.
- Penambahan Cloudera yang lain merangkumi keselamatan, antara muka pengguna, dan antara muka untuk penyatuan dengan aplikasi pihak ketiga.
- CDH menyediakan Templat Nod ia membolehkan pembuatan kumpulan nod dalam kluster Hadoop dengan konfigurasi yang berbeza-beza. Ini membasmi penggunaan konfigurasi yang sama di seluruh kelompok Hadoop.
- Ia juga menyokong:
- Kebolehpercayaan
Vendor Hadoop segera bertindak sebagai tindak balas setiap kali bug dikesan. Dengan niat untuk menjadikan penyelesaian komersil lebih stabil, tambalan dan pembaikan akan segera digunakan. Sokongan
Vendor Cloudera Hadoop memberikan bimbingan dan bantuan teknikal yang memudahkan pelanggan mengadopsi Hadoop untuk tugas peringkat perusahaan dan aplikasi yang penting.Kesempurnaan
Penjual Hadoop menggandingkan pengedaran mereka dengan pelbagai alat tambahan lain yang membantu pelanggan menyesuaikan aplikasi Hadoop untuk menangani tugas khusus mereka.
- Kebolehpercayaan
Pengedaran Cloudera hadir dengan 2 jenis edisi yang berbeza.
- Edisi Ekspres Cloudera
- Edisi Perusahaan Cloudera
Sekarang mari kita lihat perbezaan antara mereka.
ciri-ciri | Cloudera-Express | Cloudera-Enterprise |
Pengurusan Kluster | ||
1. Pengurusan Pelbagai Kluster | Ya | Ya |
2. Pengurusan Sumber | Ya | Ya |
Penyebaran | ||
1. Sokongan untuk CDH 4 dan 5 | Ya | Ya |
2. Menaiktaraf CDH secara bergulir | Tidak | Ya |
Pengurusan Perkhidmatan dan Konfigurasi | ||
1. Urus perkhidmatan HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark, dan Accumulo | Ya | Ya |
2. Memulakan semula perkhidmatan | Tidak | Ya |
Keselamatan | ||
1. Pengesahan LDAP | Tidak | Ya |
2. Pengesahan SAML | Tidak | Ya |
Pemantauan dan Diagnostik | ||
1. Sejarah Kesihatan | Ya | Ya |
Pengurusan Makluman | ||
1. Makluman melalui e-mel | Ya | Ya |
2. Makluman melalui SNMP | Tidak | Ya |
Ciri Pengurusan Lanjutan | ||
1. Sandaran dan pemulihan automatik | Tidak | Ya |
2. Melayari dan mencari fail | Tidak | Ya |
3. Laporan penggunaan MapReduce, Impala, HBase, Benang | Tidak | Ya |
Cloudera Hadoop: Pengurus Cloudera
Menurut Cloudera, Cloudera Manager adalah kaedah terbaik untuk pasang , konfigurasikan , mengurus , dan memantau timbunan Hadoop.
Ia menyediakan:
- Penyebaran dan konfigurasi automatik
- Pemantauan dan pelaporan yang disesuaikan
- Penyelesaian masalah yang kuat dan berkesan
- Sifar - Penyelenggaraan Waktu Henti
Dapatkan Pengetahuan mendalam tentang Cloudera Hadoop dan pelbagai alatnya
Demonstrasi Pengurus Cloudera
Mari terokai Pengurus Cloudera.
1. Gambar di bawah menunjukkan jumlah perkhidmatan yang sedang dijalankan di Cloudera Manager. Anda juga dapat melihat grafik mengenai penggunaan CPU kluster, penggunaan Disk IO, dll.
Rajah: Halaman Utama Pengurus Cloudera
2. Gambar di bawah menunjukkan kluster HBase. Ini memberi anda carta dan grafik mengenai keadaan kesihatan pelayan HBase REST yang sedang berjalan.
Rajah: Keadaan Kesihatan pelayan HBase
3. Sekarang, mari kita lihat tab Instance dari kluster HBase di mana anda boleh memeriksa status dan konfigurasi IP.
Gambar: Status dan alamat IP Pelayan Host kluster HBase
4. Seterusnya, anda mempunyai tab Konfigurasi. Di sini anda dapat melihat semua parameter konfigurasi dan mengubah nilainya.
Rajah: Konfigurasi kluster HBase
tutorial spring mvc untuk pemula
Sekarang, mari kita fahami apa itu Petak di Cloudera.
Cloudera Hadoop: Bungkusan
Bungkusan adalah format pengedaran binari yang mengandungi fail program, bersama dengan metadata tambahan yang digunakan oleh Pengurus Cloudera.
Bungkusan mandiri dan dipasang dalam direktori versi, yang bermaksud bahawa banyak versi perkhidmatan tertentu dapat dipasang secara bersebelahan.
Berikut adalah faedah menggunakan Parcel:
Ini menyediakan pengedaran CDH sebagai objek tunggal, bukannya mempunyai paket terpisah untuk setiap bahagian CDH, bungkusan hanya mempunyai satu objek untuk dipasang.
Ia menawarkan konsistensi dalaman (kerana CDH lengkap diedarkan sebagai satu bungkusan, semua komponen CDH dipadankan dan tidak akan ada risiko bahagian yang berbeza dari versi CDH yang berbeza).
Anda boleh memasang, menaik taraf, menurunkan, menyebarkan, dan mengaktifkan bungkusan dalam CDH menggunakan beberapa klik.
Sekarang, mari kita lihat cara memasang dan mengaktifkan perkhidmatan Kafka di CDH menggunakan Parcels.
- Pergi ke halaman utama pengurus Cloudera >> Hosts >> Bungkusan seperti yang ditunjukkan di bawah
Gambar: Memilih bungkusan dari tuan rumah
2. Sekiranya anda tidak melihat Kafka dalam senarai bungkusan, anda boleh menambahkan bungkusan itu ke dalam senarai.
- Cari bungkusan versi Kafka yang ingin anda gunakan. Sekiranya anda tidak melihatnya, anda boleh menambahkan repositori bungkusan ke senarai.
- Cari bungkusan untuk versi Kafka yang ingin anda pasang - Pembahagian Cloudera Versi Apache Kafka .
Gambar di bawah menunjukkan perkara yang sama.
Gambar: Jalan repositori untuk bungkusan.
3. Salin pautan seperti yang ditunjukkan pada gambar di atas dan tambahkannya ke Remote Parcel Repository seperti gambar di bawah.
Gambar: Penambahan jalan Kafka dari repositori
Empat.Setelah menambah jalan, Kafka akan siap dimuat turun. Anda hanya boleh klik pada butang muat turun dan memuat turun Kafka.
Gambar: Memuat turun Kafka
5. Setelah Kafka dimuat turun, semua yang perlu anda lakukan ialah menyebarkan dan mengaktifkannya.
Gambar: Mengaktifkan Kafka
Setelah diaktifkan, anda boleh terus melihat Kafka di tab perkhidmatan di Cloudera manager.
Gambar: Perkhidmatan Kafka
Cloudera Hadoop: Membuat Aliran Kerja Oozie
Membuat aliran kerja dengan menulis kod XML secara manual dan kemudian melaksanakannya, adalah rumit. Anda boleh merujuk ini Menjadualkan pekerjaan Oozie blog, untuk mengetahui tentang pendekatan tradisional.
Anda dapat melihat gambar di bawah, di mana kami telah menulis fail XML untuk membuat aliran kerja Oozie yang ringkas. Gambar: Membuat aliran kerja Oozie menggunakan pendekatan Tradisional
Seperti yang anda lihat bahkan untuk membuat penjadual Oozie yang sederhana, kami harus menulis kod XML yang besar yang memakan masa, dan menyahpepijat setiap baris menjadi membebankan. Untuk mengatasinya, Cloudera Manager memperkenalkan ciri baru yang disebut Hue yang menyediakan GUI dan ciri seret dan lepas yang sederhana untuk membuat dan melaksanakan aliran kerja Oozie.
Sekarang mari kita lihat bagaimana Hue melakukan tugas yang sama dengan cara yang dipermudahkan.
Sebelum membuat aliran kerja, pertama-tama buat fail input, iaitu clickstream.txt dan user.txt.
Dalam fail user.txt, kami mempunyai Id Pengguna, Nama, Umur, Negara, Jantina seperti yang ditunjukkan di bawah. Kami memerlukan fail pengguna ini untuk mengetahui jumlah pengguna dan klik pada URL (disebut dalam fail aliran klik) berdasarkan Id Pengguna.
Gambar: Membuat fail teks
Untuk mengetahui jumlah klik oleh pengguna pada setiap URL, kami mempunyai aliran klik yang mengandungi Id Pengguna dan URL.
Gambar: Fail aliran klik
Mari tulis pertanyaan dalam fail skrip.
Gambar: Fail skrip
Setelah membuat fail pengguna, fail aliran klik, dan fail skrip seterusnya, kita dapat terus maju dan membuat aliran kerja Oozie.
1. Anda hanya boleh menyeret dan melepaskan aliran kerja Oozie seperti yang ditunjukkan dalam gambar.
Gambar: Seret dan lepas ciri membuat aliran kerja Oozie
2. Segera setelah menghentikan tindakan Anda, Anda harus menentukan jalan ke file skrip dan menambahkan parameter yang disebutkan dalam file skrip. Di sini anda perlu menambahkan parameter OUTPUT, CLICKSTREAM, dan USER dan tentukan jalan ke setiap parameter.
Gambar: Menambah fail skrip dan Parameter yang diperlukan untuk melaksanakan tindakan
3. Setelah anda menentukan jalan dan menambahkan parameternya, sekarang cukup simpan dan serahkan aliran kerja seperti yang ditunjukkan pada gambar di bawah.
Gambar: Menyimpan dan menyerahkan tindakan Oozie
4. Setelah anda menyerahkan tugas, tugas anda selesai. Pelaksanaan dan langkah-langkah lain dijaga oleh Hue.
Gambar: Status pelaksanaan pekerjaan Oozie
5.Sekarang kita telah melaksanakan tugas Oozie, mari kita lihat tab tindakan. Ia mengandungi ID pengguna dan status aliran kerja. Ia juga menunjukkan kod ralat jika ada, masa mula dan akhir item tindakan.
Gambar: Elemen yang terdapat di tab tindakan aliran kerja Oozie
6. Di sebelah tab tindakan adalah tab butiran. Di sini, kita dapat melihat masa mula dan masa terakhir kerja yang diubah suai.
Gambar: Perincian aliran kerja Oozie.
7. Di sebelah tab Butiran, kita mempunyai tab Konfigurasi aliran kerja.
Gambar: Tetapan konfigurasi aliran kerja Oozie
7. Semasa menjalankan item tindakan, jika ada kesalahan, ia akan disenaraikan di tab Log. Anda boleh merujuk penyataan ralat dan menyahpepijatnya dengan betul.
Rajah: Fail log yang mengandungi kod ralat dan pernyataan ralat
8. Berikut adalah kod XML dari aliran kerja yang dihasilkan secara automatik oleh Hue.
apakah carian binari di java
Rajah: Kod XML aliran kerja Oozie
9.1. Seperti yang telah anda tentukan jalan untuk direktori output pada langkah 2, di sini anda mempunyai direktori output dalam Penyemak Imbas HDFS seperti yang ditunjukkan di bawah.
Gambar: Direktori output Penyemak Imbas HDFS
9.2 Setelah anda mengklik pada direktori output, anda akan menemui fail teks yang dinamakan sebagai output.txt dan fail teks tersebut mengandungi output sebenar seperti yang ditunjukkan pada gambar di bawah.
Rajah: Teks keluaran akhir
Ini adalah bagaimana Hue mempermudah kerja kami dengan memberikan pilihan seret dan lepas untuk membuat aliran kerja Oozie.
Saya harap blog ini berguna untuk memahami Pengedaran Cloudera dan Komponen Cloudera yang berbeza.
Ingin mengambil bahagian dalam revolusi Big Data?Sekarang setelah anda memahami Cloudera Hadoop Distribution, periksa oleh Edureka, sebuah syarikat pembelajaran dalam talian yang dipercayai dengan rangkaian lebih daripada 250,000 pelajar berpuas hati yang tersebar di seluruh dunia. Kursus Latihan Pensijilan Hadoop Data Besar Edureka membantu pelajar menjadi pakar dalam bidang HDFS, Benang, MapReduce, Babi, Hive, HBase, Oozie, Flume dan Sqoop menggunakan kes penggunaan masa nyata pada domain Runcit, Media Sosial, Penerbangan, Pelancongan, Kewangan.
Ada soalan untuk kami? Sila sebutkan di bahagian komen dan kami akan menghubungi anda.