Alat Hadoop Penting untuk Menghancurkan Data Besar



Hadoop adalah kata buzz dalam dunia IT hari ini, dan catatan ini menerangkan tentang alat Hadoop penting yang merangkumi Big Data.

Hari ini, istilah yang paling popular di dunia IT ialah ‘Hadoop’. Dalam jangka masa yang singkat, Hadoop telah berkembang secara besar-besaran dan terbukti berguna untuk koleksi pelbagai projek. Komuniti Hadoop berkembang pesat dan mempunyai peranan penting dalam eko-sistemnya.





Berikut adalah alat Hadoop penting yang digunakan untuk menangani Big Data.

ralat oracle pl sql mengendalikan amalan terbaik

ambari



Ambari adalah projek Apache yang disokong oleh Hortonworks. Ia menawarkan GUI berasaskan web (Antaramuka Pengguna Grafik) dengan skrip wizard untuk mengatur kluster dengan kebanyakan komponen standard. Ambari memperuntukkan, mengurus dan memantau semua kelompok pekerjaan Hadoop.

hdfs-logo

The HDFS , diedarkan di bawah lesen Apache menawarkan kerangka asas untuk memisahkan koleksi data antara beberapa nod. Dalam HDFS, fail besar dipecah menjadi blok, di mana beberapa nod menyimpan semua blok dari satu fail. Sistem fail direka dengan cara untuk menggabungkan toleransi kesalahan dengan throughput yang tinggi. Blok HDFS dimuat untuk mengekalkan aliran berterusan. Mereka biasanya tidak disimpan dalam cache untuk mengurangkan kependaman.



hbaselogo

HBase adalah sistem pengurusan pangkalan data berorientasikan lajur yang berjalan di atas HDFS. Aplikasi HBase ditulis dalam Java, sangat mirip dengan aplikasi MapReduce. Ini terdiri dari satu set tabel, di mana setiap tabel berisi baris dan lajur seperti pangkalan data tradisional. Apabila data jatuh ke dalam jadual besar, HBase akan menyimpan data, mencarinya dan berkongsi jadual secara automatik di beberapa nod sehingga tugas MapReduce dapat menjalankannya secara tempatan. HBase menawarkan jaminan terhad untuk beberapa perubahan tempatan. Perubahan yang berlaku dalam satu baris boleh berjaya atau gagal pada masa yang sama.

hive

Sekiranya anda sudah fasih menggunakan SQL, maka anda dapat memanfaatkan Hadoop menggunakan Sarang . Hive dikembangkan oleh beberapa orang di Facebook. Apache Hive mengatur proses mengekstrak bit dari semua fail di HBase. Ia menyokong analisis set data besar yang disimpan dalam HDFS Hadoop dan sistem fail yang serasi. Ini juga menyediakan bahasa seperti SQL yang disebut HSQL (HiveSQL) yang masuk ke dalam fail dan mengekstrak potongan yang diperlukan untuk kod tersebut.

sqoop

Apache Sqoop direka khas untuk memindahkan data pukal dengan cekap dari pangkalan data tradisional ke Hive atau HBase. Ia juga dapat digunakan untuk mengekstrak data dari Hadoop dan mengeksportnya ke kedai data berstruktur luaran seperti pangkalan data relasional dan gudang data perusahaan. Sqoop adalah alat baris perintah, pemetaan antara jadual dan lapisan penyimpanan data, menerjemahkan jadual menjadi gabungan HDFS, HBase atau Hive yang dapat dikonfigurasi.

Pig1

Apabila data yang disimpan dapat dilihat oleh Hadoop, Babi Apache menyelami data dan menjalankan kod yang ditulis dalam bahasanya sendiri, yang disebut Pig Latin. Pig Latin dipenuhi dengan abstraksi untuk mengendalikan data. Babi dilengkapi dengan fungsi standard untuk tugas biasa seperti rata-rata data, bekerja dengan tarikh, atau untuk mencari perbezaan antara rentetan. Babi juga membolehkan pengguna menulis bahasa dengan sendirinya, yang disebut UDF (Fungsi Ditentukan Pengguna), apabila fungsi standard tidak berfungsi.

zookeper

Penjaga zoo adalah perkhidmatan terpusat yang mengekalkan, mengkonfigurasi maklumat, memberikan nama dan memberikan penyegerakan yang diedarkan di seluruh kelompok. Ini memaksakan hierarki sistem fail pada kluster dan menyimpan semua metadata untuk mesin, jadi kami dapat menyegerakkan kerja dari berbagai mesin.

NoSQL

Beberapa kelompok Hadoop bergabung dengan NoSQL penyimpanan data yang dilengkapi dengan mekanisme mereka sendiri untuk menyimpan data di sekumpulan nod. Ini memungkinkan mereka menyimpan dan mengambil data dengan semua ciri pangkalan data NoSQL, setelah itu Hadoop dapat digunakan untuk menjadwalkan pekerjaan analisis data pada kluster yang sama.

mahoutlogo

Mahout dirancang untuk melaksanakan sebilangan besar algoritma, klasifikasi dan penyaringan analisis data ke kluster Hadoop. Banyak algoritma standard seperti K-berarti, Dirichelet, corak selari dan klasifikasi Bayesian siap dijalankan pada data dengan Peta gaya Hadoop dan dikurangkan.

Lucene, ditulis dalam Java dan digabungkan dengan mudah dengan Hadoop, adalah pendamping semula jadi untuk Hadoop. Ini adalah alat yang dimaksudkan untuk mengindeks blok besar teks tidak berstruktur. Lucene menangani pengindeksan, sementara Hadoop menangani pertanyaan yang diedarkan di seluruh kelompok. Ciri-ciri Lucene-Hadoop berkembang pesat ketika projek baru sedang dibangunkan.

Avro

Euro adalah sistem serialisasi yang menggabungkan data bersama dengan skema untuk memahaminya. Setiap paket dilengkapi dengan struktur data JSON. JSON menerangkan bagaimana data dapat dihuraikan. Header JSON menentukan struktur data, di mana keperluan untuk menulis tag tambahan dalam data untuk menandakan bidang dapat dihindari. Hasilnya jauh lebih padat daripada format tradisional seperti XML.

Pekerjaan dapat dipermudah dengan memecahnya menjadi beberapa langkah. Semasa memecahkan projek ke beberapa pekerjaan Hadoop, Oozie mula memprosesnya mengikut urutan yang betul. Ia menguruskan aliran kerja seperti yang ditentukan oleh DAG (Direct Acyclic Graph) dan tidak perlu monitor tepat pada masanya.

Alat GIS

Bekerja dengan peta geografi adalah tugas besar bagi kelompok yang menjalankan Hadoop. GIS ( Sistem Maklumat Geografi ) alat untuk projek Hadoop telah menyesuaikan alat berasaskan Java terbaik untuk memahami maklumat geografi untuk dijalankan dengan Hadoop. Pangkalan data kini dapat menangani pertanyaan geografi menggunakan koordinat dan kodnya dapat menggunakan alat GIS.

Mengumpulkan semua data sama dengan menyimpan dan menganalisisnya. Bulu Apache menghantar ‘ejen khas’ untuk mengumpulkan maklumat yang akan disimpan dalam HDFS. Maklumat yang dikumpulkan boleh berupa fail log, Twitter API, atau sekerap laman web. Data ini dapat dirantai dan dianalisis.

Spark

Percikan api adalah generasi seterusnya yang berfungsi seperti Hadoop yang memproses data yang disimpan dalam memori. Objektifnya adalah untuk membuat analisis data cepat dijalankan dan ditulis dengan model pelaksanaan umum. Ini dapat mengoptimumkan grafik operator sewenang-wenangnya dan menyokong pengkomputeran dalam memori, yang memungkinkannya membuat pertanyaan data lebih cepat daripada enjin berasaskan cakera seperti Hadoop.

SQL pada Hadoop

Apabila diperlukan untuk menjalankan pertanyaan ad-hoc cepat dari semua data dalam kluster, pekerjaan Hadoop baru dapat ditulis, tetapi ini memerlukan sedikit masa. Apabila pengaturcara mula melakukan ini lebih kerap, mereka membuat alat yang ditulis dalam bahasa SQL yang mudah. Alat ini menawarkan akses cepat ke hasil.

Bor Apache

Apache Drill menyediakan pertanyaan ad-hoc latensi rendah kepada banyak dan pelbagai sumber data, termasuk data bersarang. Drill, yang diilhami oleh Dremel Google, dirancang untuk meningkatkan hingga 10.000 pelayan dan menanyakan petabyte data dalam beberapa saat.

Ini adalah alat Hadoop penting untuk menyusun Big Data!

Ada soalan untuk kami? Sila sebutkan di bahagian komen dan kami akan menghubungi anda.

Catatan berkaitan:

Sebab Praktikal untuk Belajar Hadoop 2.0