PENGENALAN APACHE HIVE

Apache Hive adalah pakej Pergudangan Data yang dibina di atas Hadoop dan digunakan untuk analisis data. Hive disasarkan kepada pengguna yang selesa dengan SQL. Ini mirip dengan SQL dan disebut HiveQL, digunakan untuk mengurus dan meminta data terstruktur. Apache Hive digunakan untuk menghilangkan kerumitan Hadoop. Bahasa ini juga membolehkan pengatur peta / pengurangan tradisional untuk memasukkan pemetaan dan pengurang tersuai mereka. Ciri popular Hive adalah bahawa tidak perlu belajar Java.

Hive, rangka kerja pergudangan tarikh skala byte berskala terbuka berdasarkan Hadoop, dikembangkan oleh Pasukan Infrastruktur Data di Facebook. Hive juga merupakan salah satu teknologi yang digunakan untuk memenuhi keperluan di Facebook. Hive sangat popular di semua pengguna di Facebook secara dalaman dan digunakan untuk menjalankan ribuan pekerjaan di kluster dengan beratus-ratus pengguna, untuk pelbagai aplikasi. Kluster Hive-Hadoop di Facebook menyimpan lebih dari 2PB data mentah dan memuatkan 15 TB data secara berkala setiap hari.

Mari kita lihat beberapa ciri yang menjadikannya popular dan mesra pengguna:

Membolehkan pengaturcara memasukkan Mappers dan Reducer tersuai.
Mempunyai infrastruktur Data Warehouse.
Menyediakan alat untuk membolehkan ETL data mudah.
Mendefinisikan bahasa pertanyaan seperti SQL yang dipanggil QL.

Kes Penggunaan Apache Hive - Facebook:

Kes Penggunaan Hive - Facebook

Sebelum melaksanakan Hive, Facebook menghadapi banyak cabaran kerana ukuran data yang dihasilkan meningkat atau meletup, menjadikannya sangat sukar untuk mengatasinya. RDBMS tradisional tidak dapat menangani tekanan dan akibatnya Facebook mencari pilihan yang lebih baik. Untuk menyelesaikan masalah yang akan berlaku ini, Facebook pada mulanya mencuba menggunakan Hadoop MapReduce, tetapi dengan kesukaran dalam memprogram dan pengetahuan wajib dalam SQL, menjadikannya penyelesaian yang tidak praktikal. Hive membolehkan mereka mengatasi cabaran yang mereka hadapi.

Dengan Hive, mereka kini dapat melakukan perkara berikut:

java salinan cetek vs dalam

Jadual boleh dibahagi-bahagikan dan dibungkus
Fleksibiliti dan evolusi skema
Pemacu JDBC / ODBC ada
Jadual sarang dapat ditentukan secara langsung dalam HDFS
Extensible - Jenis, Format, Fungsi dan skrip

Kes Penggunaan Hive dalam Penjagaan Kesihatan:

Di mana untuk menggunakan sarang?

Apache Hive boleh digunakan di tempat berikut:

Perlombongan Data
Pemprosesan Log
Pengindeksan Dokumen
Pelanggan Menghadapi Kepintaran Perniagaan
Pemodelan Ramalan
Ujian Hipotesis

Senibina Hive:

Hive terdiri daripada komponen utama berikut:

Metastore - Untuk menyimpan metadata.
JDBC / ODBC - Query Compiler dan Execution Engine untuk menukar pertanyaan SQL kepada urutan MapReduce.
SerDe dan ObjectInspectors - Untuk format dan jenis data.
UDF / UDAF - Untuk Fungsi Ditentukan Pengguna.
Pelanggan - Serupa dengan baris arahan MySQL dan UI web.

Komponen Hive:

Metastore:

Metastore menyimpan maklumat mengenai jadual, partisi, lajur di dalam jadual. Terdapat 3 cara penyimpanan di Metastore: Metastore Terbenam, Metastore Tempatan dan Metastore Jauh. Sebilangan besarnya, Remote Metastore akan digunakan dalam mod pengeluaran.

Batasan Sarang:

Hive mempunyai batasan berikut dan tidak dapat digunakan dalam keadaan seperti itu:

Tidak direka untuk pemprosesan transaksi dalam talian.
Memberikan kependaman yang boleh diterima untuk penyemakan data interaktif.
Tidak menawarkan pertanyaan masa nyata dan kemas kini tahap baris.
Latensi untuk pertanyaan Hive umumnya sangat tinggi.

Ada soalan untuk kami? Sebutkannya di bahagian komen dan kami akan menghubungi anda.

Catatan berkaitan:

Perintah Hive

cara mengatur classpath di windows

Apache Hive adalah pakej Pergudangan Data yang dibina di atas Hadoop dan digunakan untuk analisis data. Hive disasarkan kepada pengguna yang selesa dengan SQL.

Kes Penggunaan Apache Hive - Facebook:

Kes Penggunaan Hive dalam Penjagaan Kesihatan:

Di mana untuk menggunakan sarang?

Senibina Hive:

Komponen Hive:

Batasan Sarang:

Kategori

Popular Articles

Persijilan PMP - Menjadi Profesional Pengurusan Projek yang diperakui

Bagaimana Melaksanakan Senarai Terpaut di Python?

Bagaimana Menjadi Jurutera Kecerdasan Buatan? Peta Jalan ke Masa Depan

Alat Perkhidmatan Mikro Teratas yang Perlu Anda Ketahui Pada 2019

Tutorial Chef - Transformasikan Infrastruktur Ke Dalam Kod

Apa itu Vektor di Java dan bagaimana kita menggunakannya?

DevOps dalam pelbagai domain - Bagaimana DevOps menyelesaikan masalah?

Apa itu Agregasi di Jawa dan mengapa anda memerlukannya?

Tutorial Spring MVC - Semua Yang Perlu Anda Ketahui

Bagaimana Mengendalikan Penjana Nombor Rawak dan String di Jawa?

Apakah Rancangan Sprint di Scrum?

Semua yang Perlu Anda Ketahui Mengenai Loose Coupling di Java