Apache Hive adalah pakej Pergudangan Data yang dibina di atas Hadoop dan digunakan untuk analisis data. Hive disasarkan kepada pengguna yang selesa dengan SQL. Ini mirip dengan SQL dan disebut HiveQL, digunakan untuk mengurus dan meminta data terstruktur. Apache Hive digunakan untuk menghilangkan kerumitan Hadoop. Bahasa ini juga membolehkan pengatur peta / pengurangan tradisional untuk memasukkan pemetaan dan pengurang tersuai mereka. Ciri popular Hive adalah bahawa tidak perlu belajar Java.
Hive, rangka kerja pergudangan tarikh skala byte berskala terbuka berdasarkan Hadoop, dikembangkan oleh Pasukan Infrastruktur Data di Facebook. Hive juga merupakan salah satu teknologi yang digunakan untuk memenuhi keperluan di Facebook. Hive sangat popular di semua pengguna di Facebook secara dalaman dan digunakan untuk menjalankan ribuan pekerjaan di kluster dengan beratus-ratus pengguna, untuk pelbagai aplikasi. Kluster Hive-Hadoop di Facebook menyimpan lebih dari 2PB data mentah dan memuatkan 15 TB data secara berkala setiap hari.
Mari kita lihat beberapa ciri yang menjadikannya popular dan mesra pengguna:
- Membolehkan pengaturcara memasukkan Mappers dan Reducer tersuai.
- Mempunyai infrastruktur Data Warehouse.
- Menyediakan alat untuk membolehkan ETL data mudah.
- Mendefinisikan bahasa pertanyaan seperti SQL yang dipanggil QL.
Kes Penggunaan Apache Hive - Facebook:
Sebelum melaksanakan Hive, Facebook menghadapi banyak cabaran kerana ukuran data yang dihasilkan meningkat atau meletup, menjadikannya sangat sukar untuk mengatasinya. RDBMS tradisional tidak dapat menangani tekanan dan akibatnya Facebook mencari pilihan yang lebih baik. Untuk menyelesaikan masalah yang akan berlaku ini, Facebook pada mulanya mencuba menggunakan Hadoop MapReduce, tetapi dengan kesukaran dalam memprogram dan pengetahuan wajib dalam SQL, menjadikannya penyelesaian yang tidak praktikal. Hive membolehkan mereka mengatasi cabaran yang mereka hadapi.
Dengan Hive, mereka kini dapat melakukan perkara berikut:
java salinan cetek vs dalam
- Jadual boleh dibahagi-bahagikan dan dibungkus
- Fleksibiliti dan evolusi skema
- Pemacu JDBC / ODBC ada
- Jadual sarang dapat ditentukan secara langsung dalam HDFS
- Extensible - Jenis, Format, Fungsi dan skrip
Kes Penggunaan Hive dalam Penjagaan Kesihatan:
Di mana untuk menggunakan sarang?
Apache Hive boleh digunakan di tempat berikut:
- Perlombongan Data
- Pemprosesan Log
- Pengindeksan Dokumen
- Pelanggan Menghadapi Kepintaran Perniagaan
- Pemodelan Ramalan
- Ujian Hipotesis
Senibina Hive:
Hive terdiri daripada komponen utama berikut:
- Metastore - Untuk menyimpan metadata.
- JDBC / ODBC - Query Compiler dan Execution Engine untuk menukar pertanyaan SQL kepada urutan MapReduce.
- SerDe dan ObjectInspectors - Untuk format dan jenis data.
- UDF / UDAF - Untuk Fungsi Ditentukan Pengguna.
- Pelanggan - Serupa dengan baris arahan MySQL dan UI web.
Komponen Hive:
Metastore:
Metastore menyimpan maklumat mengenai jadual, partisi, lajur di dalam jadual. Terdapat 3 cara penyimpanan di Metastore: Metastore Terbenam, Metastore Tempatan dan Metastore Jauh. Sebilangan besarnya, Remote Metastore akan digunakan dalam mod pengeluaran.
Batasan Sarang:
Hive mempunyai batasan berikut dan tidak dapat digunakan dalam keadaan seperti itu:
- Tidak direka untuk pemprosesan transaksi dalam talian.
- Memberikan kependaman yang boleh diterima untuk penyemakan data interaktif.
- Tidak menawarkan pertanyaan masa nyata dan kemas kini tahap baris.
- Latensi untuk pertanyaan Hive umumnya sangat tinggi.
Ada soalan untuk kami? Sebutkannya di bahagian komen dan kami akan menghubungi anda.
Catatan berkaitan:
cara mengatur classpath di windows