Menggerudi Di Apache Drill, Enjin Permulaan Zaman Baru



Tutorial Apache Drill ini memberi anda semua maklumat yang anda perlukan untuk memulakan dengan mesin pertanyaan Apache Drill, penggunaan dengan Hadoop, Big Data & Apache Spark.

Apache Drill adalah Mesin SQL bebas skema pertama di industri. Drill bukan mesin pertanyaan pertama di dunia, tetapi yang pertama menghasilkan keseimbangan antara kelenturan dan kelajuan. Bor dirancang untuk memperbesar beberapa ribu node dan meminta petabyte data pada kelajuan interaktif yang diperlukan oleh persekitaran BI / Analitis.





Ia boleh disatukan dengan beberapa sumber data seperti Hive, HBase, MongoDB, sistem fail, RDBMS. Juga, format input seperti Avro, CSV, TSV, PSV, Parquet, Hadoop Sequence, dan banyak lagi yang boleh digunakan di Drill dengan mudah.

Mengapa Bor Apache?

Kelebihan terbesar Apache Drill adalah bahawa ia dapat menemui skema dengan cepat ketika anda menanyakan sebarang data. Lebih-lebih lagi, ia boleh berfungsi dengan alat BI anda seperti Tableau, Qlikview, MicroStrategy dll untuk analisis yang lebih baik.



Berikut adalah petikan dari penganalisis industri yang merangkum nilai Apache Drill:

'Latihan bukan hanya mengenai SQL-on-Hadoop. Ini mengenai SQL-on-cantik-banyak-apa-apa, segera, dan tanpa formaliti. '

- Andrew Burst, Penyelidikan Gigaom, Januari 2015



Drillbit adalah daemon Apache Drill yang berjalan di setiap simpul dalam kluster. Ia menggunakan ZooKeeper untuk semua komunikasi dalam cluster dan keahlian cluster maintaisn. Ia bertanggung jawab untuk menerima permintaan dari klien, memproses pertanyaan, dan mengembalikan hasilnya kepada klien. Drillbit yang menerima permintaan daripada pelanggan disebut 'mandor'. Ini menghasilkan rancangan pelaksanaan, fragmen pelaksanaan dihantar ke bit gerudi lain yang berjalan di kluster.

Drillbits-Apache-Drill

Satu lagi kelebihan ialah pemasangan dan penyediaan gerudi cukup mudah. Mari kita belajar cara memasang Apache Drill.

Langkah pertama ialah memuat turun pakej gerudi.

apa yang dilakukan oleh pentadbir linux

Perintah: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Perintah: tar -xvf apache-drill-1.5.0.tar.gz

Perintah: ls

Seterusnya, tetapkan pemboleh ubah persekitaran dalam fail .bashrc.

Perintah: sudo gedit .bashrc

eksport DRILL_HOME = / rumah / edureka / apache-drill-1.5.0

eksport PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Perintah ini akan mengemas kini perubahan:

Perintah: sumber .bashrc

Sekarang pergi ke direktori conf drill dan edit file drill-override.conf dengan id cluster dan host & port zookeeper, kami akan menjalankannya di kluster tempatan.

Perintah: cd apache-latih-1.5.0

Perintah: sudo gedit conf / drill-override.conf

Secara lalai, DRILL_MAX_DIRECT_MEMORY akan menjadi 8 GB dalam drill-env.sh, dan kita perlu menyimpannya mengikut memori yang kita ada.

Perintah: sudo gedit conf / drill-env.sh

Untuk memasang gerudi hanya dalam satu simpul, anda boleh menggunakan mod terbenam, di mana ia akan dijalankan secara tempatan. Secara automatik akan memulakan perkhidmatan drillbit ketika anda menjalankan perintah ini.

Perintah: ./bin/drill-embedded

Anda boleh menjalankan pertanyaan sederhana untuk memeriksa pemasangan.

Perintah: pilih * dari sys.options WHERE type = ‘SYSTEM’ dan namakan seperti ‘security%’

Untuk memeriksa konsol web Apache Drill, kita perlu pergi ke localhost: 8047 di penyemak imbas web.

Anda juga boleh menjalankan pertanyaan anda dari tab Pertanyaan.

Untuk menjalankan latihan dalam mod diedarkan, anda perlu mengedit ID kluster dan menambahkan maklumat ZooKeeper di drill-override.conf seperti di bawah.

Maka kita perlu memulakan perkhidmatan ZooKeeper pada setiap nod. Selepas itu anda harus memulakan perkhidmatan drillbit pada setiap nod dengan arahan ini.

apa yang berjaga-jaga dalam javascript

Perintah: ./bin/drillbit.sh bermula

Perintah: jps

Sekarang, kita menggunakan perintah di bawah untuk memulakan shell gerudi.

Sekarang, kita dapat melaksanakan pertanyaan kita pada kluster dalam mod diedarkan.

Ini adalah catatan blog pertama dalam siri blog Apache Drill dua bahagian. Blog kedua dalam siri ini tidak lama lagi.

Ada soalan untuk kami? Sebutkannya di bahagian komen dan kami akan menghubungi anda.

Catatan berkaitan:

Menggerudi Di Bor Apache Bahagian 2

Apache Spark Vs Hadoop MapReduce