Apache Flink: Rangka Kerja Analisis Data Besar Generasi Seterusnya Untuk Pemprosesan Data Aliran Dan Kumpulan



Ketahui semua mengenai Apache Flink & siapkan kluster Flink di blog ini. Flink menyokong pemprosesan masa nyata & kumpulan & merupakan teknologi Big Data yang mesti ditonton untuk Analisis Data Besar.

Apache Flink adalah platform sumber terbuka untuk pemprosesan aliran dan kumpulan data yang diedarkan. Ia boleh dijalankan pada Windows, Mac OS dan Linux OS. Dalam catatan blog ini, mari kita bincangkan cara menyiapkan Flink cluster secara tempatan. Ia serupa dengan Spark dalam banyak cara - ia mempunyai API untuk pemprosesan Graf dan pembelajaran Mesin seperti Apache Spark - tetapi Apache Flink dan Apache Spark tidak sama persis.





Untuk menyediakan Flink cluster, anda mesti memasang java 7.x atau lebih tinggi pada sistem anda. Oleh kerana saya telah memasang Hadoop-2.2.0 pada akhir saya di CentOS (Linux), saya telah memuat turun pakej Flink yang serasi dengan Hadoop 2.x. Jalankan arahan di bawah untuk memuat turun pakej Flink.

Perintah: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Buka fail untuk mendapatkan direktori flink.

Perintah: tar -xvf Muat turun / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Perintah: ls

Tambahkan pemboleh ubah persekitaran Flink dalam fail .bashrc.

Perintah: sudo gedit .bashrc

Anda perlu menjalankan perintah di bawah ini agar perubahan dalam fail .bashrc diaktifkan

Perintah: sumber .bashrc

Sekarang pergi ke direktori flink dan mulakan kluster secara tempatan.

Perintah: cd hefty-1.0.0

Perintah: bin / start-local.sh

Setelah anda memulakan kluster, anda akan dapat melihat daemon JobManager baru berjalan.

Perintah: jps

Buka penyemak imbas dan pergi ke http: // localhost: 8081 untuk melihat UI web Apache Flink.

Mari kita jalankan contoh jumlah kata yang mudah menggunakan Apache Flink.

Sebelum menjalankan contoh pasang netcat pada sistem anda (sudo yum install nc).

Sekarang di terminal baru jalankan arahan di bawah.

Perintah: nc -lk 9000

Jalankan arahan yang diberikan di bawah di terminal flink. Perintah ini menjalankan program yang mengambil data yang disalurkan sebagai input dan melakukan operasi jumlah kata pada data yang dialirkan.

java untuk contoh program gelung

Perintah: contoh bin / flink run / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

Di ui web, anda akan dapat melihat pekerjaan dalam keadaan berjalan.

Jalankan perintah di bawah di terminal baru, ini akan mencetak data yang dialirkan dan diproses.

Perintah: tail -f log / flink - * - jobmanager - *. keluar

Sekarang pergi ke terminal di mana anda memulakan netcat dan taipkan sesuatu.

Pada saat anda menekan butang enter pada kata kunci anda setelah anda menaip beberapa data di terminal netcat, operasi wordcount akan diterapkan pada data tersebut dan outputnya akan dicetak di sini (log pengurus pekerjaan flink) dalam milisaat!

Dalam jangka waktu yang sangat singkat, data akan disalurkan, diproses dan dicetak.

Terdapat banyak lagi yang perlu dipelajari mengenai Apache Flink. Kami akan menyentuh topik Flink lain di blog kami yang akan datang.

Ada soalan untuk kami? Sebutkan mereka di bahagian komen dan kami akan menghubungi anda.

Catatan berkaitan:

Apache Falcon: Platform Pengurusan Data Baru untuk Ekosistem Hadoop