Tutorial Apache Flume: Penstriman Data Twitter



Blog tutorial Apache Flume ini menerangkan asas-asas Apache Flume dan ciri-cirinya. Ia juga akan mempamerkan streaming Twitter menggunakan Apache Flume.

Di blog tutorial Apache Flume ini, kita akan memahami bagaimana Flume membantu dalam mengalirkan data dari pelbagai sumber. Tetapi sebelum itu mari kita memahami pentingnya pengambilan data. Pengambilan data adalah langkah awal & penting untuk memproses & menganalisis data, dan kemudian memperoleh nilai perniagaan daripadanya. Terdapat banyak sumber dari mana data dikumpulkan dalam organisasi.

Mari kita bincangkan sebab penting lain mengapa Flume menjadi sangat popular. Saya harap anda mungkin biasa , yang sangat digunakan dalam industri karena dapat menyimpan semua jenis data. Flume dapat disatukan dengan mudah dengan Hadoop dan membuang data tidak berstruktur serta separa berstruktur pada HDFS, memuji kehebatan Hadoop. Inilah sebabnya mengapa Apache Flume adalah bahagian penting dalam Ekosistem Hadoop.





Di blog tutorial Apache Flume ini, kita akan membahas:



Kami akan memulakan tutorial Flume ini dengan membincangkan mengenai apa itu Apache Flume. Kemudian bergerak maju, kita akan memahami kelebihan menggunakan Flume.

Tutorial Apache Flume: Pengenalan Apache Flume

Logo Apache Flume - Tutorial Apache Flume - EdurekaApache Flume adalah alat untuk pengambilan data dalam HDFS. Ia mengumpulkan, mengagregat dan mengangkut sejumlah besar data streaming seperti fail log, acara dari pelbagai sumber seperti lalu lintas rangkaian, media sosial, mesej e-mel dan lain-lain ke HDFS.Flume sangat dipercayai & diedarkan.

Idea utama di sebalik reka bentuk Flume adalah untuk menangkap data streaming dari pelbagai pelayan web ke HDFS. Ia mempunyai seni bina yang sederhana dan fleksibel berdasarkan aliran data aliran. Ia bertolak ansur dan menyediakan mekanisme kebolehpercayaan untuk toleransi kesalahan & pemulihan kegagalan.



Setelah memahami apa itu Flume, sekarang mari kita maju dalam blog Flume Tutorial ini dan memahami kelebihan Apache Flume. Kemudian bergerak maju, kita akan melihat seni bina Flume dan cuba memahami bagaimana ia berfungsi secara asas.

penggunaan iterator di java

Tutorial Apache Flume: Kelebihan Apache Flume

Terdapat beberapa kelebihan Apache Flume yang menjadikannya pilihan yang lebih baik daripada yang lain. Kelebihannya adalah:

  • Flume boleh diskalakan, boleh dipercayai, bertolak ansur dan disesuaikan untuk pelbagai sumber dan sink.
  • Apache Flume dapat menyimpan data di kedai terpusat (iaitu data dibekalkan dari satu kedai) seperti HBase & HDFS.
  • Flume boleh diskalakan secara mendatar.
  • Sekiranya kadar membaca melebihi kadar tulis, Flume memberikan aliran data yang stabil antara operasi baca dan tulis.
  • Flume memberikan penghantaran mesej yang boleh dipercayai. Transaksi di Flume adalah berdasarkan saluran di mana dua transaksi (satu pengirim & satu penerima) dikekalkan untuk setiap mesej.
  • Dengan menggunakan Flume, kita dapat memasukkan data dari beberapa pelayan ke Hadoop.
  • Ini memberi kita penyelesaian yang boleh dipercayai dan diedarkan dan membantu kita dalam mengumpulkan, mengumpulkan dan memindahkan sejumlah besar kumpulan data seperti laman web Facebook, Twitter dan e-dagang.
  • Ini membantu kita untuk mengambil data streaming dalam talian dari pelbagai sumber seperti trafik rangkaian, media sosial, mesej e-mel, fail log dan lain-lain dalam HDFS.
  • Ia menyokong sebilangan besar jenis sumber dan destinasi.

Seni bina adalah yang memperkuat Apache Flume dengan kelebihan ini. Sekarang, seperti yang kita ketahui kelebihan Apache Flume, mari maju dan memahami seni bina Apache Flume.

Tutorial Apache Flume: Senibina Flume

Sekarang, mari kita fahami seni bina Flume dari rajah di bawah:

Terdapat ejen Flume yang mengambil data streaming dari pelbagai sumber data ke HDFS. Dari rajah, anda dapat dengan mudah memahami bahawa pelayan web menunjukkan sumber data. Twitter adalah antara sumber terkenal untuk streaming data.

Ejen flume mempunyai 3 komponen: sumber, sink dan saluran.

    1. Sumber : Ia menerima data dari arus masuk yang masuk dan menyimpan data di saluran.
    2. Saluran : Secara amnya, kelajuan membaca lebih pantas daripada kepantasan menulis. Oleh itu, kita memerlukan beberapa penyangga untuk memadankan perbezaan kelajuan baca & tulis. Pada asasnya, penyangga berfungsi sebagai penyimpanan perantara yang menyimpan data yang dipindahkan untuk sementara waktu dan oleh itu mencegah kehilangan data. Begitu juga, saluran bertindak sebagai penyimpanan tempatan atau penyimpanan sementara antara sumber data dan data berterusan dalam HDFS.
    3. Tenggelam : Kemudian, komponen terakhir kami iaitu Sink, mengumpulkan data dari saluran dan melakukan atau menulis data di HDFS secara kekal.

Sekarang setelah kita mengetahui bagaimana Apache Flume berfungsi, mari kita lihat praktikal di mana kita akan memasukkan data Twitter dan menyimpannya di HDFS.

Tutorial Apache Flume: Streaming Data Twitter

Dalam praktik ini, kami akan mengalirkan data dari Twitterusing Flume dan kemudian menyimpan data dalam HDFS seperti yang ditunjukkan dalam gambar di bawah.

Langkah pertama adalah membuat aplikasi Twitter. Untuk ini, anda mesti pergi ke url ini: https://apps.twitter.com/ dan log masuk ke akaun Twitter anda. Pergi untuk membuat tab aplikasi seperti yang ditunjukkan pada gambar di bawah.

Kemudian, buat aplikasi seperti yang ditunjukkan pada gambar di bawah.

Setelah membuat aplikasi ini, anda akan menemui token Kunci & Akses. Salin kunci dan token akses. Kami akan memberikan token ini dalam fail konfigurasi Flume kami untuk menyambung ke aplikasi ini.

Sekarang buat fail flume.conf di direktori root flume seperti yang ditunjukkan pada gambar di bawah. Seperti yang kita bincangkan, dalam Flume's Architecture, kita akan mengkonfigurasi Sumber, Tenggelam dan Saluran kita. Sumber kami adalah Twitter, dari mana kami mengalirkan data dan Tenggelam kami adalah HDFS, di mana kami menulis data.

Dalam konfigurasi sumber, kami meneruskan jenis sumber Twitter sebagai org.apache.flume.source.twitter.TwitterSource. Kemudian, kami menyampaikan keempat-empat token yang kami terima dari Twitter. Akhirnya dalam konfigurasi sumber kami meneruskan kata kunci yang akan kami ambil untuk mengambil tweet.

Dalam konfigurasi Sink kita akan mengkonfigurasi sifat HDFS. Kami akan menetapkan jalur HDFS, format penulisan, jenis fail, ukuran kumpulan dll. Akhirnya kita akan menetapkan saluran memori seperti yang ditunjukkan pada gambar di bawah.

Sekarang kita sudah siap untuk dilaksanakan. Mari kita teruskan dan melaksanakan perintah ini:

$ FLUME_HOME / ejen bin / flume-ng --conf ./conf/ -f $ FLUME_HOME / flume.conf

Setelah melaksanakan perintah ini sebentar, dan kemudian anda boleh keluar dari terminal menggunakan CTRL + C. Kemudian anda boleh terus masuk dalam direktori Hadoop anda dan periksa jalan yang disebutkan, sama ada fail itu dibuat atau tidak.

perbandingan garam ansible tukang masak boneka

Muat turun fail dan buka. Anda akan mendapat sesuatu seperti yang ditunjukkan dalam gambar di bawah.

Saya harap blog ini memberi maklumat dan nilai tambah kepada anda. Sekiranya anda berminat untuk mengetahui lebih lanjut, anda boleh melalui ini yang memberitahu anda tentang Big Data dan bagaimana Hadoop menyelesaikan cabaran yang berkaitan dengan Big Data.

Sekarang setelah anda memahami Apache Flume, periksa oleh Edureka, sebuah syarikat pembelajaran dalam talian yang dipercayai dengan rangkaian lebih daripada 250,000 pelajar berpuas hati yang tersebar di seluruh dunia. Kursus Latihan Pensijilan Hadoop Data Besar Edureka membantu pelajar menjadi pakar dalam bidang HDFS, Benang, MapReduce, Babi, Hive, HBase, Oozie, Flume dan Sqoop menggunakan kes penggunaan masa nyata di domain Runcit, Media Sosial, Penerbangan, Pelancongan, Kewangan.

Ada soalan untuk kami? Sila sebutkan di bahagian komen dan kami akan menghubungi anda.