Apache Spark dengan Hadoop - Mengapa Penting?

Pelaksanaan Apache Spark dengan Hadoop secara besar-besaran oleh syarikat terkemuka menunjukkan kejayaan dan potensinya ketika datang ke pemprosesan waktu nyata.

Hadoop, kerangka pemprosesan data yang menjadi platform untuk dirinya sendiri, menjadi lebih baik apabila komponen yang baik disambungkan kepadanya. Beberapa kekurangan Hadoop, seperti komponen MapReduce dari Hadoop mempunyai reputasi sebagai lambat untuk analisis data masa nyata.





Masukkan Apache Spark, mesin pemprosesan data berasaskan Hadoop yang dirancang untuk beban kerja batch dan streaming, sekarang dalam versi 1.0 dan dilengkapi dengan ciri-ciri yang menunjukkan jenis pekerjaan yang Hadoop didorong untuk disertakan. Spark berjalan di atas kluster Hadoop yang ada untuk memberikan fungsi tambahan dan tambahan.

Mari lihat ciri utama percikan api dan bagaimana ia berfungsi bersama dengan Hadoop dan .



Faedah Utama Apache Spark:

img2-R

Ciri Hebat Spark:

  • Integrasi Hadoop - Spark dapat berfungsi dengan fail yang disimpan dalam HDFS.
  • Shell Interaktif Spark - Spark ditulis dalam Scala, dan mempunyai versi jurubahasa Scala sendiri.
  • Suite Analitik Spark - Spark dilengkapi dengan alat untuk analisis pertanyaan interaktif, pemprosesan dan analisis grafik berskala besar dan analisis masa nyata.
  • Set Data Terdistribusi yang Berdaya Tahan (RDD) - RDD adalah objek yang diedarkan yang dapat di-cache dalam memori, di sekumpulan nod pengkomputeran. Mereka adalah objek data utama yang digunakan dalam Spark.
  • Pengendali yang diedarkan - Selain MapReduce, ada banyak pengendali lain yang dapat digunakan pada RDD.

Kelebihan Menggunakan Apache Spark dengan Hadoop:

apa itu java bufferedreader
  • Apache Spark sesuai dengan komuniti sumber terbuka Hadoop, membina di atas Sistem Fail Terdistribusi Hadoop (HDFS). Namun, Spark tidak terikat dengan paradigma MapReduce dua peringkat, dan menjanjikan prestasi hingga 100 kali lebih cepat daripada Hadoop MapReduce untuk aplikasi tertentu.



  • Sesuai dengan algoritma pembelajaran mesin - Spark menyediakan primitif untuk pengkomputeran kluster dalam memori yang membolehkan program pengguna memuat data ke dalam memori kluster dan menanyakannya berulang kali.

  • Berlari 100 kali lebih pantas - Spark, perisian analisis juga dapat mempercepat pekerjaan yang berjalan di platform pemprosesan data Hadoop. Dijuluki 'pisau Hadoop Swiss Army,' Apache Spark menyediakan kemampuan untuk membuat pekerjaan analisis data yang dapat berjalan 100 kali lebih cepat daripada yang dijalankan pada Apache Hadoop MapReduce standard. MapReduce telah banyak dikritik sebagai hambatan dalam kelompok Hadoop kerana melaksanakan pekerjaan dalam mod kumpulan, yang bermaksud bahawa analisis data masa nyata tidak mungkin dilakukan.

  • Alternatif untuk MapReduce - Spark memberikan alternatif kepada MapReduce. Ini melaksanakan pekerjaan dalam ledakan pendek kumpulan mikro yang jaraknya lima saat atau kurang. Ia juga memberikan lebih banyak kestabilan daripada kerangka Hadoop berorientasikan aliran masa nyata seperti Twitter Storm. Perisian ini dapat digunakan untuk berbagai pekerjaan, seperti analisis data langsung yang sedang berlangsung dan terima kasih kepada perpustakaan perisian, pekerjaan komputasi lebih mendalam yang melibatkan pembelajaran mesin dan pemrosesan grafik.

  • Sokongan untuk Pelbagai Bahasa - Dengan menggunakan Spark, pemaju dapat menulis pekerjaan analisis data di Java, Scala atau Python, dengan menggunakan lebih dari 80 operator tingkat tinggi.

  • Sokongan Perpustakaan - Perpustakaan Spark dirancang untuk melengkapkan jenis pekerjaan pemprosesan yang diterokai dengan lebih agresif dengan penggunaan Hadoop yang disokong secara komersial terkini. MLlib menerapkan banyak algoritma pembelajaran mesin biasa, seperti klasifikasi naif Bayesian atau pengelompokan Spark Streaming memungkinkan pemprosesan data berkelajuan tinggi yang diserap dari pelbagai sumber dan GraphX ​​memungkinkan pengiraan pada data grafik.

  • API stabil - Dengan versi 1.0, Apache Spark menawarkan API yang stabil (antara muka pengaturcaraan aplikasi), yang dapat digunakan oleh pemaju untuk berinteraksi dengan Spark melalui aplikasi mereka sendiri. Ini membantu penggunaan Storm dengan lebih mudah dalam penggunaan berasaskan Hadoop.

  • Komponen SPARK SQL - Komponen Spark SQL untuk mengakses data berstruktur, memungkinkan data diinterogasi bersama data tidak terstruktur dalam pekerjaan analisis. Spark SQL, yang hanya ada dalam alpha pada saat ini, memungkinkan pertanyaan seperti SQL dijalankan terhadap data yang disimpan di Apache Hive. Mengekstrak data dari Hadoop melalui pertanyaan SQL adalah varian lain dari fungsi pertanyaan masa nyata yang muncul di sekitar Hadoop.

  • Keserasian Apache Spark dengan Hadoop [HDFS, HBASE dan YARN] - Apache Spark sepenuhnya serasi dengan Sistem Fail Terdistribusikan Hadoop (HDFS), serta komponen Hadoop lain seperti YARN (Yet Another Resource Negotiator) dan pangkalan data diedarkan HBase.

    perbezaan antara hashmap dan hashtable dalam java

Pengikut Industri:

Syarikat IT seperti Cloudera, Pivotal, IBM, Intel dan MapR semuanya telah melipat Spark ke dalam tumpukan Hadoop mereka. Databricks, sebuah syarikat yang diasaskan oleh beberapa pembangun Spark, menawarkan sokongan komersial untuk perisian tersebut. Yahoo dan NASA, antara lain, menggunakan perisian untuk operasi data harian.

Kesimpulan:

Apa yang ditawarkan oleh Spark pasti akan menjadi tarikan besar bagi pengguna dan vendor komersial Hadoop. Pengguna yang ingin melaksanakan Hadoop dan yang telah membina banyak sistem analisis mereka di sekitar Hadoop tertarik dengan idea untuk dapat menggunakan Hadoop sebagai sistem pemprosesan masa nyata.

cara menulis pengimbas di java

Spark 1.0 memberi mereka pelbagai fungsi lain untuk menyokong atau membina item proprietari di sekitar. Sebenarnya, salah satu daripada tiga vendor Hadoop, Cloudera, telah memberikan sokongan komersial untuk Spark melalui penawaran Cloudera Enterprise. Hortonworks juga menawarkan Spark sebagai komponen pengedaran Hadoopnya. Pelaksanaan Spark secara besar-besaran oleh syarikat-syarikat ternama menunjukkan kejayaan dan potensinya dalam proses pemprosesan masa nyata.

Ada soalan untuk kami? Sebutkannya di bahagian komen dan kami akan menghubungi anda.

Catatan berkaitan: