Menguasai Hadoop? Masa untuk memulakan dengan Apache Spark



Catatan blog ini menjelaskan mengapa anda mesti memulakan dengan Apache Spark selepas Hadoop & mengapa belajar Spark setelah menguasai hadoop dapat membuat keajaiban untuk karier anda!

Hadoop, seperti yang kita semua tahu adalah poster besar data besar. Sebagai kerangka perisian yang mampu memproses perkadaran data gajah, Hadoop telah mencapai puncak senarai kata kunci CIO.





Namun, kenaikan timbunan dalam memori yang belum pernah terjadi sebelumnya telah memperkenalkan ekosistem data besar kepada alternatif baru untuk analisis. Metode analisis MapReduce digantikan dengan pendekatan baru yang memungkinkan analisis baik dalam kerangka Hadoop dan di luarnya. Apache Spark adalah wajah baru analisis data besar.

Peminat data besar telah mengesahkan Apache Spark sebagai mesin pengkomputeran data terpanas untuk data besar di dunia. Dengan cepat mengeluarkan MapReduce dan Java dari posisi mereka, dan trend pekerjaan mencerminkan perubahan ini. Menurut tinjauan oleh TypeSafe, 71% pemaju Java global sedang menilai atau meneliti sekitar Spark, dan 35% dari mereka sudah mulai menggunakannya. Pakar Spark saat ini sangat diminati, dan dalam minggu-minggu berikutnya, jumlah peluang pekerjaan yang berkaitan dengan Spark hanya diharapkan dapat dilakukan.



php mengubah rentetan menjadi tatasusunan

Jadi, bagaimana dengan Apache Spark yang menjadikannya muncul di atas setiap senarai tugas CIO?

Berikut adalah beberapa ciri menarik Apache Spark:

  • Integrasi Hadoop - Spark dapat berfungsi dengan fail yang disimpan dalam HDFS.
  • Shell Interaktif Spark - Spark ditulis dalam Scala, dan mempunyai versi jurubahasa Scala sendiri.
  • Suite Analitik Spark - Spark dilengkapi dengan alat untuk analisis pertanyaan interaktif, pemprosesan dan analisis grafik berskala besar dan analisis masa nyata.
  • Set Data Teragih yang Berdaya Tahan (RDD) - RDD didistribusikan objek yang dapat di-cache dalam memori, di sekumpulan node komputasi. Mereka adalah objek data utama yang digunakan dalam Spark.
  • Pengendali yang diedarkan - Selain MapReduce, ada banyak operator lain yang dapat digunakan pada RDD.

Organisasi seperti NASA, Yahoo, dan Adobe telah berkomitmen untuk Spark. Inilah yang dikatakan oleh John Tripier, Alliance and Ecosystem Lead di Databricks, 'Penerapan Apache Spark oleh perniagaan besar dan kecil berkembang dengan kadar yang luar biasa di pelbagai industri, dan permintaan untuk pemaju dengan kepakaran yang disahkan cepat mengikut kesesuaian ”. Tidak pernah ada masa yang lebih baik untuk Belajar Spark jika anda mempunyai latar belakang di Hadoop.



Edureka secara khusus memilih kursus mengenai Apache Spark & ​​Scala, yang dibuat bersama oleh pengamal industri sebenar. Untuk pengalaman e-pembelajaran langsung yang berbeza dan projek yang berkaitan dengan industri, lihat kursus kami. Kumpulan baru akan dimulakan tidak lama lagi, jadi lihat kursus di sini: .

Ada soalan untuk kami? Sila sebutkan di bahagian komen dan kami akan menghubungi anda.

Catatan berkaitan:

Apache Spark Vs Hadoop MapReduce