Hadoop 2.0 - Soalan Lazim



Minat terhadap Hadoop meningkat kepada beberapa kali ganda dalam beberapa tahun terakhir. Catatan ini menjawab pertanyaan anda dan menghilangkan keraguan mengenai Hadoop 2.0 & penggunaannya.

Ini adalah catatan susulan dengan jawapan kepada soalan yang sering diajukan semasa webinar awam oleh edureka! pada .

Soalan Lazim mengenai Hadoop

Deepak:





Apa itu Hadoop?
Apache Hadoop adalah kerangka perisian Open Source untuk penyimpanan dan pemprosesan kumpulan data berskala besar pada sekumpulan perkakasan komoditi. Ini adalah kerangka perisian Pengurusan Sumber terbuka dengan penyimpanan skala dan pemprosesan yang diedarkan. Ia dibina dan digunakan oleh komuniti global penyumbang dan pengguna.

Baca lebih lanjut di catatan blog Hadoop kami dan .



Cari:

Apakah kes penggunaan data besar dalam industri perjalanan, pengangkutan dan syarikat penerbangan?

Cerah:



Bolehkah anda menunjukkan kepada kami beberapa contoh Pelaksanaan Hadoop yang boleh kami kaji?
Kami lividaripadadalam era peningkatan kesesakan waktu puncak. Pengendali pengangkutan sentiasa berusaha mencari kaedah yang efektif dari segi kos untuk memberikan perkhidmatan mereka sambil memastikan armada pengangkutan mereka dalam keadaan baik. Penggunaan Analisis Data Besar dalam domain ini dapat membantu organisasi dengan:

  • Pengoptimuman laluan
  • Analisis geospatial
  • Corak lalu lintas dan kesesakan
  • Penyelenggaraan aset
  • Pengurusan Hasil (iaitu syarikat penerbangan)
  • Pengurusan inventori
  • Penjimatan bahan api
  • Pemasaran yang disasarkan
  • Kesetiaan pelanggan
  • Ramalan kapasiti
  • Prestasi dan pengoptimuman rangkaian

Beberapa Kes Penggunaan Dunia Sebenar adalah:
ke) Menentukan kos Penerbangan
b) Pemodelan Ramalan untuk Logistik Inventori
c) Orbitz Worldwide - Corak Pembelian Pelanggan
d) Enam Penerapan Hadoop Skala Super
adalah) Hadoop - Lebih daripada Tambah
f) Hadoop dalam Perusahaan

Anda boleh mengetahui lebih lanjut mengenai pelaksanaan Hadoop Real-world di:

Hirdesh:

Adakah Hadoop mengenai pengendalian dan pemprosesan Data? Bagaimana kita pergi untuk Pelaporan dan Analisis Visual. Bolehkah Qlikview, Tableau digunakan di atas Hadoop?
Komponen Hadoop teras HDFS dan MapReduce adalah mengenai Penyimpanan dan Pemprosesan Data. HDFS untuk penyimpanan dan MapReduce untuk diproses. Tetapi komponen teras Hadoop seperti Babi dan Hive digunakan untuk analisis. Untuk Jadual Laporan Visual, QlikView dapat dihubungkan ke Hadoop untuk Pelaporan Visual.

Amit:

import sqoop dari oracle ke hdfs

Hadoop Vs. mongoDB
MongoDB digunakan sebagai penyimpanan data masa nyata 'Operasional' sedangkan Hadoop digunakan untuk pemprosesan dan analisis data kumpulan luar talian.
mongoDB adalah penyimpanan data yang berorientasikan dokumen, tanpa skema yang boleh anda gunakan dalam aplikasi web sebagai backend dan bukannya RDBMS seperti MySQL sedangkan Hadoop terutama digunakan sebagai penyimpanan skala dan pemprosesan yang diedarkan untuk sejumlah besar data.

Baca lebih lanjut di kami catatan blog mongoDB dan Hadoop .

Di sini:

Adakah Apache Spark adalah sebahagian daripada Hadoop ?
Apache Spark adalah mesin yang pantas dan umum untuk pemprosesan data berskala besar. Spark lebih pantas dan menyokong pemprosesan In-Memory. Mesin pelaksanaan Spark meluaskan jenis beban kerja pengkomputeran yang dapat ditangani Hadoop dan dapat berjalan pada kluster Hadoop 2.0 YARN. Ini adalah sistem kerangka pemprosesan yang memungkinkan untuk menyimpan objek In-Memory (RDD) bersama dengan kemampuan untuk memproses objek ini menggunakan penutupan Scala. Ia menyokong Graph, Data Warehouse, Machine Learning dan Stream processing.

Sekiranya anda mempunyai kluster Hadoop 2, anda boleh menjalankan Spark tanpa memerlukan pemasangan. Jika tidak, Spark mudah dijalankan secara mandiri atau EC2 atau Mesos. Ia boleh membaca dari HDFS, HBase, Cassandra, dan mana-mana sumber data Hadoop.

Baca lebih lanjut mengenai Spark di sini .

Prasad:

Apa itu Apache Flume?
Apache Flume adalah sistem yang diedarkan, boleh dipercayai, dan tersedia untuk mengumpulkan, mengagregasi dan memindahkan sejumlah besar data log dengan banyak sumber dari sumber yang berlainan ke sumber data terpusat.

Amit:

Pangkalan Data SQL vs NO-SQL
Pangkalan data NoSQL adalah Pangkalan Data Generasi Seterusnya dan kebanyakannya menangani beberapa perkara

  • tidak berkaitan
  • diedarkan
  • sumber terbuka
  • berskala melintang

Selalunya lebih banyak ciri berlaku seperti bebas skema, sokongan replikasi yang mudah, API mudah, akhirnya konsisten / BASE (bukan ACID), sejumlah besar data dan banyak lagi. Contohnya, beberapa pembezanya adalah:

  • Pangkalan data NoSQL meningkat secara mendatar, menambah lebih banyak pelayan untuk menangani beban yang lebih besar. Sebaliknya, pangkalan data SQL biasanya meningkat secara menegak, menambahkan lebih banyak sumber ke satu pelayan apabila trafik meningkat.
  • Pangkalan data SQL meminta anda untuk menentukan skema anda sebelum menambahkan sebarang maklumat dan data tetapi pangkalan data NoSQL bebas skema tidak memerlukan definisi skema terlebih dahulu.
  • Pangkalan data SQL berdasarkan jadual dengan baris dan lajur yang mengikuti prinsip RDBMS sedangkan pangkalan data NoSQL adalah pasangan dokumen, kunci-nilai, grafik atau kedai lajur lebar.
  • Pangkalan data SQL menggunakan SQL (bahasa pertanyaan berstruktur) untuk menentukan dan memanipulasi data. Dalam pangkalan data NoSQL, pertanyaan berbeza dari satu pangkalan data ke pangkalan data yang lain.

Pangkalan Data SQL yang popular: MySQL, Oracle, Postgres dan MS-SQL
Popular Pangkalan Data NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j dan CouchDB

Kaji blog kami di Hadoop dan NoSQL pangkalan data dan Kelebihan satu pangkalan data tersebut:

Koteswararao:

Adakah Hadoop mempunyai Teknologi Cluster terbina dalam?
Kluster Hadoop menggunakan seni bina Master-Slave. Ia terdiri daripada Master Tunggal (NameNode) dan Cluster of Slaves (DataNodes) untuk menyimpan dan memproses data. Hadoop direka untuk berjalan pada sebilangan besar mesin yang tidak berkongsi memori atau cakera. DataNodes ini dikonfigurasi sebagai Cluster menggunakan . Hadoop menggunakan konsep replikasi untuk memastikan bahawa sekurang-kurangnya satu salinan data tersedia dalam kluster sepanjang masa. Oleh kerana terdapat banyak salinan data, data yang tersimpan di pelayan yang tidak berfungsi atau mati dapat ditiru secara automatik dari salinan yang diketahui.

Dinesh:

Apakah Pekerjaan di Hadoop? Apa semua yang dapat dicapai melalui Pekerjaan?
Di Hadoop, Job adalah program MapReduce untuk memproses / menganalisis data. Istilah MapReduce sebenarnya merujuk kepada dua tugas yang terpisah dan berbeza yang dilaksanakan oleh program Hadoop. Yang pertama adalah tugas Peta, yang mengambil satu set data dan mengubahnya menjadi satu set data perantaraan, di mana elemen individu dipecah menjadi pasangan kunci-nilai. Bahagian kedua dari pekerjaan MapReduce, tugas Reduce, mengambil output dari peta sebagai input dan menggabungkan pasangan nilai-kunci menjadi satu set pasangan kunci-nilai agregat yang lebih kecil. Seperti yang ditunjukkan oleh urutan nama MapReduce, tugas Reduce selalu dilakukan setelah selesai tugas Peta. Baca lebih lanjut mengenai MapReduce Job .

Sukruth:

Apa yang istimewa mengenai NameNode ?
NameNode adalah nadi sistem fail HDFS. Ini menyimpan metadata seperti pohon direktori semua file dalam sistem fail dan trek di mana di seluruh kluster data file disimpan. Data sebenar disimpan di DataNodes sebagai blok HDFS.
Aplikasi pelanggan bercakap dengan NameNode setiap kali mereka ingin mencari fail, atau setiap kali mereka ingin menambah / menyalin / memindahkan / menghapus fail. NameNode membalas permintaan yang berjaya dengan mengembalikan senarai pelayan DataNodes yang relevan di mana data tersebut tinggal. Baca lebih lanjut mengenai HDFS Architecture .

cara menyusun dalam java

Dinesh:

Bilakah Hadoop 2.0 diperkenalkan ke pasaran?
Asas Perisian Apache (ASF), kumpulan sumber terbuka yang menguruskan Hadoop Development telah mengumumkan dalam blognya pada 15 Oktober 2013 bahawa Hadoop 2.0 kini Tersedia Secara Umum (GA). Pengumuman ini bermaksud bahawa setelah menunggu lama, Apache Hadoop 2.0 dan YARN kini sudah siap untuk pengeluaran Pengeluaran. Lebih banyak lagi Blog.

Dinesh:

Apakah beberapa contoh aplikasi Big-MapReduce Big Data?
MapReduce sangat bagus untuk banyak aplikasi untuk menyelesaikan masalah Big Data tetapi tidak untuk semua model pengaturcaraan lain yang lebih baik memenuhi keperluan seperti pemprosesan Graf (misalnya, Google Pregel / Apache Giraph) dan pemodelan berulang dengan Mesej Melintas Antaramuka (MPI).

Kahwin:

Bagaimana data disusun dan diindeks dalam HDFS?
Data dipecah menjadi blok 64 MB (dikonfigurasi oleh parameter) dan disimpan dalam HDFS. NameNode menyimpan maklumat penyimpanan blok-blok ini sebagai ID Blok di RAMnya (NameNode Metadata). Pekerjaan MapReduce dapat mengakses blok ini menggunakan metadata yang tersimpan dalam RAM NameNode.

Shashwat:

Bolehkah kita menggunakan MapReduce (MRv1) dan MRv2 (dengan YARN) pada kluster yang sama?
Hadoop 2.0 telah memperkenalkan kerangka kerja baru YARN untuk menulis dan melaksanakan aplikasi yang berbeza di Hadoop. Jadi, YARN dan MapReduce adalah dua konsep yang berbeza dalam Hadoop 2.0 dan tidak boleh dicampur dan digunakan secara bergantian. Soalan yang betul adalah 'Adakah mungkin untuk menjalankan MRv1 dan MRv2 pada Kluster Hadoop 2.0 yang diaktifkan YARN?' Jawapan untuk soalan ini adalah 'Tidak' walaupun Hadoop Cluster dapat dikonfigurasi untuk menjalankan MRv1 dan MRv2 tetapi hanya dapat menjalankan satu set daemon pada bila-bila masa. Kedua-dua kerangka ini akhirnya menggunakan fail konfigurasi yang sama ( benang-laman web.xml dan mapred-site.xml ) untuk menjalankan daemon, oleh itu, hanya satu daripada dua konfigurasi yang dapat diaktifkan pada Hadoop Cluster.

Anak patung:

Apakah perbezaan antara MapReduce Generasi Seterusnya (MRv2) dan YARN?
YARN dan NextRation MapReduce (MRv2) adalah dua konsep dan teknologi yang berbeza dalam Hadoop 2.0. YARN adalah kerangka perisian yang dapat digunakan untuk menjalankan bukan hanya MRv2 tetapi aplikasi lain juga. MRv2 adalah kerangka aplikasi yang ditulis menggunakan YARN API dan ia berjalan dalam YARN.

Bharat:

Adakah Hadoop 2.0 memberikan keserasian ke belakang untuk aplikasi Hadoop 1.x?
Neha:

Adakah penghijrahan Hadoop 1.0 hingga 2.0 memerlukan kod aplikasi yang berat penghijrahan?
Tidak, Sebilangan besar aplikasi yang dikembangkan menggunakan API 'org.apache.hadoop.mapred', dapat berjalan di YARN tanpa penyusunan semula. YARN adalah binari serasi dengan aplikasi MRv1 dan 'bin / hadoop' dapat digunakan untuk mengirimkan aplikasi ini di YARN. Baca lebih lanjut mengenai perkara ini di sini .

Sherin:

Apa yang berlaku jika node Pengurus Sumber gagal dalam Hadoop 2.0?
Bermula dari Hadoop Release 2.4.0, sokongan Ketersediaan Tinggi untuk Resource Manager juga tersedia. ResourceManager menggunakan Apache ZooKeeper untuk fail-over. Apabila node Resource Manager gagal, simpul sekunder dapat pulih dengan cepat melalui keadaan kluster yang disimpan di ZooKeeper. ResourceManager, pada fail-over, memulakan semula semua aplikasi yang beratur dan berjalan.

Sabbirali:

Adakah kerangka kerja Hadoop Apache berfungsi pada Cloudera Hadoop?
Apache Hadoop diperkenalkan pada tahun 2005 dengan mesin pemprosesan MapReduce teras untuk menyokong pemprosesan edaran beban kerja data berskala besar yang disimpan dalam HDFS. Ini adalah Projek Sumber Terbuka dan mempunyai banyak pengedaran (serupa dengan Linux). Cloudera Hadoop (CDH) adalah salah satu sebaran dari Cloudera. Sebaran lain yang serupa ialah HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights dll.

Arulvadivel:

Adakah cara mudah untuk memasang Hadoop pada Laptop saya dan mencuba pemindahan pangkalan data Oracle ke Hadoop?
Awak boleh mulakan dengan Kotak Pasir HortonWorks atau Cloudera Quick VM pada komputer riba anda (dengan RAM sekurang-kurangnya 4 GB dan pemproses i3 atau ke atas). Gunakan SQOOP untuk memindahkan data dari Oracle ke Hadoop seperti yang dijelaskan di sini .

Bhabani:

Apakah buku terbaik yang tersedia untuk belajar Hadoop?
Bermula dengan Hadoop: Panduan Definitif oleh Tom White dan Operasi Hadoop oleh Eric Sammer.

Mahendra:

Adakah bacaan yang tersedia untuk Hadoop 2.0 seperti Hadoop panduan pasti?
Kaji semula kedatangan terkini di rak buku yang ditulis oleh beberapa pencipta Hadoop 2.0.

Nantikan lebih banyak soalan dalam siri ini.