Pasang Hadoop: Menyiapkan Kluster Hadoop Node Tunggal



Tutorial ini adalah panduan langkah demi langkah untuk memasang kluster Hadoop dan mengkonfigurasinya pada satu nod. Semua langkah pemasangan Hadoop adalah untuk mesin CentOS.

Pasang Hadoop: Menyiapkan Kluster Hadoop Node Tunggal

Dari blog kami sebelumnya pada , anda pasti mendapat idea teori mengenai Hadoop, HDFS dan senibina.Tetapi untuk mendapatkan anda memerlukan pengetahuan yang baik.Saya harap anda menyukai blog kami sebelumnya di , sekarang saya akan membimbing anda melalui pengetahuan praktikal mengenai Hadoop dan HDFS. Langkah pertama ke hadapan adalah memasang Hadoop.

Terdapat dua cara untuk memasang Hadoop, iaitu Node tunggal dan Berbilang nod .





Kluster nod tunggal bermaksud hanya satu DataNode yang menjalankan dan mengatur semua NameNode, DataNode, ResourceManager dan NodeManager pada satu mesin. Ini digunakan untuk tujuan kajian dan ujian. Sebagai contoh, mari kita pertimbangkan contoh data yang ditetapkan dalam industri penjagaan kesihatan. Oleh itu, untuk menguji sama ada pekerjaan Oozie telah menjadualkan semua proses seperti mengumpulkan, mengagregat, menyimpan dan memproses data dalam urutan yang betul, kami menggunakan kluster simpul tunggal. Ia dapat menguji aliran kerja berurutan dengan mudah dan efisien dalam lingkungan yang lebih kecil dibandingkan dengan lingkungan besar yang berisi terabyte data yang diedarkan di beratus-ratus mesin.

Semasa berada di Kluster berbilang nod , terdapat lebih dari satu DataNode berjalan dan setiap DataNode berjalan pada mesin yang berbeza. Kluster berbilang nod praktikal digunakan dalam organisasi untuk menganalisis Big Data. Mengingat contoh di atas, dalam masa nyata ketika kita berurusan dengan petabyte data, data perlu diedarkan di ratusan mesin untuk diproses. Oleh itu, di sini kita menggunakan kluster berbilang nod.



Dalam blog ini, saya akan menunjukkan kepada anda cara memasang Hadoop pada kluster nod tunggal.

Prasyarat

  • KOTAK VIRTUAL : digunakan untuk memasang sistem operasi di atasnya.
  • SISTEM OPERASI : Anda boleh memasang Hadoop pada sistem operasi berasaskan Linux. Ubuntu dan CentOS sangat biasa digunakan. Dalam tutorial ini, kami menggunakan CentOS.
  • JAWA : Anda perlu memasang pakej Java 8 pada sistem anda.
  • HADOOP : Anda memerlukan pakej Hadoop 2.7.3.

Pasang Hadoop

Langkah 1: Tekan di sini untuk memuat turun Pakej Java 8. Simpan fail ini di direktori utama anda.

Langkah 2: Ekstrak Fail Java Tar.

Perintah : tar -xvf jdk-8u101-linux-i586.tar.gz

Smear Java - Pasang Hadoop - Edureka



Gambar: Pemasangan Hadoop - Mengekstrak Fail Java

senarai peristiwa javascript dengan contoh

Langkah 3: Muat turun Pakej Hadoop 2.7.3.

Perintah : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Gambar: Pemasangan Hadoop - Memuat turun Hadoop

Langkah 4: Ekstrak Fail tar Hadoop.

Perintah : tar -xvf hadoop-2.7.3.tar.gz

Gambar: Pemasangan Hadoop - Mengekstrak Fail Hadoop

Langkah 5: Tambahkan jalur Hadoop dan Java dalam fail bash (.bashrc).

Buka . bashrc fail. Sekarang, tambahkan Hadoop dan Java Path seperti yang ditunjukkan di bawah.

Perintah : vi .bashrc

Gambar: Pemasangan Hadoop - Menetapkan Pemboleh ubah Persekitaran

Kemudian, simpan fail bash dan tutup.

Untuk menerapkan semua perubahan ini ke Terminal saat ini, jalankan perintah sumber.

Perintah : sumber .bashrc

Rajah: Pemasangan Hadoop - Menyegarkan pemboleh ubah persekitaran

Untuk memastikan bahawa Java dan Hadoop telah dipasang dengan betul pada sistem anda dan dapat diakses melalui Terminal, exlaksanakan arahan versi java -versi dan hadoop.

Perintah : jawa-perubahan

Gambar: Pemasangan Hadoop - Memeriksa Versi Java

Perintah : hadoopversi

Gambar: Pemasangan Hadoop - Memeriksa Versi Hadoop

Langkah 6 : Edit .

Perintah: cd hadoop-2.7.3 / etc / hadoop /

Perintah: ls

Semua fail konfigurasi Hadoop terletak di hadoop-2.7.3 / etc / hadoop direktori seperti yang anda lihat dalam gambar di bawah:

Gambar: Pemasangan Hadoop - Fail Konfigurasi Hadoop

Langkah 7 : Buka inti-laman web.xml dan edit harta yang dinyatakan di bawah di dalam tag konfigurasi:

inti-laman web.xml memberitahu daemon Hadoop di mana NameNode berjalan di kluster. Ia mengandungi tetapan konfigurasi teras Hadoop seperti tetapan I / O yang biasa dilakukan pada HDFS & MapReduce.

Perintah : vi inti-laman web.xml

Rajah: Pemasangan Hadoop - Mengkonfigurasi core-site.xml

fs.default.name hdfs: // localhost: 9000

Langkah 8: Edit hdfs-site.xml dan edit harta yang dinyatakan di bawah di dalam tag konfigurasi:

hdfs-site.xml mengandungi tetapan konfigurasi daemon HDFS (iaitu NameNode, DataNode, Secondary NameNode). Ini juga merangkumi faktor replikasi dan ukuran blok HDFS.

Perintah : vi hdfs-site.xml

Gambar: Pemasangan Hadoop - Mengkonfigurasi hdfs-site.xml

dfs.replication 1 dfs.permission false

Langkah 9 : Edit mapred-site.xml fail dan edit harta yang disebutkan di bawah di dalam tag konfigurasi:

mapred-site.xml mengandungi tetapan konfigurasi aplikasi MapReduce seperti jumlah JVM yang dapat berjalan secara selari, ukuran mapper dan proses reducer, core CPU yang tersedia untuk proses, dll.

Dalam beberapa kes, fail mapred-site.xml tidak tersedia. Oleh itu, kita harus membuat fail mapred-site.xmlmenggunakan templat mapred-site.xml.

Perintah : cp mapred-site.xml.template mapred-site.xml

Perintah : kami dipetakan-tapak.xml.

Gambar: Pemasangan Hadoop - Mengkonfigurasi mapred-site.xml

benang mapreduce.framework.name

Langkah 10: Edit benang-laman web.xml dan edit harta yang dinyatakan di bawah di dalam tag konfigurasi:

benang-laman web.xml mengandungi tetapan konfigurasi ResourceManager dan NodeManager seperti ukuran pengurusan memori aplikasi, operasi yang diperlukan pada program & algoritma, dll.

Perintah : vi benang-laman web.xml

Gambar: Pemasangan Hadoop - Mengkonfigurasi benang-laman web.xml

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Langkah 11: Edit hadoop-env.sh dan tambahkan Java Path seperti yang disebutkan di bawah:

hadoop-env.sh mengandungi pemboleh ubah persekitaran yang digunakan dalam skrip untuk menjalankan Hadoop seperti jalan pulang Java, dll.

Perintah : kami hadoop-env.sh

Gambar: Pemasangan Hadoop - Mengkonfigurasi hadoop-env.sh

Langkah 12: Pergi ke direktori utama Hadoop dan format NameNode.

Perintah : CD

Perintah : cd hadoop-2.7.3

Perintah : bin / hadoop tujuan-format

Gambar: Pemasangan Hadoop - Memformat NamaNod

Ini memformat HDFS melalui NameNode. Perintah ini hanya dilaksanakan buat pertama kalinya. Memformat sistem fail bermaksud memulakan direktori yang ditentukan oleh pemboleh ubah dfs.name.dir.

Jangan sekali-kali memformat, menjalankan dan menjalankan sistem fail Hadoop. Anda akan kehilangan semua data anda yang tersimpan di HDFS.

perbezaan antara kaedah overloading dan kaedah overriding

Langkah 13: Setelah NameNode diformat, pergi ke direktori hadoop-2.7.3 / sbin dan mulakan semua daemon.

Perintah: cd hadoop-2.7.3 / sbin

Anda boleh memulakan semua daemon dengan satu perintah atau melakukannya secara individu.

Perintah: ./ mula-all.sh

Perintah di atas adalah gabungan dari mula-dfs.sh, mula-yarn.sh & mr-jobhistory-daemon.sh

Atau anda boleh menjalankan semua perkhidmatan secara individu seperti di bawah:

Mula NamaNod:

NameNode adalah bahagian tengah sistem fail HDFS. Ini menyimpan pohon direktori semua fail yang tersimpan di HDFS dan melacak semua fail yang disimpan di seluruh kluster.

Perintah: ./tujuan permulaan hadoop-daemon.sh

Gambar: Pemasangan Hadoop - Memulakan NamaNod

Mulakan DataNode:

Semasa memulakan, DataNode menyambung ke Namenode dan ia bertindak balas terhadap permintaan dari Namenode untuk operasi yang berbeza.

Perintah: ./hadoop-daemon.sh mulakan datanode

Gambar: Pemasangan Hadoop - Memulakan DataNode

Mulakan ResourceManager:

ResourceManager adalah master yang menentukan semua sumber cluster yang ada dan dengan itu membantu dalam menguruskan aplikasi yang diedarkan yang berjalan pada sistem YARN. Tugasnya adalah untuk menguruskan setiap NodeManagers dan setiap aplikasi ApplicationMaster.

Perintah: ./yarn-daemon.sh mulakan resourcemanager

Gambar: Pemasangan Hadoop - Memulakan ResourceManager

Mulakan NodeManager:

NodeManager dalam setiap kerangka mesin adalah agen yang bertanggungjawab untuk menguruskan kontena, memantau penggunaan sumbernya dan melaporkan hal yang sama kepada ResourceManager.

Perintah: ./yarn-daemon.sh mulakan anggukan lelaki

Gambar: Pemasangan Hadoop - Memulakan NodeManager

Mulakan JobHistoryServer:

JobHistoryServer bertanggungjawab untuk melayani semua permintaan berkaitan dengan pekerjaan dari pelanggan.

Perintah : ./mr-jobhistory-daemon.sh mulakan pelayan sejarah

Langkah 14: Untuk memastikan bahawa semua perkhidmatan Hadoop sudah berjalan dan berjalan, jalankan arahan di bawah.

Perintah: jps

Gambar: Pemasangan Hadoop - Memeriksa Daemon

Langkah 15: Sekarang buka penyemak imbas Mozilla dan pergi ke localhost : 50070 / dfshealth.html untuk memeriksa antara muka NameNode.

Gambar: Pemasangan Hadoop - Memulakan WebUI

Tahniah, anda berjaya memasang kluster Hadoop node tunggal dalam satu masa.Di blog kami seterusnya dari , kami akan merangkumi cara memasang Hadoop pada kluster berbilang nod juga.

Sekarang setelah anda memahami cara memasang Hadoop, lihat oleh Edureka, sebuah syarikat pembelajaran dalam talian yang dipercayai dengan rangkaian lebih daripada 250,000 pelajar berpuas hati yang tersebar di seluruh dunia. Kursus Latihan Pensijilan Hadoop Data Besar Edureka membantu pelajar menjadi pakar dalam bidang HDFS, Benang, MapReduce, Babi, Hive, HBase, Oozie, Flume dan Sqoop menggunakan kes penggunaan masa nyata pada domain Runcit, Media Sosial, Penerbangan, Pelancongan, Kewangan.

Ada soalan untuk kami? Sila sebutkan di bahagian komen dan kami akan menghubungi anda.