Hadoop adalah kerangka pengaturcaraan berbasis Java yang mengganggu pemrosesan set data besar dalam lingkungan pengkomputeran yang diedarkan, sementara R adalah bahasa pengaturcaraan dan lingkungan perisian untuk pengkomputeran statistik dan grafik. Bahasa R banyak digunakan di kalangan ahli statistik dan pelombong data untuk mengembangkan perisian statistik dan melakukan analisis data. Dalam bidang analisis data interaktif, statistik tujuan umum dan pemodelan ramalan, R telah mendapat popularitas besar kerana kemampuan klasifikasi, pengelompokan dan peringkatnya.
Hadoop dan R saling melengkapi antara satu sama lain dari segi visualisasi dan analisis data besar.
Menggunakan R dan Hadoop
Terdapat empat cara menggunakan Hadoop dan R bersama:
apakah carian binari di java
1. RHadoop
RHadoop adalah koleksi tiga pakej R: rmr, rhdfs dan rhbase. pakej rmr menyediakan fungsi Hadoop MapReduce di R, rhdfs menyediakan pengurusan fail HDFS di R dan rhbase menyediakan pengurusan pangkalan data HBase dari dalam R. Setiap pakej utama ini dapat digunakan untuk menganalisis dan mengurus data kerangka Hadoop dengan lebih baik.
2. ORCH
ORCH bermaksud Oracle R Connector untuk Hadoop. Ini adalah koleksi pakej R yang menyediakan antara muka yang sesuai untuk bekerja dengan tabel Hive, infrastruktur komputasi Apache Hadoop, lingkungan R setempat, dan jadual pangkalan data Oracle. Selain itu, ORCH juga menyediakan teknik analitik ramalan yang dapat diterapkan pada data dalam fail HDFS.
3. RHIPE
RHIPE adalah paket R yang menyediakan API untuk menggunakan Hadoop. RHIPE adalah singkatan dari R dan Hadoop Integrated Programming Environment, dan pada dasarnya adalah RHadoop dengan API yang berbeza.
Empat. Penstriman hadoop
Hadoop Streaming adalah utiliti yang membolehkan pengguna membuat dan menjalankan pekerjaan dengan mana-mana yang boleh dilaksanakan sebagai mapper dan / atau pengurang. Dengan menggunakan sistem streaming, seseorang dapat mengembangkan pekerjaan Hadoop yang berfungsi dengan pengetahuan Java yang cukup untuk menulis dua skrip shell yang berfungsi secara bersamaan.
Kombinasi R dan Hadoop muncul sebagai toolkit yang mesti dimiliki untuk orang yang bekerja dengan statistik dan set data yang besar. Namun, peminat Hadoop tertentu telah menaikkan bendera merah ketika berhadapan dengan serpihan Big Data yang sangat besar. Mereka mendakwa bahawa kelebihan R bukanlah sintaksnya tetapi perpustakaan primitif yang lengkap untuk visualisasi dan statistik. Perpustakaan ini pada asasnya tidak diedarkan, menjadikan pengambilan data menjadi urusan yang memakan masa. Ini adalah kelemahan yang melekat pada R, dan jika anda memilih untuk mengabaikannya, R dan Hadoop secara bersamaan masih dapat mengagumkan.
Sekarang, mari kita lihat demo:
Ada soalan untuk kami? Sila sebutkan di bahagian komen dan kami akan menghubungi anda.
Catatan berkaitan: