Tutorial Data Besar
Big Data, tidakkah anda pernah mendengar istilah ini sebelum ini? Saya pasti anda ada. Dalam 4 hingga 5 tahun kebelakangan, semua orang bercakap mengenai Big Data. Tetapi adakah anda benar-benar tahu apa sebenarnya Big Data ini, bagaimana ia memberi kesan kepada kehidupan kita & mengapa organisasi mencari profesional dengan ? Dalam Tutorial Big Data ini, saya akan memberi anda gambaran lengkap mengenai Big Data.
Berikut adalah topik yang akan saya bahas dalam Tutorial Big Data ini:
- Kisah Data Besar
- Faktor Pemacu Data Besar
- Apa itu Big Data?
- Ciri Data Besar
- Jenis Data Besar
- Contoh Data Besar
- Aplikasi Data Besar
- Cabaran dengan Data Besar
Mari saya mulakan Tutorial Data Besar ini dengan cerpen.
Kisah Data Besar
Pada zaman dahulu, orang biasa melakukan perjalanan dari satu kampung ke desa yang lain dengan kereta kuda, tetapi seiring berjalannya waktu, kampung menjadi bandar dan orang tersebar. Jarak perjalanan dari satu bandar ke bandar lain juga meningkat. Oleh itu, menjadi masalah untuk melakukan perjalanan antara bandar, bersama dengan bagasi. Secara tidak sengaja, salah satu teman pintar menyarankan, kita harus memperhatikan dan memberi makan kuda lebih banyak, untuk menyelesaikan masalah ini. Apabila saya melihat penyelesaian ini, tidaklah seburuk itu, tetapi adakah anda fikir kuda boleh menjadi gajah? Saya rasa tidak Orang pintar lain berkata, bukannya 1 kuda yang menarik kereta, mari kita mempunyai 4 kuda untuk menarik kereta yang sama. Apa pendapat anda tentang penyelesaian ini? Saya fikir ia adalah penyelesaian yang hebat. Kini, orang dapat menempuh jarak yang jauh dalam masa yang lebih sedikit dan bahkan membawa lebih banyak barang.
fungsi berlebihan dalam c ++
Konsep yang sama berlaku pada Big Data. Big Data mengatakan, sehingga hari ini, kami baik-baik saja dengan menyimpan data ke pelayan kami kerana jumlah data agak terhad, dan jumlah masa untuk memproses data ini juga baik. Tetapi sekarang dalam dunia teknologi sekarang ini, data berkembang terlalu cepat dan orang banyak bergantung pada data tersebut. Juga kelajuan di mana data berkembang, menjadi mustahil untuk menyimpan data ke pelayan mana pun.
Melalui blog ini di Big Data Tutorial, mari kita meneroka sumber Big Data, yang gagal disimpan dan diproses oleh sistem tradisional.
Faktor Pemacu Data Besar
Kuantiti data di planet bumi berkembang secara eksponen kerana banyak sebab. Pelbagai sumber dan aktiviti seharian kami menghasilkan banyak data. Dengan penemuan web, seluruh dunia telah dalam talian, setiap perkara yang kita lakukan meninggalkan jejak digital. Dengan objek pintar dalam talian, kadar pertumbuhan data telah meningkat dengan cepat. Sumber utama Data Besar adalah laman media sosial, rangkaian sensor, gambar / video digital, telefon bimbit, rekod transaksi pembelian, log web, rekod perubatan, arkib, pengawasan ketenteraan, eCommerce, penyelidikan saintifik yang kompleks dan sebagainya. Semua maklumat ini berjumlah sekitar Quintillion bait data. Menjelang tahun 2020, jumlah data akan menjadi sekitar 40 Zettabyte yang setara dengan menambahkan setiap butir pasir di planet ini dikalikan dengan tujuh puluh lima.
Apa itu Big Data?
Big Data adalah istilah yang digunakan untuk kumpulan kumpulan data yang besar dan kompleks, yang sukar untuk disimpan dan diproses menggunakan alat pengurusan pangkalan data yang tersedia atau aplikasi pemprosesan data tradisional. Cabarannya merangkumi menangkap, mengurus, menyimpan, mencari, berkongsi, memindahkan, menganalisis dan visualisasi data ini.
Ciri Data Besar
Lima ciri yang menentukan Big Data adalah: Volume, Velocity, Variety, Veracity dan Value.
VOLUME
Volume merujuk kepada 'jumlah data', yang semakin bertambah dari hari ke hari dengan kadar yang sangat pantas. Ukuran data yang dihasilkan oleh manusia, mesin dan interaksinya di media sosial itu sendiri sangat besar. Penyelidik telah meramalkan bahawa 40 Zettabytes (40,000 Exabytes) akan dihasilkan pada tahun 2020, yang merupakan peningkatan 300 kali ganda dari tahun 2005.
VELOKITI
Kecepatan didefinisikan sebagai kadar di mana sumber yang berbeza menghasilkan data setiap hari. Aliran data ini besar dan berterusan. Kini terdapat 1.03 bilion Pengguna Aktif Harian (Facebook DAU) di Mudah Alih, yang merupakan peningkatan 22% dari tahun ke tahun. Ini menunjukkan betapa cepatnya jumlah pengguna yang bertambah di media sosial dan seberapa pantas data dihasilkan setiap hari. Sekiranya anda dapat menangani halaju, anda akan dapat menghasilkan pandangan dan mengambil keputusan berdasarkan data masa nyata.
PELBAGAI
Oleh kerana terdapat banyak sumber yang menyumbang kepada Big Data, jenis data yang dihasilkannya berbeza. Ia boleh berstruktur, separa berstruktur atau tidak berstruktur. Oleh itu, terdapat pelbagai data yang dihasilkan setiap hari. Sebelumnya, kami biasa mendapatkan data dari excel dan pangkalan data, sekarang data datang dalam bentuk gambar, audio, video, data sensor dll seperti yang ditunjukkan pada gambar di bawah. Oleh itu, pelbagai data tidak berstruktur ini menimbulkan masalah dalam menangkap, menyimpan, melombong dan menganalisis data.
KELEMAHAN
Ketepatan merujuk kepada data dalam keraguan atau ketidakpastian data yang ada kerana ketidakkonsistenan dan ketidaklengkapan data. Dalam gambar di bawah, anda dapat melihat bahawa beberapa nilai tidak ada dalam jadual. Juga, beberapa nilai sukar diterima, misalnya - 15000 nilai minimum pada baris ke-3, tidak mungkin. Ketidakkonsistenan dan ketidaklengkapan ini adalah Ketepatan.
Data yang ada kadangkala menjadi tidak kemas dan mungkin sukar dipercayai. Dengan banyak bentuk data besar, kualiti dan ketepatan sukar dikendalikan seperti catatan Twitter dengan hashtag, singkatan, kesalahan ketik dan ucapan bahasa sehari-hari. Kelantangan sering menjadi alasan di sebalik kurangnya kualiti dan ketepatan dalam data.- Kerana ketidakpastian data, 1 dari 3 pemimpin perniagaan tidak mempercayai maklumat yang mereka gunakan untuk membuat keputusan.
- Didapati dalam tinjauan bahawa 27% responden tidak pasti berapa banyak data mereka tidak tepat.
- Kualiti data yang buruk menelan belanja ekonomi AS sekitar $ 3.1 trilion setahun.
NILAI
Setelah membincangkan Volume, Velocity, Variety dan Veracity, ada V lain yang harus diambil kira ketika melihat Big Data iaitu Nilai. Semuanya baik dan baik untuk mempunyai akses kepada yang besardatatetapimelainkan kita dapat mengubahnya menjadi nilai tidak ada gunanya. Dengan mengubahnya menjadi nilai yang saya maksudkan, Adakah menambah manfaat organisasi yang menganalisis data besar? Adakah organisasi yang mengusahakan Big Data mencapai ROI yang tinggi (Return On Investment)? Kecuali, ia menambah keuntungan mereka dengan mengusahakan Big Data, tidak ada gunanya.
Lihat video Big Data kami di bawah untuk mengetahui lebih lanjut mengenai Big Data:
Tutorial Data Besar Untuk Pemula | Apakah Data Besar | Edureka
Seperti yang dibahas dalam Variety, ada berbagai jenis data yang dihasilkan setiap hari. Oleh itu, mari kita fahami jenis data:
Jenis Data Besar
Data Besar boleh terdiri daripada tiga jenis:
- Berstruktur
- Separa Berstruktur
- Tidak berstruktur
Berstruktur
Data yang dapat disimpan dan diproses dalam format tetap disebut sebagai Data Terstruktur. Data yang disimpan dalam sistem pengurusan pangkalan data relasional (RDBMS) adalah salah satu contoh data ‘tersusun’. Sangat mudah untuk memproses data berstruktur kerana mempunyai skema tetap. Bahasa Pertanyaan Berstruktur (SQL) sering digunakan untuk menguruskan Data semacam itu.
Separa Berstruktur
Data Separuh Berstruktur adalah jenis data yang tidak memiliki struktur formal model data, yaitu definisi tabel dalam DBMS relasional, namun demikian ia memiliki beberapa sifat organisasi seperti tag dan penanda lain untuk memisahkan elemen semantik yang membuatnya lebih mudah untuk menganalisis. Fail XML atau dokumen JSON adalah contoh data separa berstruktur.
Tidak berstruktur
Data yang memiliki bentuk yang tidak diketahui dan tidak dapat disimpan dalam RDBMS dan tidak dapat dianalisis kecuali jika diubah menjadi format terstruktur disebut sebagai data tidak terstruktur. Fail Teks dan kandungan multimedia seperti gambar, audio, video adalah contoh data tidak berstruktur. Data tidak berstruktur berkembang lebih cepat daripada yang lain, para pakar mengatakan bahawa 80 peratus data dalam organisasi tidak berstruktur.
Hingga kini, saya baru sahaja membahas pengenalan Big Data. Tambahan pula, tutorial Big Data ini membincangkan mengenai contoh, aplikasi dan cabaran dalam Big Data.
Contoh Data Besar
Setiap hari kami memuat naik berjuta-juta bait data. 90% data dunia telah dibuat dalam dua tahun terakhir.
- Walmart menangani lebih banyak daripada 1 juta urus niaga pelanggan setiap jam.
- Kedai, akses, dan analisis Facebook 30+ Petabyte data yang dihasilkan pengguna.
- 230+ juta tweet dibuat setiap hari.
- Lebih daripada 5 bilion orang menelefon, menghantar SMS, tweet dan melayari telefon bimbit di seluruh dunia.
- Pengguna YouTube memuat naik 48 jam video baru setiap minit dalam sehari.
- Amazon mengendalikan 15 juta klik pelanggan aliran data pengguna setiap hari untuk mengesyorkan produk.
- 294 bilion e-mel dihantar setiap hari. Perkhidmatan menganalisis data ini untuk mencari spam.
- Kereta moden mempunyai jarak yang dekat 100 sensor yang memantau tahap bahan bakar, tekanan tayar dll., setiap kenderaan menghasilkan banyak data sensor.
Aplikasi Data Besar
Kita tidak boleh membicarakan data tanpa membicarakan orang, orang yang mendapat manfaat daripada aplikasi Big Data. Hampir semua industri hari ini memanfaatkan aplikasi Big Data dengan satu atau lain cara.
- Penjagaan Kesihatan yang lebih bijak : Menggunakan petabyte data pesakit, organisasi dapat mengekstrak informasi yang bermakna dan kemudian membangun aplikasi yang dapat meramalkan keadaan pesakit yang semakin merosot terlebih dahulu.
- Telekomunikasi : Sektor telekomunikasi mengumpulkan maklumat, menganalisisnya dan memberikan penyelesaian untuk masalah yang berbeza. Dengan menggunakan aplikasi Big Data, syarikat telekomunikasi dapat secara signifikan mengurangi kehilangan paket data, yang terjadi ketika rangkaian kelebihan beban, dan dengan demikian, memberikan sambungan yang lancar kepada pelanggan mereka.
- Runcit : Runcit mempunyai margin yang paling ketat, dan merupakan salah satu penerima data besar yang paling besar. Keindahan menggunakan data besar di runcit adalah memahami tingkah laku pengguna. Mesin cadangan Amazon memberikan cadangan berdasarkan sejarah penyemakan imbas pengguna.
- Kawalan trafik : Kesesakan lalu lintas adalah cabaran utama bagi banyak bandar di seluruh dunia. Penggunaan data dan sensor yang berkesan akan menjadi kunci untuk menguruskan lalu lintas dengan lebih baik apabila bandar menjadi semakin padat.
- Pembuatan : Menganalisis data besar dalam industri pembuatan dapat mengurangkan kecacatan komponen, meningkatkan kualiti produk, meningkatkan kecekapan, dan menjimatkan masa dan wang.
- Kualiti Carian : Setiap kali kami mengekstrak maklumat dari google, kami menghasilkan data untuk masa yang sama. Google menyimpan data ini dan menggunakannya untuk meningkatkan kualiti cariannya.
Seseorang dengan betul mengatakan: 'Bukan semua yang ada di taman itu Rosy!' . Sampai sekarang dalam tutorial Big Data ini, saya baru saja menunjukkan kepada anda gambaran besar Big Data. Tetapi jika begitu mudah memanfaatkan data besar, tidakkah anda fikir semua organisasi akan melabur di dalamnya? Izinkan saya memberitahu anda di muka, itu tidak berlaku. Terdapat beberapa cabaran yang dihadapi ketika anda bekerja dengan Big Data.
Sekarang setelah anda mengetahui Big Data dan pelbagai fiturnya, bahagian seterusnya dari blog ini di Big Data Tutorial akan menjelaskan beberapa cabaran utama yang dihadapi oleh Big Data.
Cabaran dengan Data Besar
Izinkan saya memberitahu anda beberapa cabaran yang disertakan dengan Big Data:
- Kualiti Data - Masalahnya ialah 4ikaV iaitu Kebenaran. Data di sini sangat tidak kemas, tidak konsisten dan tidak lengkap. Data kotor berharga $ 600 bilion untuk syarikat setiap tahun di Amerika Syarikat.
- Penemuan - Mencari maklumat mengenai Big Data adalah seperti mencari jarum di tumpukan jerami. Menganalisis data petabyte menggunakan algoritma yang sangat kuat untuk mencari corak dan pandangan sangat sukar.
- Penyimpanan - Semakin banyak data yang dimiliki oleh organisasi, semakin sukar untuk menguruskannya. Persoalan yang timbul di sini adalah 'Di mana menyimpannya?'. Kami memerlukan sistem penyimpanan yang dapat meningkatkan atau menurunkan permintaan dengan mudah.
- Analisis - Dalam hal Big Data, kebanyakan kita tidak mengetahui jenis data yang kita hadapi, jadi menganalisis data lebih sukar.
- Keselamatan - Oleh kerana data berukuran besar, menyimpannya adalah satu lagi cabaran. Ini merangkumi pengesahan pengguna, menyekat akses berdasarkan pengguna, merakam sejarah akses data, penggunaan enkripsi data yang betul dll.
- Kekurangan Bakat - Terdapat banyak projek Big Data di organisasi utama, tetapi pasukan pemaju, saintis data dan penganalisis yang canggih yang juga mempunyai pengetahuan domain yang mencukupi masih menjadi cabaran.
Hadoop ke Penyelamat
Kami mempunyai penyelamat untuk menangani cabaran Big Data - itu Hadoop . Hadoop adalah kerangka pengaturcaraan berasaskan sumber terbuka, Java yang menyokong penyimpanan dan pemprosesan set data yang sangat besar dalam lingkungan pengkomputeran yang diedarkan. Ia adalah sebahagian daripada projek Apache yang ditaja oleh Apache Software Foundation.
cara menggunakan python di anaconda
Hadoop dengan pemprosesan yang diedarkan, menangani sejumlah besar data berstruktur dan tidak berstruktur dengan lebih berkesan daripada gudang data perusahaan tradisional. Hadoop memungkinkan untuk menjalankan aplikasi pada sistem dengan ribuan nod perkakasan komoditi, dan untuk menangani ribuan terabyte data. Organisasi menggunakan Hadoop kerana ia adalah perisian sumber terbuka dan boleh dijalankan pada perkakasan komoditi (komputer peribadi anda).Penjimatan kos awal adalah dramatik kerana perkakasan komoditi sangat murah. Apabila data organisasi meningkat, anda perlu menambahkan lebih banyak perkakasan komoditi untuk menyimpannya dan oleh itu, Hadoop terbukti menjimatkan.Selain itu, Hadoop mempunyai komuniti Apache yang kuat di belakangnya yang terus menyumbang kepada kemajuannya.
Seperti yang dijanjikan sebelumnya, melalui blog di Big Data Tutorial ini, saya telah memberi anda gambaran maksimum dalam Big Data. Ini adalah akhir Tutorial Big Data. Sekarang, langkah seterusnya adalah mengenal dan mempelajari Hadoop. Kami mempunyai siri tutorial Hadoop blog yang akan memberikan pengetahuan terperinci mengenai ekosistem Hadoop yang lengkap.
Semua yang terbaik, Selamat Hadooping!
Sekarang setelah anda memahami apa itu Big Data, lihat oleh Edureka, sebuah syarikat pembelajaran dalam talian yang dipercayai dengan rangkaian lebih daripada 250,000 pelajar berpuas hati yang tersebar di seluruh dunia. Kursus Latihan Pensijilan Hadoop Data Besar Edureka membantu pelajar menjadi pakar dalam bidang HDFS, Benang, MapReduce, Babi, Hive, HBase, Oozie, Flume dan Sqoop menggunakan kes penggunaan masa nyata pada domain Runcit, Media Sosial, Penerbangan, Pelancongan, Kewangan.
Ada soalan untuk kami? Sila sebutkan di bahagian komen dan kami akan menghubungi anda.
Catatan berkaitan: