Data Besar Di AWS - Penyelesaian Pintar Untuk Data Besar



Artikel ini membantu anda memahami bagaimana AWS berurusan dengan Big Data dengan bijak. Ia juga menunjukkan bagaimana AWS dapat menyelesaikan cabaran Big Data dengan mudah.

Idea Big Data bukanlah perkara baru, ia ada di mana-mana. Kesan Big Data ada di mana-mana sahaja, dari perniagaan hingga sains, dari pemerintah hingga seni dan sebagainya. Tidak ada sahabat yang lebih baik daripada untuk memproses dan menganalisis Big Data. Dalam artikel ini, saya akan menunjukkan bagaimana AWS menangani cabaran Big Data dan petunjuk yang akan saya bahas adalah seperti berikut:

apakah kursus sains data

Apa itu Big Data?

ciri data besar





Anda boleh menganggap Data besar sebagai aset maklumat bervolume tinggi, berkelajuan tinggi dan / atau tinggi yang menuntut bentuk pemprosesan maklumat yang inovatif yang menjimatkan kos yang membolehkan wawasan, membuat keputusan, dan automasi proses yang dipertingkatkan.

Big Data terdiri daripada 5 V penting yang menentukan ciri Big Data. Mari kita bincangkan perkara ini sebelum beralih ke AWS.



Apa itu AWS?

merangkumi banyak produk dan perkhidmatan pengkomputeran awan yang berbeza. Bahagian Amazon yang sangat menguntungkan menyediakan pelayan, penyimpanan, rangkaian, pengkomputeran jarak jauh, e-mel, pembangunan mudah alih dan keselamatan. Selanjutnya. AWS terdiri daripada dua produk utama: EC2, perkhidmatan mesin maya Amazon, dan S3, sistem penyimpanan oleh Amazon. Ia begitu besar dan hadir dalam dunia pengkomputeran sehingga kini sekurang-kurangnya 10 kali lebih besar daripada pesaing terdekatnya dan mengehoskan laman web popular seperti Netflix dan Instagram.

.

AWS terbahagi kepada 12 wilayah global di seluruh dunia, masing-masing mempunyai banyak zon ketersediaan di mana pelayannya berada.Kawasan servis ini dibagi untuk membolehkan pengguna menetapkan had geografi pada perkhidmatan mereka, tetapi juga untuk memberikan keamanan dengan mempelbagaikan lokasi fizikal tempat data disimpan.



Mengapa Data Besar di AWS?

Para saintis, pemaju, dan peminat teknologi lain dari berbagai domain memanfaatkan AWS untuk melakukan analisis data besar dan memenuhi cabaran kritikal dari peningkatan maklumat digital. AWS menawarkan anda portfolio perkhidmatan pengkomputeran awan untuk membantu menguruskan data besar dengan mengurangkan kos, meningkatkan skala untuk memenuhi permintaan, dan meningkatkan kepantasan inovasi.

Perkhidmatan Web Amazon menyediakan portfolio bersepadu sepenuhnya perkhidmatan pengkomputeran awan. Selain itu, ia membantu anda membina, mengamankan, dan menggunakan aplikasi data besar anda. Juga, dengan AWS, anda tidak memerlukan perkakasan untuk mendapatkan dan infrastruktur untuk diselenggara dan ditingkatkan. Oleh kerana itu, anda dapat memfokuskan sumber daya anda untuk mendapatkan maklumat baru.Oleh kerana ciri baru ditambahkan secara berterusan, anda akan dapat memanfaatkan teknologi terkini tanpa perlu membuat komitmen pelaburan jangka panjang.

Bagaimana AWS dapat menyelesaikan Cabaran Data Besar?

Penyelesaian AWS untuk Big Data

AWS mempunyai banyak penyelesaian untuk semua tujuan pembangunan dan penggunaan. Juga, dalam bidang Sains Data dan Big Data, AWS telah muncul dengan perkembangan terkini dalam pelbagai aspek pengendalian Big Data. Sebelum beralih ke alat, mari kita memahami pelbagai aspek Big Data yang AWS dapat memberikan penyelesaian.

  1. Pengingesan Data
    Mengumpulkan data mentah - transaksi, log, peranti mudah alih dan banyak lagi - adalah cabaran pertama yang dihadapi oleh banyak organisasi ketika berurusan dengan data besar. Platform data besar yang baik menjadikan langkah ini lebih mudah, yang membolehkan pemaju menyerap pelbagai jenis data - dari yang terstruktur hingga yang tidak tersusun - pada kelajuan apa pun - dari masa nyata hingga kumpulan.

  2. Penyimpanan Data
    Mana-mana platform data besar memerlukan repositori yang selamat, terukur dan tahan lama untuk menyimpan data sebelum atau bahkan setelah memproses tugas. Bergantung pada keperluan khusus anda, anda mungkin juga memerlukan kedai sementara untuk data-dalam-transit.

  3. Pemprosesan data
    Ini adalah langkah di mana transformasi data berlaku dari keadaan mentahnya ke format habis - biasanya dengan cara menyusun, mengagregat, bergabung dan bahkan melakukan fungsi dan algoritma yang lebih maju. Kumpulan data yang dihasilkan menjalani penyimpanan untuk pemprosesan lebih lanjut atau tersedia untuk penggunaan melalui perisikan perniagaan dan alat visualisasi data.

  4. Visualisasi

    Data besar adalah mengenai mendapatkan pandangan tinggi yang boleh ditindaklanjuti dari aset data anda. Sebaik-baiknya, data tersedia untuk pihak berkepentingan melalui kecerdasan perniagaan layan diri dan alat visualisasi data tangkas yang membolehkan penerokaan set data dengan pantas dan mudah.

Alat AWS untuk Data Besar

Pada bahagian sebelumnya, kami melihat bidang di Big Data di mana AWS dapat memberikan penyelesaian. Selain itu, AWS mempunyai banyak alat dan perkhidmatan di gudangnya untuk membolehkan pelanggan dengan kemampuan Big Data.

Mari kita lihat pelbagai penyelesaian yang disediakan oleh AWS untuk menangani pelbagai peringkat yang terlibat dalam menangani Big Data

Pengingesan

  1. Kinesis

    Amazon Kinesis Firehose adalah perkhidmatan yang dikendalikan sepenuhnya untuk menyampaikan data streaming masa nyata terus ke Amazon S3. Kinesis Firehose secara automatik menskalakan agar sesuai dengan jumlah dan throughput data streaming dan tidak memerlukan pentadbiran yang berterusan. Anda boleh mengkonfigurasi Kinesis Firehose untuk mengubah data streaming sebelum anda menyimpannya di Amazon S3.

  2. Bola salji
    Anda boleh menggunakan Bola Salji AWS untuk memindahkan data pukal dengan selamat dan cekap dari platform penyimpanan di premis dan kluster Hadoop ke baldi S3. Selepas anda membuat pekerjaan di AWS Management Console, anda akan mendapat alat Snowball secara automatik. Setelah Snowball tiba, sambungkannya ke rangkaian tempatan anda, pasang klien Snowball pada sumber data di tempat anda, dan kemudian gunakan klien Snowball untuk memilih dan memindahkan direktori fail ke peranti Snowball.

Penyimpanan

  1. Amazon S3

Amazon S3 adalah simpanan objek yang selamat, sangat berskala, dan tahan lama dengan kependaman milisaat untuk akses data. S3 dapat menyimpan semua jenis data dari mana sahaja - laman web dan aplikasi mudah alih, aplikasi korporat, dan data dari sensor atau peranti IoT. Ia juga dapat menyimpan dan mengambil sejumlah data, dengan ketersediaan yang tidak dapat ditandingi, dan dibangun dari awal hingga memberikan ketahanan 99,999999999% (11 sembilan).

2. Gam AWS

Glue adalah perkhidmatan yang dikendalikan sepenuhnya yang menyediakan katalog data untuk menjadikan data di tasik data dapat ditemui. Selain itu, ia mempunyai kemampuan untuk melakukan ekstrak, transformasi, dan beban (ETL) untuk menyediakan data untuk analisis. Juga, katalog data bawaan adalah seperti penyimpanan metadata berterusan untuk semua aset data, menjadikan semua data dapat dicari, dan ditanyakan dalam satu paparan.

Memproses

  1. EMR
    Untuk pemprosesan data besar menggunakan Spark dan Hadoop, EMR Amazon menyediakan perkhidmatan terurus yang memudahkan, cepat, dan menjimatkan kos untuk memproses sejumlah besar data. Tambahan pula, EMR menyokong 19 projek sumber terbuka yang berbeza termasuk Hadoop , Percikan api , dan Juga dilengkapi dengan EMR Notebook yang dikendalikan untuk kejuruteraan data, pengembangan sains data, dan kolaborasi.

  2. Pergeseran merah
    Untuk pergudangan data, Amazon Redshift menyediakan kemampuan untuk menjalankan pertanyaan analitik yang kompleks terhadap petabyte data berstruktur. Ia juga merangkumi Spektrum Pergeseran Merah yang menjalankan pertanyaan SQL secara langsung terhadap Exabytes data berstruktur atau tidak berstruktur di S3 tanpa memerlukan pergerakan data yang tidak perlu.

Visualisasi

  1. Amazon QuickSight

    Untuk papan pemuka dan visualisasi, Amazon Quicksight memberikan anda perkhidmatan analitik perniagaan yang pantas dan bertenaga awan. Ini menjadikannya mudah untuk membuat visualisasi yang menakjubkan dan papan pemuka yang kaya. Selain itu, anda boleh mengaksesnya dari mana-mana penyemak imbas atau peranti mudah alih.

Demo - Menganalisis Data Spesies Tumbuhan dan Haiwan yang Terancam di Australia.

Dalam Demo ini, kami akan menggunakan sampel data spesies tumbuhan dan haiwan yang terancam dari negeri dan wilayah Australia. Di sini kita akan membuat kluster EMR dan mengkonfigurasinya untuk menjalankan pekerjaan Apache Hive berbilang langkah. Kluster EMR akan dipasang Apache Hive di dalamnya. Kluster ini akan menggunakan EMRFS sebagai sistem file, sehingga lokasi input dan output datanya dipetakan ke keranjang S3. Kluster juga akan menggunakan baldi S3 yang sama untuk menyimpan fail log.

Kami sekarang akan membuat sejumlah langkah EMR dalam kluster untuk memproses kumpulan sampel data. Di sini setiap langkah ini akan menjalankan skrip Hive, dan output akhir akan disimpan ke baldi S3. Langkah-langkah ini akan menghasilkan log MapReduce dan itu kerana perintah Hive diterjemahkan ke pekerjaan MapReduce pada waktu berjalan. Fail log untuk setiap langkah digabungkan dari bekas yang dihasilkannya.

Data Contoh

Kumpulan data sampel untuk kes penggunaan ini tersedia secara terbuka dari Laman web data terbuka kerajaan Australia . Kumpulan data ini adalah mengenai spesies haiwan dan tumbuhan yang terancam dari berbagai negeri dan wilayah di Australia. Penerangan mengenai bidang set data ini dan fail CSV dapat dilihat dan dimuat turun di sini .

Langkah Memproses

Langkah pekerjaan EMR pertama di sini melibatkan membuat jadual Hive sebagai skema untuk fail sumber yang mendasari di S3. Pada langkah kerja kedua, kita sekarang akan menjalankan pertanyaan yang berjaya terhadap data. Begitu juga, kita akan menjalankan pertanyaan ketiga dan keempat.

Kami akan mengulangi keempat-empat langkah ini beberapa kali dalam satu jam, mensimulasikan tugas berturut-turut kumpulan berturut-turut. Namun, dalam senario kehidupan nyata, perbezaan waktu antara setiap batch dijalankan biasanya jauh lebih tinggi. Jurang masa kecil antara larian berturut-turut bertujuan untuk mempercepat pengujian kami.

Baldi dan Folder S3

Sebelum membuat kluster EMR kami, di sini kami harus membuat baldi S3 untuk menjadi hos failnya. Dalam contoh kami, kami menamakan baldi ini sebagai 'arvind1-bucket'. Folder di bawah baldi ini ditunjukkan di bawah di AWS Console untuk S3:

cara memasang hadoop pada linux

  • Folder input menyimpan data sampel

  • Folder skrip mengandungi fail skrip Hive untuk langkah-langkah pekerjaan EMR

  • Folder output jelas akan menahan output program Hive

  • Kluster EMR menggunakan folder log untuk menyimpan fail lognya.

Hive Skrip untuk Langkah Pekerjaan EMR

1. Langkah kerja ini menjalankan skrip Hiveuntuk membuat jadual Hive luaran. Jadual ini menerangkan skema jadual fail data CSV yang mendasari. Skrip untuk ini adalah seperti berikut:

BUAT JADUAL LUARAN `ancaman_spesies` (rentetan` nama saintifik ', rentetan `nama umum', rentetan` nama saintifik semasa ', rentetan `status terancam`, rentetan` bertindak`, rentetan `nsw`, tali` nt`, `qld` string, string `sa`, string` tas`, string `vic`, string wa`, string` aci`, string `cki`, string` ci`, string `csi`, string` jbt`, `nfi` string, string `hmi`, string aat`, string` cma`, `sprat taxonid` bigint yang disenaraikan,` sprat taxonid` bigint semasa, string `Kingdom`, string` class`, string `profile`, tarikh diekstrak` string, string `nsl name`, string` family`, string `genus`,` species` string, `infraspecific rank` string,` infraspecies` string, `spesies author` string,` infraspecies author` string) BENTUK ROW FORMAT BIDANG DITERANGKAN OLEH ',' DITETAPKAN SEBAGAI INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket / script

2. Langkah pekerjaan ini menjalankan pertanyaan untuk mengira lima spesies terancam teratas di negeri New South Wales (NSW). Nama fail pertanyaan Hive adalah terancamSpesiesNSW.q dan ditunjukkan di bawah:

PILIH spesies, COUNT (nsw) SEBAGAI nombor_of_endangered_species DARI terancam_spesies DI MANA (nsw = 'Ya' ATAU nsw = 'Terancam') DAN 'status terancam' = 'Terancam' KUMPULAN OLEH spesies MEMILIKI COUNT (nsw)> 1 ORDER BY number_of_endangered_species BATASAN DESC 5

3.Langkah pekerjaan ini menjalankan pertanyaan untuk mengira jumlah spesies tumbuhan yang terancam punah untuk setiap keluarga tumbuhan di Australia. Nama fail pertanyaan Hive adalahterancamPlantSpecies.qdan ditunjukkan di bawah

PILIH keluarga, COUNT (spesies) SEBAGAI nombor_of_endangered_species DARI terancam_spesies2 DI MANA kerajaan = 'Plantae' DAN 'status terancam' = 'Terancam' KUMPULAN OLEH keluarga

4. Langkah ini menyenaraikan nama saintifik spesies haiwan yang pupus di negara Queensland Australia. Fail skrip dipanggil pupusAnimalsQLD.q dan ditunjukkan di bawah:

PILIH 'nama umum', 'nama saintifik' DARI terancam_spesies MANA kerajaan = 'Animalia' DAN (qld = 'Ya' ATAU qld = 'pupus') DAN 'status terancam' = 'pupus'

Pengumpulan Log

Di sini kita juga telah memuat naik fail JSON yang disebut logAggregation.json dalam folder skrip baldi S3. Kami menggunakan fail ini untuk mengumpulkan fail log YARN. Penggabungan log dikonfigurasi dalam fail konfigurasi yarn-site.xml semasa kluster dimulakan. Kandungan fail logAggregation.json adalah seperti berikut:

[{'Klasifikasi': 'benang-situs', 'Properties': {'yarn.log-agregation-enabled': 'true', 'yarn.log-aggregation.retain-seconds': '-1', 'benang .nodemanager.remote-app-log-dir ':' s3: // arvind1-bucket / log '}}]

Setelah anda membuat baldi S3 dan menyalin data dan fail skrip ke folder masing-masing, kini saatnya untuk membuat kluster EMR. Petikan berikut menerangkan proses ketika kami membuat kluster dengan kebanyakan tetapan lalai.

hubungan antara java dan javascript

Penyediaan Kluster EMR

Pada gambar pertama, untuk mengkonfigurasi kluster di konsol AWS, kami telah menyimpan semua aplikasi yang disyorkan oleh EMR, termasuk Hive. Kami tidak perlu menggunakan Lem AWS untuk menyimpan metadata Hive, dan kami juga tidak menambah langkah pekerjaan buat masa ini. Namun, kita perlu menambahkan tetapan perisian untuk Hive. Di sini anda mesti memerhatikan dengan teliti bagaimana kita menentukan jalan ke fail JSON agregasi log dalam bidang ini.

Pada langkah seterusnya, kami telah menyimpan semua tetapan lalai. Demi ujian kami, kluster akan mempunyai satu nod utama dan dua nod teras. Setiap simpul di sini adalah contoh m3.xlarge dan mempunyai isi padu 10 GB. Kami menamakan cluster arvind1-cluster pada langkah berikutnya, dan menentukan lokasi s3 khusus untuk fail lognya.

Akhirnya, kami menentukan pasangan kunci EC2 untuk tujuan mengakses nod induk kluster. Tidak ada perubahan dalam peranan IAM lalai untuk EMR, profil contoh EC2, dan pilihan skala automatik. Juga, nod utama dan teras menggunakan kumpulan keselamatan yang tersedia secara lalai. Biasanya, ini adalah persediaan lalai untuk kluster EMR. Setelah semuanya siap, kluster berada dalam status 'menunggu' seperti yang ditunjukkan di bawah:

Kirim Langkah Pekerjaan Hive

Selepas ini, kita perlu membenarkan akses SSH.

  1. Buka konsol EMR Amazon di https://console.aws.amazon.com/elasticmapreduce/ .
  2. Pilih Kluster .
  3. Pilih Nama kluster.
  4. Di bawah Keselamatan dan akses pilih yang Kumpulan keselamatan untuk Tuan pautan.
  5. Pilih ElasticMapReduce-master dari senarai.
  6. Pilih Masuk , Edit .
  7. Cari peraturan dengan tetapan berikut dan pilih x ikon untuk menghapusnya:
    • Jenis SSH
    • Pelabuhan 22
    • Sumber Custom.0.0.0/0
  8. Tatal ke bahagian bawah senarai peraturan dan pilih Tambah Peraturan .
  9. Untuk Jenis , pilih SSH .Ini masuk secara automatik TCP untuk Protokol dan 22 untuk Julat Pelabuhan .
  10. Untuk sumber, pilih IP saya Ini secara automatik menambahkan alamat IP komputer pelanggan anda sebagai alamat sumber. Sebagai alternatif, anda boleh menambah julat Adat alamat IP pelanggan yang dipercayai dan memilih untuk tambah peraturan untuk membuat peraturan tambahan untuk pelanggan lain. Di banyak persekitaran rangkaian, anda memperuntukkan alamat IP secara dinamik, jadi anda mungkin perlu mengedit peraturan kumpulan keselamatan secara berkala untuk mengemas kini alamat IP klien yang dipercayai.
  11. Pilih Jimat .
  12. Secara pilihan, pilih ElasticMapReduce-slave dari senarai dan ulangi langkah-langkah di atas untuk membolehkan pelanggan SSH mengakses inti dan tugas tugas dari pelanggan yang dipercayai.

Oleh kerana kluster EMR sudah berjalan, kami telah menambahkan empat langkah kerja. Ini adalah langkah-langkah yang akan dijalankan EMR satu demi satu. Gambar berikut menunjukkan langkah-langkah dari konsol AWS EMR:

Setelah kami menambah empat langkah, kami dapat memeriksa status langkah-langkah ini setelah selesai. Walaupun terdapat beberapa masalah dengan pelaksanaan langkah-langkah ini, maka dalam hal seperti itu dapat diselesaikan dengan menggunakan file log dari langkah-langkah ini.

Jadi ini dari pihak saya dalam artikel mengenai Big Data di AWS. Saya harap anda telah memahami semua yang telah saya jelaskan di sini.

Sekiranya anda mendapati Data Besar ini di AWS relevan, anda boleh menyemak kursus langsung dan bimbingan pengajar Edureka , dicipta bersama oleh pengamal industri.

Ada soalan untuk kami? Tolong sebutkan di bahagian komen mengenai Cara Menggunakan Aplikasi Web Java di AWS dan kami akan menghubungi anda.