Ketika dunia memasuki era data besar, keperluan penyimpanannya juga bertambah. Ini adalah cabaran dan perhatian utama bagi industri perusahaan hingga tahun 2010. Fokus utamanya adalah membangun kerangka kerja dan penyelesaian untuk menyimpan data. Sekarang apabila Hadoop dan kerangka kerja lain berjaya menyelesaikan masalah penyimpanan, fokusnya beralih ke pemprosesan data ini. Sains Data adalah sos rahsia di sini. Semua idea yang anda lihat dalam filem sci-fi Hollywood sebenarnya boleh menjadi kenyataan oleh Data Science. Sains Data adalah masa depan Kecerdasan Buatan. Oleh itu, sangat penting untuk memahami apa itu Sains Data dan bagaimana ia dapat memberi nilai tambah kepada perniagaan anda.
Panduan Kerjaya Teknologi Edureka 2019 sudah habis! Peranan pekerjaan terpanas, jalan pembelajaran yang tepat, pandangan industri & banyak lagi dalam panduan ini. Muat turun sekarang.Dalam blog ini, saya akan merangkumi topik berikut.
- Apa itu Sains Data?
- Mengapa Sains Data?
- Siapakah Saintis Data?
- Bagaimana ia berbeza dengan Business Intelligence (BI) dan Data Science?
- Kitaran hidup Sains Data dengan bantuan kes penggunaan
Pada akhir blog ini, anda akan dapat memahami apa itu Sains Data dan peranannya dalam memperoleh pandangan yang bermakna dari kumpulan data yang kompleks dan besar di sekitar kita.Untuk mendapatkan pengetahuan mendalam mengenai Sains Data, anda boleh mendaftar secara langsung oleh Edureka dengan sokongan 24/7 dan akses seumur hidup.
Apa itu Sains Data?
Sains Data adalah gabungan pelbagai alat, algoritma, dan prinsip pembelajaran mesin dengan tujuan untuk mencari corak tersembunyi dari data mentah. Tetapi bagaimana ini berbeza dengan apa yang telah dilakukan oleh ahli statistik selama bertahun-tahun?
Jawapannya terletak pada perbezaan antara menjelaskan dan meramal.
Seperti yang anda lihat dari gambar di atas, Penganalisis Databiasanya menerangkan apa yang berlaku dengan memproses sejarah data. Sebaliknya, Saintis Data tidak hanya melakukan analisis penerokaan untuk mengetahui pandangan daripadanya, tetapi juga menggunakan pelbagai algoritma pembelajaran mesin canggih untuk mengenal pasti kejadian kejadian tertentu pada masa akan datang. Seorang Saintis Data akan melihat data dari banyak sudut, kadang-kadang sudut yang tidak diketahui sebelumnya.
Oleh itu, Sains Data digunakan terutamanya untuk membuat keputusan dan ramalan yang menggunakan analisis sebab-akibat ramalan, analisis preskriptif (sains ramalan dan keputusan) dan pembelajaran mesin.
- Analisis sebab-akibat ramalan - Sekiranya anda mahukan model yang dapat meramalkan kemungkinan peristiwa tertentu pada masa akan datang, anda perlu menggunakan analisis sebab-akibat ramalan. Katakanlah, jika anda memberikan wang secara kredit, kemungkinan pelanggan membuat pembayaran kredit masa depan tepat pada waktunya adalah perkara yang perlu anda bimbangkan. Di sini, anda boleh membina model yang dapat melakukan analitik ramalan mengenai sejarah pembayaran pelanggan untuk meramalkan apakah pembayaran di masa akan datang tepat pada waktunya atau tidak.
- Analisis preskriptif: Sekiranya anda mahukan model yang mempunyai kepandaian mengambil keputusan sendiri dan kemampuan untuk mengubahnya dengan parameter dinamik, anda pasti memerlukan analisis preskriptif untuknya. Bidang yang agak baru ini adalah mengenai memberi nasihat. Dengan istilah lain, ia bukan hanya meramalkan tetapi mencadangkan pelbagai tindakan yang ditentukan dan hasil yang berkaitan.
Contoh terbaik untuk ini adalah kereta memandu sendiri Google yang telah saya bincangkan sebelumnya. Data yang dikumpulkan oleh kenderaan boleh digunakan untuk melatih kereta yang memandu sendiri. Anda boleh menjalankan algoritma pada data ini untuk membawa kepintaran kepadanya. Ini akan membolehkan kereta anda mengambil keputusan seperti bila hendak membelok, jalan mana yang harus diambil,bila hendak melambatkan atau mempercepat.
- Pembelajaran mesin untuk membuat ramalan - Sekiranya anda mempunyai data transaksi syarikat kewangan dan perlu membina model untuk menentukan arah aliran masa depan, maka algoritma pembelajaran mesin adalah pertaruhan terbaik. Ini berada di bawah paradigma pembelajaran yang diselia. Ia dipanggil diawasi kerana anda sudah mempunyai data berdasarkan mana anda dapat melatih mesin anda. Sebagai contoh, model pengesanan penipuan dapat dilatih menggunakan catatan sejarah pembelian palsu.
- Pembelajaran mesin untuk penemuan corak - Sekiranya anda tidak mempunyai parameter berdasarkan mana anda boleh membuat ramalan, maka anda perlu mengetahui corak tersembunyi dalam set data untuk dapat membuat ramalan yang bermakna. Ini tidak lain hanyalah model yang tidak diawasi kerana anda tidak mempunyai label yang ditentukan untuk dikelompokkan. Algoritma yang paling biasa digunakan untuk penemuan corak adalah Clustering.
Katakan anda bekerja di sebuah syarikat telefon dan anda perlu membina rangkaian dengan meletakkan menara di wilayah. Kemudian, anda boleh menggunakan teknik pengelompokan untuk mencari lokasi menara yang akan memastikan semua pengguna mendapat kekuatan isyarat yang optimum.
Mari kita lihat bagaimana perbezaan pendekatan yang dinyatakan di atas berbeza untuk Analisis Data dan juga Sains Data. Seperti yang anda lihat dalam gambar di bawah, Analisis Datamerangkumi analisis deskriptif dan ramalan hingga tahap tertentu. Sebaliknya, Sains Data lebih kepada Predictive Causal Analytics dan Machine Learning.
Sekarang setelah anda mengetahui apa sebenarnya Sains Data, sekarang mari cari tahu mengapa ia diperlukan.
Mengapa Sains Data?
- Secara tradisional, data yang kami miliki sebagian besar terstruktur dan berukuran kecil, yang dapat dianalisis dengan menggunakan alat BI sederhana.Tidak seperti data disistem tradisional yang kebanyakannya tersusun, hari ini sebahagian besar data tidak berstruktur atau separa berstruktur. Mari kita lihat tren data dalam gambar yang diberikan di bawah ini yang menunjukkan bahawa menjelang tahun 2020, lebih daripada 80% data akan tersusun.
Data ini dihasilkan dari pelbagai sumber seperti log kewangan, fail teks, bentuk multimedia, sensor, dan instrumen. Alat BI yang sederhana tidak mampu memproses jumlah dan pelbagai data yang besar ini. Inilah sebabnya mengapa kita memerlukan alat dan algoritma analitik yang lebih kompleks dan canggih untuk memproses, menganalisis dan menarik pandangan yang bererti.
Ini bukan satu-satunya sebab mengapa Sains Data menjadi begitu popular. Mari gali lebih mendalam dan lihat bagaimana Sains Data digunakan dalam pelbagai domain.
- Bagaimana jika anda dapat memahami kehendak tepat pelanggan anda dari data yang ada seperti sejarah penyemakan imbas terakhir pelanggan, sejarah pembelian, usia dan pendapatan. Tidak diragukan lagi anda memiliki semua data ini lebih awal, tetapi sekarang dengan sejumlah besar dan pelbagai data, anda dapat melatih model dengan lebih berkesan dan mengesyorkan produk tersebut kepada pelanggan anda dengan lebih tepat. Bukankah mengagumkan kerana akan membawa lebih banyak perniagaan ke organisasi anda?
- Mari kita senario berbeza untuk memahami peranan Sains Data membuat keputusan.Bagaimana jika kereta anda mempunyai kecerdasan untuk memandu anda pulang? Kereta memandu sendiri mengumpulkan data langsung dari sensor, termasuk radar, kamera, dan laser untuk membuat peta persekitarannya. Berdasarkan data ini, diperlukan keputusan seperti kapan harus mempercepat, kapan harus mempercepat, kapan harus menyalip, di mana mengambil giliran - menggunakan algoritma pembelajaran mesin canggih.
- Mari kita lihat bagaimana Sains Data boleh digunakan dalam analisis ramalan. Mari kita perhatikan ramalan cuaca sebagai contoh. Data dari kapal, pesawat terbang, radar, satelit dapat dikumpulkan dan dianalisis untuk membangun model. Model-model ini bukan sahaja dapat meramalkan cuaca tetapi juga dapat membantu meramalkan kejadian bencana alam. Ini akan membantu anda mengambil langkah-langkah yang sesuai terlebih dahulu dan menyelamatkan banyak nyawa yang berharga.
Mari lihat infografik di bawah untuk melihat semua domain di mana Sains Data menghasilkan kesannya.
Siapakah Saintis Data?
Terdapat beberapa definisi yang terdapat pada Saintis Data. Dengan kata mudah, seorang Saintis Data adalah seorang yang mempraktikkan seni Sains Data.Istilah 'Saintis Data' telahdicipta setelah mempertimbangkan hakikat bahawa seorang Saintis Data mengambil banyak maklumat dari bidang dan aplikasi saintifik sama ada statistik atau matematik.
Apa yang dilakukan oleh Saintis Data?
Saintis data adalah mereka yang memecahkan masalah data yang kompleks dengan kepakaran mereka yang kuat dalam disiplin saintifik tertentu. Mereka bekerja dengan beberapa elemen yang berkaitan dengan matematik, statistik, sains komputer, dan lain-lain (walaupun mereka mungkin bukan pakar dalam semua bidang ini).Mereka menggunakan banyak teknologi terkini dalam mencari penyelesaian dan membuat kesimpulan yang sangat penting untuk pertumbuhan dan perkembangan organisasi. Saintis Data menunjukkan data tersebut dalam bentuk yang lebih berguna berbanding dengan data mentah yang ada pada mereka dari bentuk berstruktur dan juga tidak berstruktur.
Untuk mengetahui lebih lanjut mengenai Saintis Data, anda boleh merujuk artikel ini di
Melangkah lebih jauh, mari kita bincangkan BI. Saya pasti anda mungkin pernah mendengar tentang Business Intelligence (BI) juga. Selalunya Sains Data keliru dengan BI. Saya akan menyatakan beberapa ringkas dan jelasberbeza antara kedua-duanya yang akan membantu anda dalam mendapatkan pemahaman yang lebih baik. Mari kita lihat.
Kepintaran Perniagaan (BI) berbanding Sains Data
- Business Intelligence (BI) pada dasarnya menganalisis data sebelumnya untuk mencari pandangan dan pandangan untuk menerangkan trend perniagaan. Di sini BI membolehkan anda mengambil data dari sumber luaran dan dalaman, menyiapkannya, menjalankan pertanyaan di dalamnya dan membuat papan pemuka untuk menjawab soalan sepertianalisis pendapatan suku tahunanatau masalah perniagaan. BI dapat menilai kesan peristiwa tertentu dalam masa terdekat.
- Sains Data adalah pendekatan yang lebih berpandangan ke hadapan, cara penerokaan dengan fokus menganalisis data masa lalu atau semasa dan meramalkan hasil masa depan dengan tujuan membuat keputusan yang tepat. Ini menjawab pertanyaan terbuka mengenai peristiwa 'apa' dan 'bagaimana' terjadi.
Mari kita lihat beberapa ciri yang berbeza.
ciri-ciri | Perisikan Perniagaan (BI) | Sains Data |
Sumber data | Berstruktur (Biasanya SQL, selalunya Data Warehouse) | Kedua-duanya Berstruktur dan Tidak Berstruktur (log, data awan, SQL, NoSQL, teks) |
Pendekatan | Statistik dan Visualisasi | Statistik, Pembelajaran Mesin, Analisis Grafik, Pengaturcaraan Neuro-linguistik (NLP) |
Fokus | Masa lalu dan masa kini | Sekarang dan Masa Depan |
Alat | Pentaho, Microsoft BI,QlikView, R | RapidMiner, BigML, Weka, R |
Ini semua mengenai apa itu Sains Data, sekarang mari kita fahami kitaran hidup Sains Data.
Kesalahan yang biasa dilakukan dalam projek Sains Data adalah untuk mengumpulkan dan menganalisis data, tanpa memahami keperluan atau bahkan membingkai masalah perniagaan dengan betul. Oleh itu, sangat penting bagi anda untuk mengikuti semua fasa sepanjang kitaran hidup Sains Data untuk memastikan kelancaran projek.
Kitaran Hayat Sains Data
Berikut adalah gambaran keseluruhan fasa utama Kitaran Hidup Sains Data:
Fasa 1 — Penemuan: Sebelum memulakan projek, penting untuk memahami pelbagai spesifikasi, keperluan, keutamaan dan anggaran yang diperlukan. Anda mesti mempunyai kemampuan untuk mengemukakan soalan yang tepat.Di sini, anda menilai jika anda mempunyai sumber yang diperlukan dari segi orang, teknologi, masa dan data untuk menyokong projek tersebut.Pada fasa ini, anda juga perlu merangka masalah perniagaan dan merumuskan hipotesis awal (IH) untuk diuji.
Fasa 2 - Penyediaan data: Pada fasa ini, anda memerlukan kotak pasir analitik di mana anda dapat melakukan analisis untuk keseluruhan jangka masa projek. Anda perlu meneroka, memproses dan menyusun data sebelum membuat pemodelan. Selanjutnya, anda akan melakukan ETLT (ekstrak, ubah, muat dan ubah) untuk memasukkan data ke dalam kotak pasir. Mari lihat aliran Analisis Statistik di bawah.
Anda dapat menggunakan R untuk membersihkan data, transformasi, dan visualisasi. Ini akan membantu anda mengesan garis besar dan menjalin hubungan antara pemboleh ubah.Setelah anda membersihkan dan menyiapkan data, inilah masanya untuk melakukan penerokaananalisisdi atasnya. Mari lihat bagaimana anda boleh mencapainya.
Fasa 3 — Perancangan model: Di sini, anda akan menentukan kaedah dan teknik untuk menarik hubungan antara pemboleh ubah.Hubungan ini akan menetapkan asas untuk algoritma yang akan anda laksanakan pada fasa seterusnya.Anda akan menggunakan Analisis Data Eksploratori (EDA) menggunakan pelbagai formula statistik dan alat visualisasi.
Mari kita lihat pelbagai alat perancangan model.
- R mempunyai set kemampuan pemodelan yang lengkap dan menyediakan persekitaran yang baik untuk membina model interpretif.
- Perkhidmatan Analisis SQL dapat melakukan analisis dalam pangkalan data menggunakan fungsi perlombongan data biasa dan model ramalan asas.
- SAS / AKSES dapat digunakan untuk mengakses data dari Hadoop dan digunakan untuk membuat diagram aliran model yang dapat diulang dan boleh digunakan semula.
Walaupun, banyak alat terdapat di pasaran tetapi R adalah alat yang paling biasa digunakan.
Sekarang setelah anda mendapat gambaran mengenai sifat data anda dan telah memutuskan algoritma yang akan digunakan. Pada peringkat seterusnya, anda akan melakukannyaberlakualgoritma dan membina model.
Fasa 4 — Pembinaan model: Pada fasa ini, anda akan mengembangkan set data untuk tujuan latihan dan ujian. Di sini yanda perlu mempertimbangkan sama ada alat yang ada mencukupi untuk menjalankan model atau memerlukan persekitaran yang lebih mantap (seperti pemprosesan pantas dan selari). Anda akan menganalisis pelbagai teknik pembelajaran seperti klasifikasi, pergaulan dan pengelompokan untuk membina model.
Anda boleh mencapai pembinaan model melalui alat berikut.
Fasa 5 - Beroperasi: Pada fasa ini, anda menyampaikan laporan akhir, taklimat, kod dan dokumen teknikal.Di samping itu, kadang-kadang projek perintis juga dilaksanakan dalam persekitaran pengeluaran masa nyata. Ini akan memberi anda gambaran yang jelas mengenai prestasi dan kekangan lain yang berkaitan dalam skala kecil sebelum penggunaan sepenuhnya.
Fasa 6 - Sampaikan hasil: Sekarang adalah penting untuk menilai sama ada anda berjaya mencapai matlamat yang anda rancangkan pada fasa pertama. Jadi, pada fasa terakhir, anda mengenal pasti semua penemuan penting, berkomunikasi dengan pihak berkepentingan dan tentukan apakah hasilnyaprojek itu adalah kejayaan atau kegagalan berdasarkan kriteria yang dikembangkan dalam Fasa 1.
Sekarang, saya akan mengambil kajian kes untuk menerangkan kepada anda pelbagai fasa yang dinyatakan di atas.
Kajian Kes: Pencegahan Diabetes
Bagaimana jika kita dapat meramalkan kejadian diabetes dan mengambil langkah-langkah yang sesuai sebelumnya untuk mencegahnya?
Dalam kes penggunaan ini, kita akan meramalkan berlakunya diabetes yang menggunakan keseluruhan kitaran hidup yang telah kita bincangkan sebelumnya. Mari kita lalui pelbagai langkah.
Langkah 1:
- Pertama,kami akan mengumpulkan data berdasarkan sejarah perubatanpesakit seperti yang dibincangkan dalam Fasa 1. Anda boleh merujuk contoh data di bawah.
- Seperti yang Anda lihat, kami memiliki berbagai atribut seperti yang disebutkan di bawah.
Atribut:
- npreg - Berapa kali mengandung
- glukosa - Kepekatan glukosa plasma
- bp - Tekanan darah
- kulit - Ketebalan lipatan kulit Triceps
- bmi - Indeks jisim badan
- ped - Fungsi silsilah diabetes
- umur - Umur
- pendapatan - Pendapatan
Langkah 2:
- Sekarang, setelah kita memiliki data, kita perlu membersihkan dan menyiapkan data untuk analisis data.
- Data ini mempunyai banyak ketidakkonsistenan seperti nilai yang hilang, lajur kosong, nilai tiba-tiba dan format data yang salah yang perlu dibersihkan.
- Di sini, kami telah menyusun data ke dalam satu jadual dengan atribut yang berbeza - menjadikannya kelihatan lebih tersusun.
- Mari kita lihat contoh data di bawah.
Data ini mempunyai banyak ketidakkonsistenan.
- Di lajur npreg , 'Satu' ditulis dalamperkataan,sedangkan mestilah dalam bentuk angka seperti 1.
- Di lajur bp salah satu nilainya adalah 6600 yang mustahil (sekurang-kurangnya untuk manusia) kerana bp tidak boleh mencapai nilai yang begitu besar.
- Seperti yang anda lihat Pendapatan lajur kosong dan juga tidak masuk akal dalam meramalkan diabetes. Oleh itu, adalah berlebihan untuk memilikinya di sini dan harus dikeluarkan dari jadual.
- Oleh itu, kami akan membersihkan dan memproses data ini dengan membuang outliers, mengisi nilai null dan menormalkan jenis data. Sekiranya anda ingat, ini adalah fasa kedua kami iaitu proses pemprosesan data.
- Akhirnya, kami mendapat data bersih seperti yang ditunjukkan di bawah ini yang dapat digunakan untuk analisis.
Langkah 3:
menggabungkan susun atur c ++
Sekarang mari kita lakukan beberapa analisis seperti yang dibincangkan sebelumnya pada Fasa 3.
- Pertama, kami akan memuatkan data ke dalam kotak pasir analitik dan menerapkan pelbagai fungsi statistik di atasnya. Sebagai contoh, R mempunyai fungsi seperti menerangkan yang memberi kita bilangan nilai yang hilang dan nilai unik. Kita juga boleh menggunakan fungsi ringkasan yang akan memberi kita maklumat statistik seperti nilai min, median, julat, min dan maksimum.
- Kemudian, kami menggunakan teknik visualisasi seperti histogram, grafik garis, petak kotak untuk mendapatkan idea yang adil mengenai sebaran data.
Langkah 4:
Sekarang, berdasarkan pandangan yang diambil dari langkah sebelumnya, yang paling sesuai untuk masalah seperti ini adalah pokok keputusan. Mari lihat bagaimana?
- Sejak itu, kita sudah mempunyai atribut utama untuk analisis seperti npreg, bmi , dan lain-lain, jadi kami akan menggunakanteknik pembelajaran yang diselia untuk membina amodel di sini.
- Lebih jauh lagi, kami telah menggunakan pohon keputusan kerana mengambil semua atribut menjadi pertimbangan sekaligus, seperti yang memiliki ahubungan linear dan juga hubungan yang tidak linear. Dalam kes kami, kami mempunyai hubungan linear antara npreg dan umur, sedangkan hubungan tidak linear antara npreg dan ped .
- Model pohon keputusan juga sangat kuat kerana kita dapat menggunakan kombinasi atribut yang berbeza untuk membuat pelbagai pokok dan akhirnya melaksanakannya dengan kecekapan maksimum.
Mari kita lihat pokok keputusan kita.
Di sini, parameter yang paling penting adalah tahap glukosa, jadi ini adalah simpul akar kita. Sekarang, node semasa dan nilainya menentukan parameter penting seterusnya yang akan diambil. Ia berterusan sehingga kita mendapat hasil dari segi pos atau neg . Pos bermaksud kecenderungan menghidap diabetes adalah positif dan neg bermaksud kecenderungan menghidap diabetes adalah negatif.
Sekiranya anda ingin mengetahui lebih lanjut mengenai pelaksanaan pohon keputusan, rujuk blog ini
Langkah 5:
Pada fasa ini, kami akan menjalankan projek perintis kecil untuk memeriksa apakah hasil kami sesuai. Kami juga akan mencari kekangan prestasi sekiranya ada. Sekiranya hasilnya tidak tepat, maka kita perlu menyusun semula dan membina semula model.
Langkah 6:
Setelah berjaya melaksanakan projek, kami akan berkongsi hasilnya untuk penggunaan sepenuhnya.
Menjadi Saintis Data lebih senang diucapkan daripada dilakukan. Oleh itu, mari kita lihat apa yang anda perlukan untuk menjadi Saintis Data.Seorang Saintis Data memerlukan kemahiran pada dasarnyadari tiga bidang utama seperti gambar di bawah.
Seperti yang anda lihat dalam gambar di atas, anda perlu memperoleh pelbagai kemahiran keras dan kemahiran insaniah. Anda perlu pandai statistik dan matematik untuk menganalisis dan menggambarkan data. Tidak perlu dikatakan, Pembelajaran Mesin membentuk nadi Sains Data dan menghendaki anda untuk pandai melakukannya. Anda juga harus mempunyai pemahaman yang kukuh mengenai domain anda berusaha untuk memahami masalah perniagaan dengan jelas. Tugas anda tidak berakhir di sini. Anda seharusnya dapat melaksanakan pelbagai algoritma yang memerlukan kebaikan pengekodan kemahiran. Akhirnya, setelah anda membuat keputusan penting tertentu, penting bagi anda untuk menyampaikannya kepada pihak berkepentingan. Jadi, bagus komunikasi pasti akan menambah mata brownie pada kemahiran anda.
Saya menggesa anda untuk melihat tutorial video Sains Data ini yang menerangkan apa itu Sains Data dan semua yang telah kita bincangkan di dalam blog. Teruskan, nikmati videonya dan beritahu saya pendapat anda.
Apa itu Sains Data? Kursus Sains Data - Tutorial Sains Data Untuk Pemula | Edureka
Video kursus Edureka Data Science ini akan membawa anda melalui keperluan sains data, apa itu sains data, kes penggunaan sains data untuk perniagaan, BI vs sains data, alat analisis data, kitaran hidup sains data bersama dengan demo.
Pada akhirnya, tidak salah untuk mengatakan bahawa masa depan adalah milik Saintis Data. Diperkirakan bahawa pada akhir tahun 2018, akan ada keperluan sekitar satu juta Saintis Data. Semakin banyak data akan memberi peluang untuk mendorong keputusan perniagaan utama. Tidak lama lagi akan mengubah cara kita melihat dunia yang dipenuhi dengan data di sekitar kita. Oleh itu, seorang Saintis Data harus berkemahiran tinggi dan bermotivasi untuk menyelesaikan masalah yang paling kompleks.
Saya harap anda seronok membaca blog saya dan memahami apa itu Sains Data.Lihat kami di sini, disertakan dengan latihan langsung yang dipimpin oleh instruktur dan pengalaman projek kehidupan sebenar.