Statistik untuk Pembelajaran Mesin: Panduan Pemula



Artikel ini mengenai Statistik untuk Pembelajaran Mesin adalah panduan komprehensif mengenai pelbagai konsep statistik statistik dengan contoh.

Memahami data dan dapat mencipta nilai darinya adalah kemahiran dekad. Pembelajaran Mesin adalah satu kemahiran utama yang membantu syarikat menunaikannya. Namun, untuk memulakan, anda perlu membina asas anda dengan betul. Oleh itu, dalam artikel ini, saya akan membahas beberapa konsep asas dan memberi anda panduan untuk memulakan perjalanan anda dalam Pembelajaran Mesin. Oleh itu, dalam artikel ini mengenai statistik pembelajaran mesin, topik berikut akan dibincangkan:

  1. Kebarangkalian
  2. Statistik
  3. Algebra Linear

Kebarangkalian dan Statistik Untuk Pembelajaran Mesin:





Apakah Kebarangkalian?

Kebarangkalian mengukur kemungkinan kejadian itu berlaku. Sebagai contoh, jika anda menggulung mati yang adil dan tidak berat sebelah, maka kebarangkalian untuk satu naik adalah 1/6 . Sekarang, jika anda tertanya-tanya why? Maka jawapannya cukup mudah!

Ini kerana ada enam kemungkinan dan semua kemungkinan sama (mati yang adil). Oleh itu kita boleh menambah 1 + 1 + 1 + 1 + 1 + 1 = 6. Tetapi, kerana kami berminat dengan acara di mana 1 muncul . Terdapat hanya satu cara peristiwa itu boleh berlaku. Oleh itu,



Kebarangkalian 1 naik = 1/6

Begitu juga dengan semua nombor lain kerana semua peristiwa sama besarnya. Ringkas, bukan?

Baiklah, definisi kebarangkalian bagi contoh ini akan kelihatan seperti - kebarangkalian 1 naik adalah nisbah bilangan kali 1 meningkat hingga jumlah kekerapan die dilancarkan jika die dilancarkan sebilangan besar kali.Bagaimana ini masuk akal?



Mari menjadikannya lebih menarik. Pertimbangkan dua kes tersebut - anda berjaya membuat 5 kali kematian. Dalam satu kes, urutan nombor naik ialah - [1,4,2,6,4,3]. Dalam kes lain, kita mendapat - [2,2,2,2,2,2]. Anda fikir yang mana yang lebih mungkin?

Kedua-duanya sama. Nampaknya ganjil kan?

kod java untuk menamatkan program

Sekarang, pertimbangkan kes lain di mana semua 5 gulungan dalam setiap casing berada bebas . Maksudnya, satu gulungan tidak mempengaruhi yang lain. Dalam kes pertama, ketika 6 muncul, tidak tahu bahawa 2 orang muncul sebelum itu. Oleh itu, semua 5 gulungan kemungkinan sama.

Begitu juga, 2s lurus dalam kes kedua dapat difahami sebagai urutan peristiwa bebas. Dan semua peristiwa ini kemungkinan besar. Secara keseluruhan, kerana kita mempunyai dadu yang sama, kebarangkalian nombor tertentu muncul dalam kes satu sama dengan kes dua. Selanjutnya, dalam artikel ini mengenai statistik pembelajaran mesin, mari kita memahami istilahnya Kemerdekaan.

Kemerdekaan

Dua peristiwa A dan B dikatakan bebas sekiranya kejadian A tidak mempengaruhi peristiwa B . Contohnya, jika anda melemparkan duit syiling dan menggulung die, hasil die tidak akan mempengaruhi sama ada duit syiling itu menunjukkan kepala atau ekor. Juga, untuk dua acara bebas A dan B , kebarangkalian bahawa A dan B boleh berlaku bersama . Jadi sebagai contoh, jika anda mahukan kebarangkalian duit syiling menunjukkan kepala dan mati menunjukkan 3.

P (A dan B) = P (A) * P (B)

Oleh itu P = & frac12 (kebarangkalian kepala naik) * ⅙ (kebarangkalian 3 naik) = 1/12

Dalam contoh sebelumnya, untuk kedua-dua kes tersebut, P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

Sekarang mari kita bincangkan peristiwa yang tidak bebas. Pertimbangkan jadual berikut:

Kegemukan Tidak gemuk
Masalah jantungEmpat limalima belas
Tiada masalah jantung1030

Tinjauan terhadap 100 orang telah diambil. 60 mempunyai masalah jantung dan 40 tidak. Dari 60 daripadanya mengalami masalah jantung, 45 mengalami kegemukan. Daripada 40 orang yang tidak mempunyai masalah jantung, 10 mengalami kegemukan. Sekiranya seseorang bertanya kepada anda -

  1. Apakah kebarangkalian mengalami masalah jantung?
  2. Apakah kebarangkalian mengalami masalah jantung dan tidak gemuk?

Jawapan untuk soalan pertama adalah mudah - 60/100. Untuk yang kedua, ia akan menjadi 15/100. Sekarang pertimbangkan soalan ketiga - Seseorang dipilih secara rawak. Dia didapati menghidap penyakit jantung. Apakah kemungkinan dia gemuk?

Sekarang fikirkan maklumat yang diberikan kepada anda - Diketahui bahawa dia menghidap penyakit jantung. Oleh itu dia tidak boleh berasal dari 40 yang tidak menghidap penyakit jantung. Hanya ada 60 pilihan yang mungkin (baris teratas dalam jadual). Sekarang, di antara kemungkinan yang berkurang ini, kemungkinan dia gemuk adalah 45/60. Sekarang, setelah anda ketahui, apa itu peristiwa bebas, seterusnya dalam artikel ini mengenai statistik pembelajaran mesin, marilah kita memahami Kebarangkalian Bersyarat.

Kebarangkalian Bersyarat

Untuk memahami kemungkinan bersyarat, mari kita teruskan perbincangan kita dengan contoh di atas. Status kegemukan dan status menderita masalah jantung tidak bebas. Sekiranya gemuk tidak mempengaruhi masalah jantung, maka jumlah kes obes dan tidak gemuk bagi orang yang mengalami masalah jantung akan sama.

Kami juga diberi tahu bahawa orang itu mempunyai masalah jantung dan kami harus mengetahui kemungkinan dia mengalami kegemukan. Jadi, kebarangkalian, dalam kes ini, dikatakan bergantung pada fakta bahawa dia mempunyai masalah jantung. Sekiranya kebarangkalian kejadian A dikondisikan pada peristiwa B, kami menyatakannya sebagai

P (A | B)

Sekarang, ada teorema yang membantu kita mengira kebarangkalian bersyarat ini. Ia dipanggil Peraturan Bayes .

P (A | B) = P (A dan B) / P (B)

Anda boleh menyemak teorema ini dengan memasukkan contoh yang baru kita bincangkan. Sekiranya anda telah memahami sejauh ini, anda boleh memulakan perkara berikut - Naive Bayes . Ia menggunakan kebarangkalian bersyarat untuk mengklasifikasikan sama ada e-mel adalah spam atau tidak. Ia dapat melakukan banyak tugas klasifikasi lain. Tetapi pada dasarnya, kebarangkalian bersyarat berada di tengah-tengah .

Statistik:

Statistik adalah digunakan untuk meringkaskan dan membuat kesimpulan mengenai sebilangan besar titik data. Dalam Sains Data dan Pembelajaran Mesin, anda akan sering menemui istilah berikut

  • Langkah-langkah sentraliti
  • Pembahagian (terutamanya biasa)

Langkah-langkah sentraliti dan ukuran penyebaran

Maksud:

Maksudnya hanyalah purata bilangan . Untuk mengetahui maksudnya, anda harus menjumlahkan nombor dan membahagikannya dengan bilangan nombor. Sebagai contoh, min [1,2,3,4,5] adalah 15/5 = 3.

mean-statistics-for-machine-learning

Median:

Median adalah unsur tengah sekumpulan nombor apabila mereka disusun mengikut urutan menaik. Contohnya, nombor [1,2,4,3,5] disusun dalam urutan menaik [1,2,3,4,5]. Yang tengah adalah 3. Oleh itu, mediannya adalah 3. Tetapi bagaimana jika bilangan nombor genap dan oleh itu tidak mempunyai nombor tengah? Sekiranya demikian, anda mengambil purata dua nombor paling tengah. Untuk urutan nombor 2n dalam urutan menaik, rata-rata n dan (n + 1)ikanombor untuk mendapatkan median. Contoh - [1,2,3,4,5,6] mempunyai median (3 + 4) / 2 = 3.5

Mod:

Mod hanyalah nombor paling kerap dalam satu set nombor . Sebagai contoh, mod [1,2,3,3,4,5,5,5] adalah 5.

apakah peristiwa dalam javascript

Varians:

Varians bukanlah ukuran sentraliti. Ia mengukur bagaimana data anda tersebar di sekitar rata-rata . Ia diukur sebagai

xialah min bagi nombor N. Anda ambil titik, tolak maksudnya, ambil titik perbezaan ini. Lakukan ini untuk semua nombor N dan rata-rata mereka. Akar kuasa dua varians disebut sisihan piawai. Selanjutnya, dalam artikel ini mengenai statistik pembelajaran mesin, marilah kita memahami Taburan Normal.

Taburan Biasa

Pembahagian membantu kami fahami bagaimana data kami disebarkan . Sebagai contoh, dalam contoh usia, kita mungkin mempunyai orang muda lebih banyak daripada orang dewasa yang lebih tua dan dengan itu nilai usia yang lebih kecil daripada nilai yang lebih besar. Tetapi bagaimana kita menentukan pengedaran? Pertimbangkan contoh di bawah

Paksi-y mewakili ketumpatan. Mod pengedaran ini adalah 30 kerana ia adalah puncak dan oleh itu paling kerap. Kita juga dapat mengesan mediannya. Median terletak pada titik pada paksi-x di mana separuh kawasan di bawah lengkung ditutup. Kawasan di bawah sebarang taburan normal adalah 1 kerana jumlah kemungkinan semua peristiwa adalah 1. Contohnya,

Median dalam kes di atas adalah sekitar 4. Ini bermaksud kawasan di bawah lengkung sebelum 4 sama dengan yang selepas 4. Pertimbangkan contoh lain

Kami melihat tiga taburan normal. Warna biru dan merah mempunyai maksud yang sama. Yang merah mempunyai varians yang lebih besar. Oleh itu, ia lebih tersebar daripada yang biru. Tetapi kerana luasnya harus 1, puncak lengkung merah lebih pendek dari lekukan biru, untuk menjaga kawasan tetap.

Harap anda memahami statistik asas dan taburan normal. Sekarang, seterusnya dalam artikel ini mengenai statistik pembelajaran mesin, mari kita belajar mengenai Linear Algebra.

Algebra Linear

AI moden tidak akan dapat dilakukan tanpa Algebra Linear. Ia membentuk teras Pembelajaran yang mendalam dan telah digunakan walaupun dalam algoritma mudah seperti . Tanpa berlengah lagi, mari kita mulakan.

Anda mesti biasa dengan vektor. Mereka adalah sejenis perwakilan geometri di ruang angkasa. Sebagai contoh, vektor [3,4] mempunyai 3 unit di sepanjang paksi-x dan 4 unit di sepanjang paksi-y. Pertimbangkan gambar berikut -

Vektor d1 mempunyai 0.707 unit di sepanjang paksi-x dan 0.707 unit di sepanjang paksi-y. Vektor mempunyai 1 dimensi. Ia semestinya mempunyai magnitud dan arah. Sebagai contoh,

Gambar di atas mempunyai vektor (4,3). Besarnya 5 dan menjadikan 36.9 darjah dengan paksi-x.

Sekarang, apa itu matriks? Matriks ialah susunan nombor pelbagai dimensi. Untuk apa ia digunakan? Kita akan melihat ke depan. Tetapi pertama, mari kita lihat bagaimana ia digunakan.

Matrik

Matriks boleh mempunyai banyak dimensi. Mari kita pertimbangkan matriks 2 dimensi. Ia mempunyai baris (m) dan lajur (n). Oleh itu ia mempunyai unsur m * n.

Sebagai contoh,

Matriks ini mempunyai 5 baris dan 5 lajur. Mari kita sebut A. Oleh itu A (2,3) adalah entri di baris kedua dan lajur ketiga yang 8.

Sekarang, setelah anda mengetahui apa itu matriks, mari kita lihat operasi matriks yang berbeza.

tukar rentetan kepada tarikh di java

Operasi Matriks

Penambahan Matriks

Dua matriks sama dimensi boleh ditambah. Penambahan berlaku secara elemen.

Pendaraban Skalar

Matriks boleh didarabkan dengan kuantiti skalar. Pendaraban sedemikian menyebabkan setiap entri dalam matriks dikalikan dengan skalar. Skalar hanyalah angka

Matriks Transpose

Transposisi matriks adalah mudah. Untuk matriks A (m, n), biarkan A 'menjadi transposnya. Kemudian

A '(i, j) = A (j, i)

Sebagai contoh,

Pendaraban Matriks

Ini mungkin agak rumit daripada operasi lain. Sebelum kita menyelami, mari kita tentukan produk titik antara dua vektor.

Pertimbangkan vektor X = [1,4,6,0] dan vektor Y = [2,3,4,5]. Kemudian produk titik antara X dan Y ditakrifkan sebagai

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

Jadi, ini adalah pendaraban dan penambahan elemen. Sekarang,mari kita pertimbangkan dua matriks A (m, n) dan B (n, k), di mana m, n, k adalah dimensi dan oleh itu bilangan bulat. Kami menentukan pendaraban matriks sebagai

Dalam contoh di atas, elemen pertama produk (44) diperoleh oleh produk titik dari baris pertama matriks kiri dengan lajur pertama matriks kanan. Begitu juga, 72 diperolehi oleh produk titik dari baris pertama matriks kiri dengan lajur kedua matriks kanan.

Perhatikan bahawa untuk matriks kiri, bilangan lajur harus sama dengan bilangan baris di lajur kanan. Dalam kes kami, produk AB wujud tetapi tidak BA kerana m tidak sama dengan k. Untuk dua matriks A (m, n) dan B (n, k), produk AB ditakrifkan dan dimensi produk adalah (m, k) (dimensi paling luar dari (m, n), (n, k )). Tetapi BA tidak ditentukan kecuali m = k.

Dengan ini, kita mengakhiri artikel ini mengenai Statistik untuk Pembelajaran Mesin. Saya harap anda memahami beberapa Jargon Pembelajaran Mesin. Ia tidak berakhir di sini. Untuk memastikan anda bersedia dengan industri, anda boleh melihat kursus Edureka mengenai Sains Data dan AI. Mereka boleh dijumpai