Apakah Bias-Varians Dalam Pembelajaran Mesin?



Artikel ini merangkumi konsep bias dan varians dalam pembelajaran mesin dengan hubungan antara mereka menentukan ketepatan ramalan model.

Dalam , prestasi model didasarkan pada ramalannya dan sejauh mana generalisasi terhadap data bebas yang tidak dapat dilihat. Salah satu cara untuk mengukur ketepatan model adalah dengan mengambil kira bias dan varians dalam model. Dalam artikel ini, kita akan belajar bagaimana bias-varians memainkan peranan penting dalam menentukan keaslian model. Topik berikut dibincangkan dalam artikel ini:

Ralat Tidak Boleh Diuruskan

Mana-mana model di dinilai berdasarkan ralat ramalan pada set data bebas dan tidak kelihatan yang baru. Kesalahan tidak lain adalah perbezaan antara output sebenar dan output yang diramalkan. Untuk mengira ralat, kita melakukan penjumlahan ralat reducible and irreducible a.k.a bias-variance decomposition.





Kesalahan tidak dapat dipulihkan hanyalah kesalahan yang tidak dapat dikurangkan tanpa mengira apa-apa yang anda gunakan dalam model. Ia disebabkan oleh pemboleh ubah tidak biasa yang mempunyai pengaruh langsung terhadap pemboleh ubah keluaran. Oleh itu, untuk menjadikan model anda cekap, kita akan tinggal dengan ralat yang dapat dikurangkan yang kita perlukan untuk mengoptimumkan pada setiap kos.

cara menggunakan operator bitwise di java

Kesalahan yang boleh dikurangkan mempunyai dua komponen - Bias dan Varians , kehadiran bias dan varians mempengaruhi ketepatan model dalam beberapa cara seperti overfitting, underfitting , dan lain-lain.Mari kita perhatikan bias dan varians untuk memahami bagaimana menangani ralat yang dapat dikurangkan di .



Apakah Bias Dalam Pembelajaran Mesin?

Bias pada dasarnya adalah sejauh mana kita meramalkan nilai dari nilai sebenar. Kami mengatakan biasnya terlalu tinggi jika ramalan purata jauh dari nilai sebenarnya.

Bias yang tinggi akan menyebabkan algoritma kehilangan corak atau hubungan yang dominan antara pemboleh ubah input dan output. Apabila biasnya terlalu tinggi, diandaikan bahawa modelnya cukup sederhana dan tidak memahami kerumitan kumpulan data untuk menentukan hubungan dan dengan demikian,menyebabkan underfitting.

Varians Dalam Model Pembelajaran Mesin?

Pada set data bebas yang tidak dapat dilihat atau set pengesahan. Apabila model tidak berkinerja baik seperti yang dilakukan dengan set data terlatih, ada kemungkinan model tersebut memiliki varians. Ini pada dasarnya menceritakan betapa tersebarnya nilai yang diramalkan dari nilai sebenar.



Variasi yang tinggi dalam satu set data bermaksud model tersebut telah berlatih dengan banyak data kebisingan dan tidak relevan. Oleh itu menyebabkan overfitting pada model. Apabila model mempunyai varians tinggi, ia menjadi sangat fleksibel dan membuat ramalan yang salah untuk titik data baru. Kerana ia telah menyesuaikan diri dengan titik data set latihan.

Mari kita cuba memahami konsep bias-varians secara matematik. Biarkan pemboleh ubah yang kita ramalkan menjadi Y dan pemboleh ubah bebas yang lain menjadi X. Sekarang mari kita anggap ada hubungan antara dua pemboleh ubah seperti:

Y = f (X) + e

Dalam persamaan di atas, Di sini adalah adalah ralat yang dianggarkan dengan nilai min 0. Apabila kita membuat pengkelasan menggunakan algoritma seperti regresi linear , , dll, ralat kuasa dua yang dijangkakan pada titik x adalah:

err (x) = berat sebelah2+ Ralat + ralat yang tidak dapat diredakan

Mari kita juga memahami bagaimana Bias-Variance akan mempengaruhi a Pembelajaran Mesin prestasi model.

rentetan pemisah java berbilang pembatas

Bagaimana Ia Mempengaruhi Model Pembelajaran Mesin?

Kita boleh meletakkan hubungan antara bias-varians dalam empat kategori yang disenaraikan di bawah:

  1. Varians Tinggi-Tinggi Bias - Modelnya tidak konsisten dan rata-rata tidak tepat
  2. Varians Rendah-Bias Tinggi - Model rata-rata konsisten tetapi rendah
  3. Varians Tinggi-Bias Rendah - Agak tepat tetapi tidak konsisten pada purata
  4. Varians Rendah-Bias Rendah - Ini adalah senario yang ideal, modelnya rata-rata konsisten dan tepat.

bias-varians dalam pembelajaran mesin-edureka

Walaupun mengesan bias dan varians dalam model cukup jelas. Model dengan varians tinggi akan mempunyai ralat latihan rendah dan ralat pengesahan tinggi. Dan dalam kes bias tinggi, model akan mempunyai kesalahan latihan yang tinggi dan kesalahan pengesahan adalah sama dengan kesalahan latihan.

Walaupun mengesannya kelihatan mudah, tugas sebenarnya adalah mengurangkannya minimum. Sekiranya demikian, kita boleh melakukan perkara berikut:

  • Tambahkan lebih banyak ciri input
  • Lebih banyak kerumitan dengan memperkenalkan ciri polinomial
  • Menurunkan istilah regularisasi
  • Mendapatkan lebih banyak data latihan

Sekarang setelah kita mengetahui apa itu bias dan varians dan bagaimana ia mempengaruhi model kita, mari kita lihat pertukaran bias-varians.

Pengurangan-Bias-Varians

Mencari keseimbangan yang tepat antara bias dan varians model disebut Bias-Variance trade-off. Ini pada asasnya adalah cara untuk memastikan model ini tidak dilengkapi atau tidak dilengkapi dalam keadaan apa pun.

Sekiranya modelnya terlalu sederhana dan mempunyai parameter yang sangat sedikit, ia akan mengalami bias tinggi dan varians rendah. Sebaliknya, jika model tersebut memiliki sejumlah besar parameter, ia akan mempunyai varians tinggi dan bias rendah. Pertukaran ini harus menghasilkan hubungan yang seimbang antara keduanya. Sebaik-baiknya, bias rendah dan varians rendah adalah sasaran untuk mana-mana model Pembelajaran Mesin.

Kesalahan Keseluruhan

Dalam mana-mana model Pembelajaran Mesin, keseimbangan yang baik antara bias dan varians berfungsi sebagai senario yang sempurna dari segi ketepatan ramalan dan mengelakkan overfitting, underfitting sama sekali. Keseimbangan optimum antara bias dan varians, dari segi kerumitan algoritma, akan memastikan bahawa model itu tidak pernah dipasang atau tidak dipasang sama sekali.

Ralat kuasa dua min dalam model statistik dianggap sebagai jumlah bias kuasa dua dan varians dan varians kesalahan. Semua ini dapat dimasukkan ke dalam kesilapan total di mana kita mempunyai kesalahan berat sebelah, varians dan kesalahan yang tidak dapat direduksi dalam model.

Marilah kita memahami bagaimana kita dapat mengurangkan jumlah kesalahan dengan bantuan pelaksanaan praktikal.

Kami telah mencipta a pengkelasan regresi linear di dalam Regresi Linear dalam Pembelajaran Mesin artikel mengenai Edureka menggunakan set data diabetes dalam modul set data scikit belajar perpustakaan.

Semasa kami menilai ralat kuasa dua rata dari pengkelasan, kami mendapat ralat total sekitar 2500.

Untuk mengurangkan jumlah ralat, kami memberi lebih banyak data kepada pengklasifikasi dan sebagai balasan ralat Kuadrat min dikurangkan menjadi 2000.

apakah perbezaan antara hashtable dan hashmap

Ini adalah pelaksanaan sederhana untuk mengurangkan jumlah kesalahan dengan memberi lebih banyak data latihan kepada model. Begitu juga kita dapat menerapkan teknik lain untuk mengurangkan kesalahan dan mengekalkan keseimbangan antara berat sebelah dan varians untuk model Pembelajaran Mesin yang cekap.

Ini membawa kita ke akhir artikel ini di mana kita telah mempelajari Bias-Variance di MachPembelajaran dengan pelaksanaan dan kes penggunaannya. Saya harap anda jelas dengan semua yang telah dikongsi dengan anda dalam tutorial ini.

Sekiranya anda mendapati artikel ini mengenai 'Bias-Variance In Machine Learning' relevan, lihat syarikat pembelajaran dalam talian yang dipercayai dengan rangkaian lebih daripada 250,000 pelajar yang berpuas hati tersebar di seluruh dunia.

Kami di sini untuk membantu anda dalam setiap langkah dalam perjalanan anda dan menyediakan kurikulum yang dirancang untuk pelajar dan profesional yang ingin menjadi . Kursus ini dirancang untuk memberi anda permulaan dalam pengaturcaraan Python dan melatih anda untuk konsep Python teras dan maju bersama dengan pelbagai suka , , dan lain-lain.

Sekiranya anda menjumpai sebarang pertanyaan, jangan ragu untuk mengajukan semua soalan anda di bahagian komen 'Bias-Variance In Machine Learning' dan pasukan kami akan dengan senang hati menjawab.