Python Pengenalan Ucapan: Bagaimana Menterjemahkan Ucapan Ke Teks?



Blog ini merangkumi konsep pengecaman pertuturan dalam python dengan contoh program yang menterjemahkan ucapan menjadi teks menggunakan pengecaman pertuturan.

Ucapan adalah kaedah komunikasi yang paling biasa di seluruh dunia. Sebilangan besar penduduk di dunia bergantung pada pertuturan untuk berkomunikasi antara satu sama lain. Andaikan kita membangun model dan bukannya pendekatan bertulis yang kita mahu sistem kita bertindak balas terhadap ucapan, ia menjadi agak sukar dan memerlukan banyak data untuk diproses. Sistem pengecaman pertuturan mengatasi halangan ini dengan menterjemahkan ucapan ke teks. Di blog ini, kita akan melalui pengecaman pertuturan modul dalam python . Berikut adalah senarai yang sama:

Bagaimana Pengecaman Ucapan Berfungsi?

Sistem pengecaman pertuturan pada dasarnya menterjemahkan ucapan yang diucapkan kepada teks. Terdapat pelbagai contoh kehidupan sebenar sistem pengecaman pertuturan. Sebagai contoh- siri, yang mengambil ucapan sebagai input dan menerjemahkannya ke dalam teks.





Kelebihan menggunakan sistem pengecaman pertuturan adalah bahawa ia mengatasi halangan literasi. Model pengecaman pertuturan dapat melayani khalayak yang celik huruf dan buta huruf juga, kerana memfokuskan pada ucapan yang diucapkan.

Kami juga dapat membuat persediaan semua bahasa yang terancam di seluruh dunia menggunakan sistem pengecaman pertuturan. Walaupun kelihatan sangat menarik dan tidak kompleks sama sekali, sistem pengecaman pertuturan menghadapi banyak cabaran dalam pembuatannya.



Cabaran yang Dihadapi Oleh Pengakuan Ucapan Sistem

Sistem pengecaman pertuturan menjadi sukar dibuat kerana kita mempunyai banyak sumber kebolehubahan ketika berbicara.

Gaya bercakap

Setiap individu mempunyai gaya bercakap yang berbeza-beza, termasuk juga aksen. Seperti yang kita semua tahu, kita juga mempunyai loghat yang berbeza untuk bertutur dalam bahasa Inggeris. Terdapat bahasa Inggeris Amerika, Inggeris Inggeris dan banyak lagi aksen lain ketika berbicara dengan bahasa yang paling biasa di dunia. Sebutan juga menyukarkan sistem pengecaman pertuturan untuk menterjemahkan ucapan itu sama sekali.



Persekitaran

Persekitaran menambah banyak bunyi latar pada sistem juga. Bilik yang terpencil berbanding auditorium akan mempunyai banyak perubahan dalam suara latar. Bahkan gema dapat menambahkan banyak kebisingan dalam sistem juga.

Ciri-ciri pembesar suara

Suara orang tua mungkin tidak sama dengan suara bayi. Ciri-ciri ucapan seseorang bergantung pada banyak faktor termasuk kekasaran dan kejelasan juga.

Kekangan bahasa

Sebilangan ujaran yang diucapkan mungkin tidak mempunyai arti yang layak dalam soal terjemahan.

apa itu swing di java

Setelah mengatasi cabaran ini, sistem pengecaman pertuturan boleh dicapai untuk menerjemahkan ucapan ke teks. Setelah kita mengetahui bagaimana pengecaman pertuturan berfungsi, mari kita lihat yang berbeza yang tersedia untuk pengecaman pertuturan di python.

Pakej tersedia untuk pengecaman pertuturan di python

  • apiai

  • Pengenalan suara

  • Google_speech_cloud

  • majai

  • Pocketsphinx

  • Watson_developer_cloud

  • putih

Kami akan melihat perincian pakej SpeechRecognition di blog ini, mari kita lihat juga di lorong memori untuk memahami bagaimana sistem pengecaman pertuturan telah berkembang selama bertahun-tahun.

Prototaip pertama pengenalan ucapan sebenarnya adalah mainan, yang diberi nama radio rex yang wujud sekitar tahun 1920-an. Ia mempunyai anjing yang duduk di rumah anjing yang akan muncul sebaik sahaja seseorang mengucapkan kata rex.

Satu-satunya masalah dengan model ini ialah musim bunga melekat pada elektromagnet yang sensitif terhadap tenaga sekitar 500hz. Sebagai pengesan frekuensi semata-mata, ia dapat disebut dari jarak jauh sebagai model pengecaman pertuturan.

Pada tahun 1962, IBM muncul dengan kotak kasut model yang dapat mengenal perkataan terpencil dan juga melakukan beberapa operasi aritmetik.

Kemudian datang HARAP dari CMU, yang dapat mengenali pertuturan bersambung dari perbendaharaan kata 1000 kata. Sekitar tahun 1980-an orang mula menggunakan model statistik dan salah satu paradigma pembelajaran mesin yang paling banyak digunakan adalah model markov tersembunyi.

Selepas pengenalan rangkaian neural dalam, kebanyakan model pengecaman pertuturan berfungsi pada rangkaian saraf. Kemungkinan tidak dapat dibayangkan dengan rangkaian saraf, perbendaharaan kata boleh mencapai 10k perkataan dan banyak lagi.

Bagaimana Memasang Pengecaman Ucapan Di Python?

Untuk memasang pakej SpeechRecognition adalah python, jalankan arahan berikut di terminal dan ia akan dipasang pada sistem anda.

pemasangan-pengecaman pertuturan python-edureka

Pendekatan lain untuk ini, boleh menambahkan pakej dari jurubahasa projek jika anda menggunakan

Pakej ini mempunyai kelas Recognizer yang pada dasarnya adalah tempat keajaiban berlaku. Pada dasarnya ia adalah kelas yang digunakan untuk mengenali ucapan. Berikut adalah tujuh kaedah yang dapat membaca pelbagai sumber audio menggunakan API yang berbeza.

  • mengenali_bukan ()
  • mengenali_google ()
  • mengenali_google_cloud ()
  • mengenali_houndify ()
  • mengenali_ibm ()
  • mengenali_wit ()
  • mengenali_sphinx ()

Sekarang, mengenali_sphinx boleh digunakan untuk menjalankan sistem pengecaman pertuturan di luar talian juga. Ia memerlukan pemasangan Pocketsphinx.

import pengecaman pertuturan sebagai sr # permulaan kelas pengecam r = sr.Pengecam ()

Mengambil Input Dari Mikrofon

Untuk menggunakan mikrofon, kita juga perlu memasang modul pyaudio. Kami menggunakan kelas mikrofon untuk mendapatkan ucapan input dari mikrofon dan bukannya kaedah input lain seperti fail audio.

Untuk kebanyakan projek, kita boleh menggunakan mikrofon lalai. Tetapi jika anda tidak mahu menggunakan mikrofon lalai,anda boleh mendapatkan senarai nama mikrofon menggunakan kaedah list_microphone_names.

Untuk menangkap input dari mikrofon kami menggunakan kaedah mendengar.

import pengecaman ucapan sebagai sr r = sr.Recognizer () dengan sr.Mikrofon () sebagai sumber: audio = sr.listen (sumber)

Bagaimana Memasang Pyaudio Di Python?

Untuk memasang Pyaudio di python, jalankan perintah berikut di terminal atau jika anda menggunakan pycharm tambahkan pakej dari jurubahasa projek dalam tetapan.

Gunakan Kes

Kami akan membuat program menggunakan modul pengecaman ucapan di python untuk mengenali ucapan dan melaksanakan perkara berikut:

  1. menukar ucapan menjadi teks
  2. buka URL menggunakan modul penyemak imbas web
  3. lulus pertanyaan menggunakan pengecaman pertuturan untuk membuat carian di url

Berikut adalah program untuk penyataan masalah di atas:

import speech_recognition as sr import webbrowser sebagai wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () with sr.Microphone () as source: print ('[search edureka: search youtube]') cetak ('bercakap sekarang') audio = r3.listen (sumber) jika 'edureka' dalam r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' dengan sr .Mikrofon () sebagai sumber: cetak ('cari pertanyaan anda') audio = r2.listen (sumber) cuba: get = r2.recognize_google (audio) cetak (get) wb.get (). Open_new (url + get) kecuali sr.UnknownValueError: print ('error') kecuali sr.RequestError as e: print ('gagal'.format (e)) jika' video 'di r1.recognize_google (audio): r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'dengan sr.Mikrofon () sebagai sumber: cetak (' cari video ') audio = r2.listen (sumber) cuba: get = r1.recognize_google (audio print (get) wb.get (). open_new (url + get) kecuali sr.UnknownValueError: print ('tidak dapat memahami') kecuali sr.RequestError as e: print (gagal mendapat hasil'.format (e) )

idea mana yang terbaik untuk java

Anda akan mendapat output seperti yang ditunjukkan dalam gambar. Sekiranya anda menyebut edureka, ini akan mendorong anda untuk mengatakan pertanyaan yang anda ingin cari dalam url edureka yang telah kami tulis dalam pemboleh ubah url. Sekiranya anda mengatakan python, anda akan membuka laman web berikut di penyemak imbas.

Di blog ini, kita telah membincangkan bagaimana kita boleh menggunakan pengecaman pertuturan di python untuk menterjemahkan ucapan ke teks menggunakan pakej pengenalan ucapan. telah menjadi keperluan masa untuk konsep seperti pengecaman pertuturan atau penolakan objek, dengan yang memberikan kemungkinan yang tidak dapat dibayangkan untuk sistem pengecaman pertuturan di mana kita dapat melatih dan menguji data pertuturan yang sangat besar untuk membina sistem. Anda boleh mendaftar di untuk rangkaian neural mendalam untuk menguasai kemahiran anda dan memulakan pembelajaran anda.

ada sebarang pertanyaan? sebutkan mereka dalam komen, kami akan menghubungi anda.