Pidato pengakuan / Speech Recognition
Untuk konsep linguistik manusia, lihat persepsi Pidato
Tampilan dari Pengakuan Pidatoscreensaver di laptop , di manakarakter menjawab pertanyaan, misalnya "Di mana kau?" atau pernyataan, misalnya "Halo."
Pengenalan pembicaraan (juga dikenal sebagai pengenalan suara otomatis atau pengenalan pembicaraan komputer) mengkonversi berbicara kata-kata untuk teks. Istilah "suara" pengakuan kadang-kadang digunakan untuk merujuk ke sistem pengakuan yang harus dilatih untuk sebagai speaker adalah kasus khusus untuk pengenalan perangkat lunak desktop yang paling. Mengenali pembicara dapat menyederhanakan tugas menerjemahkan pidato.
pengenalan pembicaraan adalah solusi yang lebih luas yang mengacu pada teknologi yang dapat mengenali pidato tanpa ditargetkan pada pembicara tunggal seperti pusat panggilan sistem yang dapat mengenali suara sewenang-wenang.
aplikasi pengenalan pembicaraan termasuk pengguna antarmuka suara seperti panggilan suara (misalnya, "Call home"), call routing (misalnya, "Saya ingin membuat collect call"), domotic kontrol alat, pencarian (misalnya, menemukan podcast di mana tertentu Kata-kata itu diucapkan), sederhana entri data (misalnya, memasukkan nomor kartu kredit), persiapan dokumen terstruktur (misalnya, sebuah laporan radiologi),-untuk-pengolahan teks pidato (misalnya, kata prosesor atau email ), danpesawat (biasanya disebut Input langsung suara ).
Sejarah
Yang Pengenal pidato pertama muncul pada tahun 1952 dan terdiri dari sebuah perangkat untuk pengakuan lisan digit tunggal [1] awal perangkat lainnya adalah IBM Kotak Sepatu , dipamerkan di New York World's Fair 1964 . Akhir-akhir ini telah ada banyak perbaikan seperti capabilitiy massa kecepatan transkripsi tinggi pada satu sistem seperti Sonic Extractor
Salah satu domain yang paling penting untuk aplikasi komersial pengenalan suara di Amerika Serikat telah perawatan kesehatan dan khususnya karya transcriptionist medis (MT) [ rujukan? ]. Menurut para ahli industri, pada awal berdirinya, pengenalan pembicaraan (SR) yang dijual sebagai cara untuk sepenuhnya menghilangkan transkripsi daripada membuat proses transkripsi lebih efisien, maka tidak diterima. Ini juga merupakan kasus yang SR pada waktu itu sering secara teknis kurang. Selain itu, untuk digunakan secara efektif, dibutuhkan perubahan cara dokter bekerja dan didokumentasikan pertemuan klinis, yang banyak jika tidak semua enggan untuk melakukannya.Keterbatasan terbesar pidato pengakuan mengotomatisasi transkripsi, bagaimanapun, dipandang sebagai perangkat lunak. Sifat naratif dikte sangat interpretatif dan seringkali memerlukan penilaian yang dapat diberikan oleh manusia sesungguhnya tetapi belum oleh sistem otomatis. Keterbatasan lainnya telah jumlah ekstensif waktu yang diperlukan oleh pengguna dan / atau penyedia sistem untuk melatih perangkat lunak.
Perbedaan dalam ASR sering dibuat antara "sistem sintaks buatan" yang biasanya domain-spesifik dan "pemrosesan bahasa alami" yang biasanya bahasa-spesifik. Masing-masing jenis aplikasi menyajikan tujuannya sendiri tertentu dan tantangan.
Aplikasi
Perawatan kesehatan
Dalam perawatan kesehatan domain, bahkan di bangun meningkatkan teknologi pengenalan suara, transcriptionists medis (MTs) belum menjadi usang. Layanan yang diberikan dapat didistribusikan daripada diganti.
Pengenalan pembicaraan dapat diimplementasikan di front-end atau back-end dari proses dokumentasi medis.
Front-End SR adalah tempat penyedia menentukan ke mesin pidato-pengakuan, kata-kata yang diakui ditampilkan tepat setelah mereka berbicara, dan diktator yang bertanggung jawab untuk mengedit dan penandatanganan off pada dokumen. Ini tidak pernah pergi melalui MT / editor.
Back-End SR atau SR tangguhan adalah di mana penyedia menentukan menjadi sebuah sistem dikte digital, dan suara yang diarahkan melalui pidato-mesin pengakuan dan draft dokumen diakui dirutekan bersama dengan file suara yang asli ke MT / editor, yang mengedit draft dan memfinalisasi laporan. Ditangguhkan SR sedang banyak digunakan dalam industri saat ini.
Banyak Electronic Medical Records (EMR) aplikasi dapat menjadi lebih efektif dan dapat dilakukan lebih mudah bila digunakan dalam hubungannya dengan pengenalan-mesin bicara. Pencarian, query, dan pengisian formulir semua bisa lebih cepat untuk melakukan dengan suara dibandingkan dengan menggunakan keyboard.
Militer
Performa tinggi pesawat tempur
upaya substansial telah dibuka dalam dekade terakhir untuk uji dan evaluasi pengenalan suara dalam pesawat tempur. Dari catatan khusus adalah program AS dalam pidato pengakuan untuk Fighter Advanced Integrasi Teknologi (AFTI) / F-16 pesawat ( F-16 VISTA ), program di Perancis pada instalasi sistem pengenalan suara pada Mirage pesawat, dan program di Inggris menangani dengan berbagai platform pesawat. Dalam program ini, recognizers pidato telah beroperasi dengan sukses di pesawat tempur dengan aplikasi termasuk: pengaturan frekuensi radio, memerintahkan sistem autopilot, pengaturan mengarahkan-titik koordinat dan parameter pelepasan senjata, dan mengendalikan menampilkan penerbangan.
Bekerja dengan pilot Swedia terbang di JAS-39 Gripen kokpit, Englund (2004) menemukan pengakuan memburuk dengan meningkatnya G-beban. Hal ini juga menyimpulkan bahwa adaptasi sangat meningkat hasilnya dalam semua kasus dan model memperkenalkan untuk bernafas ditunjukkan untuk meningkatkan skor pengakuan secara signifikan. Berlawanan dengan apa yang mungkin diharapkan, tidak ada efek dari bahasa Inggris patah speaker ditemukan. Ini adalah bukti bahwa pidato spontan menyebabkan masalah untuk recognizer, seperti yang bisa diharapkan. Sebuah kosa kata terbatas, dan di atas semua, sintaks yang tepat, sehingga bisa diharapkan untuk meningkatkan akurasi pengenalan secara substansial. [2]
The Eurofighter Typhoon saat ini dalam pelayanan dengan Inggris RAF mempekerjakan tergantung pada sistem pengeras suara, yakni mengharuskan setiap pilot untuk membuat template. Sistem ini tidak digunakan untuk keselamatan kritis atau kritis tugas senjata, seperti pelepasan senjata atau menurunkan dari bawah mobil, tapi digunakan untuk berbagai macam lainnya kokpit fungsi. Perintah suara sudah dikonfirmasi oleh umpan balik visual dan / atau aural. Sistem ini dipandang sebagai fitur desain utama dalam pengurangan pilot beban kerja , dan bahkan memungkinkan pilot untuk menetapkan target untuk dirinya dengan dua perintah suara sederhana atau ke salah satu dari wingman nya dengan hanya lima perintah. [3]
Sistem Speaker independen juga sedang dikembangkan dan dalam pengujian untuk The F35 Lightning II (JSF) dan memimpin Aermacchi M346 di pelatih tempur. Sistem ini telah menghasilkan akurasi kata lebih dari 98%.
Helikopter
Masalah akurasi pengenalan mencapai tinggi di bawah tekanan dan berhubungan kebisingan kuat terhadap lingkungan helikopter serta lingkungan tempur. Masalah kebisingan akustik sebenarnya lebih parah di lingkungan helikopter, bukan hanya karena tingkat kebisingan tinggi tetapi juga karena pilot helikopter umumnya tidak memakai sungkup muka, yang akan mengurangi kebisingan akustik di mikrofon. uji Substansial dan program evaluasi telah dilakukan dalam dekade terakhir dalam aplikasi sistem pengenalan suara dalam helikopter, terutama oleh US Army Avionics Penelitian dan Pengembangan Kegiatan (AVRADA) dan oleh Royal Aerospace Pendirian (RAE) di Inggris. Bekerja di Prancis sudah termasuk pengenalan pembicaraan pada helikopter Puma. Ada juga telah banyak pekerjaan yang berguna di Kanada. Hasil telah mendorong, dan aplikasi suara telah menyertakan: kontrol radio komunikasi, pengaturan sistem navigasi; dan kontrol sistem target serah terima otomatis.
Seperti di aplikasi tempur, masalah utama untuk suara di helikopter adalah dampak terhadap efektivitas pilot. Mendorong hasil dilaporkan untuk tes AVRADA, meskipun ini hanya mewakili demonstrasi kelayakan dalam lingkungan tes. Masih banyak yang harus dilakukan baik dalam pengenalan suara dan teknologi pengenalan suara secara keseluruhan, untuk secara konsisten mencapai peningkatan kinerja dalam pengaturan operasional.
Pertempuran manajemen
Manajemen Pertempuran pusat komando umumnya memerlukan akses cepat ke dan kontrol yang besar, cepat berubah database informasi.Komandan dan sistem operator perlu query database ini sebagai nyaman mungkin, dalam lingkungan mata-sibuk di mana banyak informasi disajikan dalam format layar. Manusia-mesin interaksi dengan suara memiliki potensi untuk menjadi sangat berguna dalam lingkungan.Sejumlah upaya telah dilakukan untuk antarmuka tersedia secara komersial recognizers terisolasi-kata ke dalam lingkungan manajemen pertempuran. Dalam satu studi kelayakan peralatan pengenalan suara diuji dalam hubungannya dengan menampilkan informasi yang terintegrasi untuk aplikasi manajemen pertempuran laut. Pengguna sangat optimis tentang potensi dari sistem, meskipun kemampuan terbatas.
Pidato pemahaman program yang disponsori oleh Defense Advanced Research Projects Agency (DARPA) di Amerika Serikat telah difokuskan pada masalah interface ucapan yang alami. upaya pengenalan pembicaraan telah difokuskan pada database pengenalan suara kontinyu (CSR), pidato besar kosakata yang dirancang untuk menjadi wakil dari tugas pengelolaan sumber daya laut. kemajuan yang signifikan dalam seni negara-of-the-dalam CSR telah dicapai, dan upaya saat ini difokuskan pada integrasi pengenalan suara dan pengolahan bahasa alami untuk memungkinkan interaksi bahasa lisan dengan sistem pengelolaan sumber daya laut.
Pelatihan pengendali lalu lintas udara
Pelatihan untuk pengendali lalu lintas udara (ATC) merupakan aplikasi yang sangat baik untuk sistem pengenalan suara. Banyak sistem pelatihan ATC saat ini membutuhkan seseorang untuk bertindak sebagai "pseudo-pilot", terlibat dalam dialog suara dengan controller trainee, yang mensimulasikan dialog yang controller harus melakukan dengan pilot dalam situasi ATC yang nyata. Pidato pengakuan dan sintesis teknik menawarkan potensi untuk menghilangkan kebutuhan bagi seseorang untuk bertindak sebagai pseudo-pilot, sehingga mengurangi personil pelatihan dan dukungan. Secara teori, tugas pengendali udara juga ditandai dengan pidato yang sangat terstruktur sebagai output utama dari controller, sehingga mengurangi kesulitan tugas pengenalan suara harus mungkin. Dalam prakteknya ini jarang terjadi. FAA dokumen 7110,65 rincian frase yang harus digunakan oleh pengendali lalu lintas udara. Sementara dokumen ini memberikan kurang dari 150 contoh frase tersebut, jumlah frase didukung oleh salah satu sistem pengenalan suara simulasi vendor adalah lebih dari 500.000.
The USAF, USMC, US Army, US Navy dan FAA serta sejumlah pelatihan organisasi internasional ATC seperti Air Services Australia, Royal Australian Air Force dan Otoritas Penerbangan Sipil di Italia, Brasil, Kanada saat ini menggunakan simulator ATC dengan pengenalan suara dari sejumlah vendor yang berbeda.
Telephony dan domain lainnya
ASR di bidang telepon sekarang biasa dan dalam bidang game dan simulasi komputer menjadi lebih luas. Meskipun tingginya tingkat integrasi dengan pengolah kata dalam komputasi personal umumnya, bagaimanapun, ASR di bidang produksi dokumen belum melihat yang diharapkan [ oleh siapa? ] meningkat digunakan.
Peningkatan kecepatan prosesor mobile dibuat layak pidato-enabled Symbian dan Windows Mobile Smartphone. Ucapan umumnya digunakan sebagai bagian dari User Interface, untuk membuat perintah pidato pra-ditentukan atau kustom. vendor software terkemuka di bidang ini adalah: Microsoft Corporation (Microsoft Voice Command), Nuansa Komunikasi (Nuansa Voice Control), Vito Teknologi (Vito Voice2Go), Speereo Perangkat Lunak (Speereo Voice Translator), Digital Syphon (Sonic Messager alat) dan SVOX.
Kinerja
Kinerja sistem pengenalan suara biasanya ditentukan dalam hal akurasi dan kecepatan. Akurasi biasanya dinilai dengan tingkat kesalahan kata (Wer), sedangkan kecepatan diukur dengan faktor real time . Tindakan-tindakan lain akurasi termasuk Single Word Error Rate (SWER) dan Komando Sukses Rate (CSR).
Pada tahun 1982 Kurzweil Terapan Intelijen dan Naga Sistem merilis produk pengenalan suara. Pada tahun 1985, perangkat lunak Kurzweil's, memiliki kosakata 1000 kata-kalau mengucapkan satu kata pada suatu waktu. Dua tahun kemudian, pada tahun 1987, leksikon yang mencapai 20.000 kata, memasuki alam kosakata manusia, yang berkisar dari 10.000 hingga 150.000 kata. Tapi akurasi pengenalan hanya 10% pada tahun 1993. Dua tahun kemudian, tingkat kesalahan menyeberang di bawah 50%. Dragon Sistem merilis "Tentu Berbicara" pada tahun 1997 yang diakui suara manusia normal. Kemajuan terutama berasal dari peningkatan kinerja komputer dan database yang lebih besar sumber teks. The Brown Corpus adalah database utama pertama yang tersedia, yang berisi beberapa juta kata. Pada tahun 2001 akurasi pengenalan mencapai dataran tinggi saat ini sebesar 80%, tidak lagi tumbuh dengan data atau daya komputasi. Pada tahun 2006, Google menerbitkan kata korpus triliun, sementara Carnegie Mellon University peneliti tidak menemukan peningkatan yang signifikan dalam akurasi pengenalan. [4]
'
Algoritma
Kedua model akustik dan pemodelan bahasa adalah bagian penting dari modern berdasarkan pengenalan pembicaraan-algoritma statistik.Model Markov Tersembunyi (HMMs) yang banyak digunakan dalam banyak sistem. pemodelan Bahasa memiliki banyak aplikasi lainnya seperti keyboard cerdas dan klasifikasi dokumen .
Model Markov tersembunyi
Artikel utama: Model Markov tersembunyi
sistem modern pidato tujuan umum pengakuan didasarkan pada Hidden Markov Model. Ini adalah model statistik yang output urutan simbol atau kuantitas. HMMs digunakan dalam pengenalan suara karena sinyal suara dapat dilihat sebagai sinyal sesepenggal stasioner atau sinyal stasioner waktu singkat. Dalam waktu singkat (misalnya, 10 milidetik)), pidato dapat didekati sebagai suatu proses stasioner . Pidato dapat dianggap sebagai model Markov untuk tujuan stokastik banyak.
Alasan lain mengapa HMMs yang populer adalah karena mereka dapat dilatih secara otomatis dan sederhana dan komputasi layak untuk digunakan. Dalam pidato pengakuan, model Markov tersembunyi akan menampilkan urutan bernilai vektor-dimensi nyata n (dengan n menjadi bilangan bulat kecil, seperti 10), keluaran salah satu dari setiap 10 milidetik. Vektor akan terdiri dari cepstral koefisien, yang diperoleh dengan mengambil transformasi Fourier dari jendela waktu singkat berbicara dan decorrelating spektrum dengan menggunakan transformasi kosinus , kemudian mengambil koefisien pertama (paling signifikan). Model Markov tersembunyi akan cenderung memiliki di setiap negara distribusi statistik yang merupakan campuran kovarians diagonal Gaussians yang akan memberikan kemungkinan untuk setiap vektor diamati. Setiap kata, atau (untuk lebih sistem pengenalan pembicaraan umum), masing-masing fonem , akan memiliki distribusi output yang berbeda; model Markov tersembunyi untuk urutan kata-kata atau fonem dibuat dengan menggabungkan terlatih individu model Markov tersembunyi untuk kata-kata yang terpisah dan fonem .
Diuraikan di atas adalah elemen inti dari pendekatan, yang paling umum HMM berbasis pengenalan suara. Sistem pengenalan suara modern menggunakan berbagai kombinasi dari beberapa teknik standar dalam rangka meningkatkan hasil lebih dari pendekatan dasar yang dijelaskan di atas. Sebuah sistem yang besar-kosakata khas akan membutuhkan dependensi konteks fonem (jadi fonem dengan kiri berbeda dan konteks yang tepat memiliki realisasi yang berbeda sebagai negara HMM); itu akan menggunakan normalisasi cepstral untuk menormalkan untuk speaker yang berbeda dan kondisi rekaman, karena normalisasi pembicara lebih lanjut mungkin menggunakan saluran normalisasi vokal panjang (VTLN) untuk normalisasi laki-laki perempuan dan maksimum likelihood regresi linier (MLLR) untuk lebih adaptasi pembicara umum. Fitur akan memiliki apa yang disebut delta dan koefisien delta-delta untuk menangkap dinamika ucapan dan selain mungkin menggunakan analisis diskriminan linier heteroscedastic (HLDA), atau mungkin melewati delta dan koefisien delta-delta dan splicing digunakan dan proyeksi LDA berbasis diikuti mungkin dengan heteroscedastic analisis diskriminan linier atau kovarians semitied global transformasi (juga dikenal sebagai kemungkinan maksimum mengubah, atau MLLT linier). Banyak sistem menggunakan teknik pelatihan apa yang disebut diskriminatif yang membuang dengan pendekatan murni statistik untuk estimasi parameter HMM dan bukannya mengoptimalkan beberapa ukuran yang berhubungan dengan klasifikasi data pelatihan. Contohnya adalah maksimum informasi saling (MMI), kesalahan klasifikasi minimum (MCE) dan kesalahan telepon minimum (MPE).
Decoding dari pidato (istilah atas apa yang terjadi ketika sistem ini disajikan dengan ucapan yang baru dan harus menghitung sumber kalimat yang paling mungkin) mungkin akan menggunakan algoritma Viterbi untuk menemukan jalur terbaik, dan di sini ada pilihan antara dinamis menciptakan Model Markov tersembunyi kombinasi yang mencakup baik bahasa model informasi dan akustik, atau dikombinasikan statis sebelumnya (yang transduser negara yang terbatas , atau FST, pendekatan).
Dynamic waktu warping (DTW) berbasis speech recognition
Artikel utama: Dynamic warping waktu
Dynamic waktu warping adalah suatu pendekatan yang secara historis digunakan untuk pengenalan suara tapi kini sebagian besar telah mengungsi akibat pendekatan HMM berbasis lebih berhasil. Dynamic waktu warping adalah suatu algoritma untuk mengukur kesamaan antara dua sekuen yang mungkin berbeda dalam waktu atau kecepatan. Misalnya, kesamaan dalam pola berjalan akan terdeteksi, bahkan jika dalam satu video orang itu berjalan perlahan-lahan dan jika di lain mereka berjalan lebih cepat, atau bahkan jika ada percepatan dan deselerasi selama satu pengamatan. DTW telah diterapkan ke video, audio, dan grafik - memang, setiap data yang dapat berubah menjadi representasi linier dapat dianalisis dengan DTW.
Sebuah aplikasi terkenal telah pengenalan suara otomatis, untuk mengatasi dengan kecepatan berbicara yang berbeda. Secara umum, ini adalah metode yang memungkinkan komputer untuk menemukan kecocokan yang optimal antara dua sekuens diberikan (misalnya time series) dengan pembatasan tertentu, yaitu urutan yang "bengkok" non-linear untuk mencocokkan satu sama lain. Metode sequence alignment yang sering digunakan dalam konteks model Markov tersembunyi.
Informasi lebih lanjut
pengenalan pembicaraan konferensi Populer diadakan setiap tahun atau dua termasuk SpeechTEK dan SpeechTEK Eropa, ICASSP, Eurospeech / ICSLP (sekarang bernama Interspeech) dan ASRU IEEE. Pertemuan di bidang pengolahan bahasa alam , seperti ACL, NAACL, EMNLP, dan HLT, mulai meliputi dokumen pada pengolahan pidato. jurnal penting termasuk IEEE Transaksi pada Pidato dan Audio Processing (sekarang bernama IEEE Transaksi di Audio, Pidato dan Bahasa Processing), Komputer Pidato dan Bahasa, dan Ucapan Komunikasi. Buku-buku seperti "Fundamentals of Speech Recognition" oleh Lawrence Rabiner dapat berguna untuk mendapatkan pengetahuan dasar, namun mungkin tidak sepenuhnya up to date (1993). Sumber lain yang baik dapat "Metode Statistik untuk Speech Recognition" oleh Frederick Jelinek dan "Spoken Language Processing (2001)" oleh Xuedong Huang dll Lebih up to date adalah "Computer Speech", oleh Manfred R. Schroeder , edisi kedua diterbitkan pada tahun 2004. Buku teks baru-baru ini diperbarui "Pidato dan Bahasa Pengolahan (2008)" oleh Jurafsky dan Martin menyajikan dasar-dasar dan keadaan seni untuk ASR. Sebuah wawasan yang baik ke teknik yang digunakan dalam sistem modern terbaik dapat diperoleh dengan memperhatikan evaluasi disponsori pemerintah seperti yang diselenggarakan oleh DARPA (pengakuan pidato yang berhubungan dengan proyek terbesar berlangsung pada tahun 2007 adalah proyek Gale, yang melibatkan baik pengenalan suara dan terjemahan komponen).
Dalam hal sumber daya yang tersedia secara bebas, Carnegie Mellon University 's toolkit SPHINX adalah salah satu tempat untuk mulai kedua belajar tentang pengenalan suara dan untuk mulai bereksperimen. Sumber lain (gratis seperti di bir gratis, bukan perangkat lunak bebas ) adalah HTK buku (dan HTK toolkit terlampir). AT & T perpustakaan perpustakaan GRM , dan perpustakaan DCD juga perpustakaan software umum untuk kosa kata pengenalan pembicaraan-besar.
Untuk sumber daya perangkat lunak lebih lanjut, lihat Daftar perangkat lunak pengenal suara .
Sebuah tinjauan yang berguna dari luas wilayah kekokohan dalam ASR disediakan oleh Junqua dan Haton (1995).
Orang dengan cacat
Orang dengan cacat bisa mendapatkan keuntungan dari program pengenalan suara. pengenalan pembicaraan sangat berguna bagi orang yang mengalami kesulitan menggunakan tangan mereka, mulai dari yang ringan cedera stres yang berulang untuk penyandang cacat yang terlibat bahwa mencegah menggunakan perangkat masukan komputer konvensional. Bahkan, orang yang menggunakan keyboard banyak dan dikembangkan RSI menjadi awal pasar mendesak untuk pengenalan suara. [5] [6] Speech recognition digunakan dalam tuli telepon , seperti pesan suara ke teks, layanan relay , dan telepon judul . Individu dengan ketidakmampuan belajar yang memiliki masalah dengan pikiran-untuk kertas komunikasi-(dasarnya mereka memikirkan sebuah ide tetapi diproses salah menyebabkan ia berakhir berbeda di atas kertas) bisa mendapatkan keuntungan dari perangkat lunak [ rujukan? ].
Bagian ini membutuhkan ekspansi .
Saat penelitian dan pendanaan
Mengukur kemajuan dalam kinerja pengenalan pembicaraan sulit dan kontroversial. Beberapa tugas pengenalan pembicaraan jauh lebih sulit daripada yang lain. tingkat kesalahan Word pada beberapa tugas yang kurang yang satu persen. Pada orang lain mereka bisa setinggi 50%.Kadang-kadang bahkan muncul kinerja yang akan mundur sebagai peneliti melakukan tugas-tugas sulit yang memiliki tingkat kesalahan yang lebih tinggi.
Karena kemajuan lambat dan sulit untuk diukur, ada persepsi bahwa kinerja telah plateaued dan pendanaan yang telah kering atau pergeseran prioritas. persepsi seperti ini tidak baru. Pada tahun 1969, John Pierce menulis sebuah surat terbuka yang tidak menyebabkan banyak dana yang mengering selama beberapa tahun. [7] Pada tahun 1993 ada perasaan yang kuat bahwa kinerja telah plateaued dan ada lokakarya didedikasikan untuk masalah ini. Namun, dalam pendanaan tahun 1990-an melanjutkan kinerja yang lebih atau kurang terganggu dan terus perlahan tapi pasti meningkat.
Selama tiga puluh tahun terakhir, pidato penelitian yang telah ditandai oleh akumulasi stabil perbaikan tambahan kecil. Ada juga kecenderungan untuk terus-menerus mengubah fokus ke tugas yang lebih sulit karena baik untuk kemajuan dalam kinerja pengenalan pembicaraan dan ketersediaan komputer yang lebih cepat. Secara khusus, ini beralih ke tugas yang lebih sulit telah ditandai pendanaan DARPA pengenalan suara sejak 1980-an. Dalam dekade terakhir ini telah berlanjut dengan proyek TELINGA, yang melakukan pengakuan Mandarin dan Arab selain bahasa Inggris, dan proyek Gale, yang hanya berfokus pada bahasa Mandarin dan Arab dan dibutuhkan terjemahan bersamaan dengan pengenalan suara.
Komersial penelitian dan penelitian akademik lainnya juga terus fokus pada masalah semakin sulit. Satu wilayah kunci adalah untuk meningkatkan ketahanan kinerja pengenalan pembicaraan, tidak hanya ketahanan terhadap kebisingan tetapi ketahanan terhadap setiap kondisi yang menyebabkan degradasi utama dalam kinerja. Bidang lain kunci penelitian difokuskan pada kesempatan bukan masalah.Penelitian ini mencoba untuk mengambil keuntungan dari fakta bahwa dalam banyak aplikasi ada sejumlah besar data pidato yang tersedia, hingga jutaan jam. Hal ini terlalu mahal untuk memiliki manusia menuliskan jumlah besar seperti pidato, sehingga fokus penelitian adalah mengembangkan metode baru untuk belajar mesin yang efektif dapat memanfaatkan jumlah besar data tak berlabel. Bidang lain penelitian adalah pemahaman yang lebih baik dari kemampuan manusia dan menggunakan pemahaman ini untuk meningkatkan pengakuan kinerja mesin. [8]
Subscribe to:
Post Comments (Atom)

No comments:
Post a Comment