Pidato sintesis
Pidato sintesis adalah produksi buatan manusia pidato . Sebuah sistem komputer yang digunakan untuk tujuan ini disebut synthesizer pidato, dan dapat diimplementasikan dalam perangkat lunak atau perangkat keras . Sebuah teks-to-speech (TTS) sistem mengkonversi teks ke dalam pidato bahasa normal; sistem lain membuat representasi linguistik simbolik seperti transkripsi fonetik pidato. ke [1]
pidato disintesis dapat dibuat dengan menggabungkan potongan pidato direkam yang disimpan dalam database . Sistem berbeda dalam ukuran unit pidato disimpan, sebuah sistem yang menyimpan telepon atau diphones menyediakan berbagai keluaran terbesar, tapi mungkin kurang jelas. Untuk domain penggunaan khusus, penyimpanan seluruh kata-kata atau kalimat memungkinkan untuk output berkualitas tinggi. Atau, synthesizer dapat menggabungkan sebuah model dari saluran vokal dan karakteristik suara manusia untuk membuat yang benar-benar "sintetik" output suara. [2]
Kualitas synthesizer pidato dinilai oleh kesamaannya dengan suara manusia dan dengan kemampuannya untuk dipahami. Sebuah program text-to-speech dipahami memungkinkan orang dengan gangguan penglihatan atau membaca cacat untuk mendengarkan karya tulis di komputer rumah. Banyak komputer operasi telah menyertakan synthesizer pidato sejak awal 1980-an.
Sekilas pengolahan teks
Tinjauan sistem TTS khas
Sebuah teks pidato sistem-(atau "mesin") adalah terdiri dari dua bagian [3] : sebuah front-end danback-end . The front-end memiliki dua tugas utama. Pertama, mengkonversi teks mentah mengandung simbol seperti angka dan singkatan menjadi setara dengan kata-kata tertulis-out.Proses ini sering disebut teks normalisasi, pra-pengolahan, atau tokenization . The front-end kemudian memberikan transkripsi fonetik untuk setiap kata, dan membagi dan menandai teks keunit prosodi , seperti frase , klausa , dan kalimat . Proses penempatan transkripsi fonetis kata-kata disebut teks-ke-fonem atau grafem ke-fonem konversi. transkripsi Fonetik dan informasi prosodi bersama-sama membentuk representasi linguistik simbolik yang output dengan front-end. The back-end-sering disebut sebagai synthesizer-makamengubah representasi bahasa simbolik menjadi suara. Dalam sistem tertentu, bagian ini meliputi perhitungan dari target prosodi (kontur pitch, durasi fonem [4] ), yang kemudian dikenakan pada pidato output.
Sejarah
Jauh sebelum elektronik pemrosesan sinyal ditemukan, ada orang-orang yang mencoba membuat mesin untuk membuat suara manusia.Beberapa legenda awal adanya "kepala berbicara" terlibat Gerbert dari Aurillac (wafat 1003 M), Albertus Magnus (1198-1280), dan Roger Bacon (1214-1294).
Pada 1779, dari Denmark ilmuwan Kristen Kratzenstein, bekerja di Akademi Ilmu Pengetahuan Rusia , model dibangun dari manusia saluran vokal yang dapat menghasilkan lima panjang vokal suara (dalam International Alphabet Fonetik notasi, mereka adalah [a ː], [e ː], [ i ː], [o ː]dan [u ː]). [5] Hal ini diikuti oleh bellow mesin "-akustik-mekanis" dioperasikan pidato Wolfgang von Kempelen dari Wina , Austria , dijelaskan dalam kertas 1791. [6] Mesin ini ditambahkan model lidah dan bibir, memungkinkan untuk menghasilkan konsonan maupun vokal. Pada 1837, Charles Wheatstone menghasilkan "mesin bicara" berdasarkan Kempelen's desain von, dan pada tahun 1857, M. Faber membangun "Euphonia". Teman-desain Wheatstone dibangkitkan pada tahun 1923 oleh Paget. [7]
Pada 1930, Bell Labs mengembangkan vocoder , yang dioperasikan elektronik pidato analyzer-keyboard dan synthesizer yang dikatakan dengan jelas dipahami. Homer Dudley halus perangkat ini ke dalam VODER, yang dipamerkan di New York World's Fair 1939 .
The pemutaran Pola dibangun oleh Dr Franklin S. Cooper dan rekan-rekannya di Haskins Laboratories pada akhir tahun 1940an dan selesai pada 1950. Ada beberapa versi yang berbeda dari perangkat keras tetapi hanya satu saat ini bertahan. Mesin mengkonversi gambar dari pola akustik pidato dalam bentuk spektrogram kembali menjadi suara. Dengan menggunakan perangkat ini, Alvin Liberman dan rekan mampu menemukan isyarat akustik untuk persepsi fonetis segmen (konsonan dan vokal).
sistem dominan pada 1980-an dan 1990-an adalah sistem MITalk, sebagian besar didasarkan pada karya Dennis Klatt di MIT, dan sistem Bell Labs; [8] yang terakhir adalah salah satu multibahasa sistem bahasa-independen pertama, membuat luas penggunaan Alam Pengolahan Bahasa metode.
Awal synthesizer pidato elektronik terdengar robot dan sering hampir tidak dimengerti. Kualitas suara sintesis telah terus membaik, tetapi output dari sistem sintesis pidato kontemporer masih jelas dibedakan dari suara manusia yang sebenarnya.
Sebagai performa rasio biaya menyebabkan synthesizer pidato menjadi lebih murah dan lebih mudah diakses oleh rakyat, lebih banyak orang akan mendapatkan keuntungan dari penggunaan-to-speech program teks. [9]
Perangkat Elektronik
Sistem pidato pertama berbasis komputer sintesis diciptakan di akhir 1950-an, dan teks lengkap pertama-to-speech sistem selesai pada tahun 1968. Pada tahun 1961, fisikawan John Larry Kelly, Jr dan Louis rekan Gerstman [10] menggunakan sebuah IBM 704 komputer untuk mensintesis pidato, suatu peristiwa yang paling menonjol dalam sejarah Bell Labs . perekam suara Kelly synthesizer ( vocoder ) ulang lagu "Daisy Bell ", dengan iringan musik dari Max Mathews . Kebetulan, Arthur C. Clarke mengunjungi teman dan kolega John Pierce di Murray Hill fasilitas Bell Labs. Clarke begitu terkesan oleh demonstrasi bahwa ia digunakan dalam adegan klimaks dari skenario-Nya untuk novel nya 2001: A Space Odyssey , [11] dimana HAL 9000 komputer menyanyikan lagu yang sama seperti yang sedang ditidurkan oleh astronotDave Bowman . [12] Meskipun keberhasilan pidato sintesis elektronik murni, penelitian masih terus dilakukan ke synthesizer pidato mekanis.[13]
Handheld elektronik menampilkan sintesis pidato mulai muncul pada tahun 1970an. Salah satu yang pertama adalah Telesensory Systems Inc (TSI) + portabel kalkulator Pidato pada buta pada tahun 1976. [14] [15] Perangkat lain yang diproduksi terutama untuk tujuan pendidikan, seperti Speak & Spell , diproduksi oleh Texas Instruments [16] pada tahun 1978. Permainan multi-pemain pertama yang menggunakan sintesis suara Milton dari Milton Bradley Company , yang memproduksi perangkat di tahun 1980.
Teknologi Synthesizer
Yang penting kualitas sebagian besar sistem sintesis pidato yang alamiah dan dimengerti . Kealamian menggambarkan seberapa dekat output suara seperti ucapan manusia, sedangkan dimengerti adalah kemudahan dengan yang output dipahami. Synthesizer pidato yang ideal adalah baik alam dan dimengerti. sistem sintesis Pidato biasanya mencoba untuk memaksimalkan kedua karakteristik.
Dua teknologi utama untuk menghasilkan bentuk gelombang pidato sintetis sintesis concatenative dan forman sintesis. Setiap teknologi memiliki kekuatan dan kelemahan, dan menggunakan dimaksud sistem sintesis biasanya akan menentukan pendekatan mana yang digunakan.
Sintesis Concatenative
Concatenative sintesis didasarkan pada rentetan (atau merangkai bersama-sama) dari segmen berbicara dicatat. Umumnya, sintesis concatenative menghasilkan pidato disintesis paling alami yang terdengar. Namun, perbedaan antara variasi alami dalam pidato dan sifat teknik otomatis untuk membagi bentuk gelombang kadang-kadang menyebabkan gangguan terdengar pada output. Ada tiga utama sub-jenis sintesis concatenative.
Sintesis pemilihan Unit
Unit pilihan sintesis menggunakan besar database pidato direkam. Selama pembuatan database, setiap ucapan tercatat tersegmentasi ke dalam beberapa atau semua hal berikut: individu telepon , diphones , setengah-telepon, suku kata , morfem , kata , frase , dan kalimat .Biasanya, pembagian ke dalam segmen dilakukan dengan menggunakan dimodifikasi khusus recognizer pidato disetel ke dipaksa alignment "mode" dengan beberapa koreksi manual setelah itu, dengan menggunakan representasi visual seperti gelombang dan spektrogram . [17]Sebuah indeks unit dalam database pidato kemudian dibuat berdasarkan segmentasi dan parameter akustik seperti frekuensi dasar ( pitch ), durasi, posisi dalam suku kata, dan telepon tetangga. Pada runtime , sabda target yang diinginkan dibuat dengan menentukan rantai terbaik unit calon dari database (pemilihan unit). Proses ini biasanya dicapai dengan menggunakan khusus tertimbang pohon keputusan .
Unit seleksi menyediakan kealamian terbesar, karena hanya berlaku sedikit pemrosesan sinyal digital (DSP) untuk pidato direkam. DSP sering membuat bunyi ujaran direkam kurang alami, meskipun beberapa sistem menggunakan sejumlah kecil pengolahan sinyal pada titik rentetan untuk menghaluskan bentuk gelombang. Output dari sistem unit-pilihan terbaik sering dibedakan dari suara manusia nyata, terutama dalam konteks dimana sistem TTS telah disetel. Namun, kealamian maksimum biasanya memerlukan unit-seleksi pidato database menjadi sangat besar, dalam beberapa sistem mulai ke gigabyte data dicatat, mewakili puluhan jam berbicara. [18] Selain itu, unit algoritma seleksi telah dikenal untuk memilih segmen dari tempat hasil dalam waktu kurang dari sintesis ideal (kata kecil misalnya menjadi tidak jelas) bahkan ketika pilihan yang lebih baik ada dalam database. [19]
Sintesis Diphone
sintesis Diphone menggunakan database minimal pidato berisi semua diphones (-ke-suara transisi suara) terjadi dalam suatu bahasa.Jumlah diphones tergantung pada fonotaktik bahasa: misalnya, Spanyol memiliki sekitar 800 diphones, dan Jerman sekitar 2500. Dalam sintesis diphone, hanya satu contoh dari setiap diphone terkandung dalam database pidato. Pada saat runtime, target prosodi kalimat yang ditumpangkan pada unit-unit ini minimal dengan cara pengolahan sinyal digital teknik seperti linear predictive coding , PSOLA [20] atauMBROLA . [21] Kualitas suara yang dihasilkan umumnya lebih buruk daripada unit-seleksi sistem, tetapi lebih alami yang terdengar dari output dari synthesizer forman. sintesis Diphone menderita dari sonik Glitches sintesis concatenative dan sifat robot-terdengar sintesis forman, dan memiliki beberapa keuntungan baik pendekatan lain dari ukuran kecil. Dengan demikian, penggunaannya dalam aplikasi komersial menurun, meskipun terus digunakan dalam penelitian karena ada beberapa implementasi perangkat lunak tersedia secara bebas.
Sintesis Domain
Domain sintesis khusus merangkai kata-kata rekaman dan frase untuk menciptakan ucapan-ucapan selesai. Hal ini digunakan dalam aplikasi dimana berbagai teks sistem akan output terbatas pada domain tertentu, seperti pengumuman jadwal transit atau laporan cuaca. [22]Teknologi ini sangat sederhana untuk menerapkan, dan telah digunakan secara komersial untuk waktu yang lama , dalam perangkat seperti berbicara jam dan kalkulator. Tingkat kealamian sistem ini bisa sangat tinggi karena berbagai jenis kalimat terbatas, dan mereka erat cocok dengan prosodi dan intonasi dari rekaman asli. [ rujukan? ]
Karena sistem ini dibatasi oleh kata dan frasa dalam database mereka, mereka tidak tujuan umum dan hanya dapat mensintesis kombinasi kata dan frasa dengan yang mereka telah terprogram. Campuran kata-kata dalam bahasa lisan secara alami namun masih dapat menimbulkan masalah kecuali banyak variasi diperhitungkan. Sebagai contoh, dalam non-rhotic dialek dari bahasa Inggris "r" dalam kata-kata seperti "jelas" / ə ː KLI / biasanya hanya diucapkan ketika kata berikut memiliki vokal sebagai huruf pertama (misalnya, "jelas keluar"akan direalisasi sebagai / ˌ KLI ː əɹɑʊt / ). Demikian juga di Perancis , banyak konsonan akhir menjadi tidak lagi diam jika diikuti oleh sebuah kata yang dimulai dengan vokal, efek yang disebut penghubung . Ini alternatif tidak bisa direproduksi oleh sistem kata-Rangkaian sederhana, yang akan membutuhkan kompleksitas tambahan untuk konteks-sensitif .
Sintesis forman
Forman sintesis tidak menggunakan sampel suara manusia pada saat runtime. Sebaliknya, keluaran suara sintesis dibuat menggunakanaditif sintesis dan model akustik ( sintesis pemodelan fisik ). [23] Parameter seperti frekuensi fundamental , menyuarakan , dan kebisingantingkat bervariasi dari waktu ke waktu untuk membuat gelombang pidato buatan. Metode ini kadang-kadang disebut sintesis berbasis aturan,namun, sistem concatenative banyak juga memiliki komponen berbasis aturan. Banyak sistem yang didasarkan pada teknologi sintesis forman menghasilkan buatan, robot yang terdengar pidato yang tidak akan pernah salah untuk pidato manusia. Namun, kealamian maksimum tidak selalu tujuan sistem sintesis pidato, dan sistem sintesis forman memiliki keunggulan dibandingkan sistem concatenative.pidato forman-disintesis dapat diandalkan dimengerti, bahkan pada kecepatan yang sangat tinggi, menghindari Glitches akustik yang biasanya wabah sistem concatenative. kecepatan disintesis pidato-Tinggi digunakan oleh tunanetra untuk navigasi cepat komputer menggunakan pembaca layar . synthesizer forman adalah program biasanya lebih kecil dibandingkan dengan sistem concatenative karena mereka tidak memiliki database contoh pidato. Oleh karena itu mereka dapat digunakan dalam embedded system , di mana memori danmikroprosesor kekuasaan sangat terbatas. Karena berbasis sistem forman memiliki kontrol penuh dari semua aspek pidato output, berbagai prosodies dan intonasi dapat menjadi output, tidak hanya menyampaikan pertanyaan dan pernyataan, tetapi berbagai emosi dan nada suara.
Contoh-non-real time tapi sangat akurat kontrol intonasi dalam sintesis forman meliputi pekerjaan yang dilakukan pada akhir tahun 1970 untuk Texas Instruments mainan Bicara & Eja , dan di awal 1980-an Sega arcade mesin. [24] dan dalam banyak Atari, Inc . arcade games[25] dengan menggunakan LPC TMS5220 Chips . Menciptakan intonasi yang tepat untuk proyek ini adalah telaten, dan hasilnya masih harus dicocokkan dengan waktu text-to-speech interface nyata. [26]
Sintesis artikulatoris
sintesis artikulatoris mengacu pada teknik komputasi untuk sintesa pidato berdasarkan model manusia saluran vokal dan artikulasi proses yang terjadi di sana. Synthesizer artikulatoris pertama teratur digunakan untuk percobaan laboratorium dikembangkan di Haskins Laboratories pada pertengahan 1970-an oleh Philip Rubin , Tom Baer, dan Paul Mermelstein. Synthesizer ini, dikenal sebagai ASY, didasarkan pada model saluran suara yang dikembangkan di Bell Laboratories pada tahun 1960 dan 1970-an oleh Paul Mermelstein, Cecil Coker, dan rekan.
Sampai saat ini, model sintesis artikulatoris belum dimasukkan ke dalam sistem sintesis pidato komersial. Sebuah pengecualian adalahNeXT berbasis sistem-awalnya dikembangkan dan dipasarkan oleh TRILLIUM Sound Research, sebuah perusahaan spin-off dari University of Calgary , di mana banyak riset asli dilakukan. Setelah runtuhnya berbagai inkarnasi NeXT (dimulai oleh Steve Jobs pada akhir tahun 1980 dan bergabung dengan Apple Computer pada tahun 1997), perangkat lunak TRILLIUM diterbitkan di bawah Lisensi Publik Umum GNU , dengan bekerja terus sebagai gnuspeech . Sistem, pertama kali dipasarkan pada tahun 1994, menyediakan konversi penuh artikulatoris berbasis text-to-speech menggunakan pandu atau analog transmisi-garis saluran mulut dan hidung manusia dikendalikan oleh "model daerah khas" Carré's.
Berbasis sintesis HMM
HMM berbasis sintesis adalah metode sintesis yang didasarkan pada model Markov tersembunyi , juga disebut Statistik Parametric Sintesis. Dalam sistem ini, spektrum frekuensi ( saluran vokal ), frekuensi dasar (sumber vokal), dan durasi ( prosodi ) dari pidato dimodelkan secara bersamaan oleh HMMs. Pidato bentuk gelombang yang dihasilkan dari HMMs sendiri berdasarkan kemungkinan maksimum kriteria.[27]
Sintesis Sinewave
sintesis Sinewave adalah teknik untuk sintesis pidato dengan mengganti forman (band utama energi) dengan peluit nada murni. [28]
Tantangan
Normalisasi tantangan Teks
Proses normalisasi teks jarang mudah. Teks penuh dengan heteronyms , angka , dan singkatan bahwa semua membutuhkan ekspansi ke representasi fonetik. Ada banyak ejaan dalam bahasa Inggris yang diucapkan berbeda berdasarkan konteks. Misalnya, "Proyek saya terakhir adalah untuk belajar bagaimana proyek yang lebih baik suara saya" berisi dua pengucapan dari "proyek".
Kebanyakan teks-to-speech (TTS) sistem tidak menghasilkan representasi semantik teks masukan mereka, sebagai proses untuk melakukan hal yang tidak dapat diandalkan, dipahami dengan baik, atau komputasi yang efektif. Akibatnya, berbagai heuristik teknik yang digunakan untuk menebak cara yang tepat untuk disambiguate homographs, seperti memeriksa kata-kata tetangga dan menggunakan statistik tentang frekuensi kejadian.
Baru-baru ini sistem TTS telah mulai menggunakan HMMs (dibahas di atas) untuk menghasilkan "bagian dari pidato" untuk membantu dalam disambiguating homographs. Teknik ini cukup berhasil untuk banyak kasus seperti apakah "membaca" harus diucapkan sebagai "merah" menyiratkan bentuk lampau, atau sebagai "buluh" menyiratkan hadir tegang. Khas tingkat kesalahan saat HMMs menggunakan cara ini biasanya di bawah lima persen. Teknik ini juga bekerja dengan baik untuk bahasa Eropa yang paling, meskipun akses ke corpora pelatihan yang dibutuhkan sering sulit dalam bahasa.
Memutuskan bagaimana mengkonversi angka-angka adalah masalah lain yang sistem TTS harus alamat. Ini adalah tantangan pemrograman sederhana untuk mengkonversi angka menjadi kata-kata (setidaknya dalam bahasa Inggris), seperti "1325" menjadi "1325." Namun, angka terjadi dalam konteks yang berbeda, "1325" juga dapat dibaca sebagai "satu tiga dua lima", "1325" atau "seribu tiga ratus dua puluh lima".Sebuah sistem TTS sering dapat menyimpulkan bagaimana untuk memperluas sejumlah berdasarkan kata sekitarnya, angka, dan tanda baca, dan kadang-kadang sistem menyediakan cara untuk menentukan konteks jika ambigu. [29] Angka Romawi juga bisa dibaca berbeda, tergantung pada konteks . Sebagai contoh "Henry VIII" berbunyi "Henry Kedelapan", sementara "Bab VIII" berbunyi "Bab Delapan".
Demikian pula, bisa singkatan ambigu. Misalnya, singkatan "dalam" untuk "inci" harus dibedakan dari kata "dalam", dan alamat yang "12 St John St" menggunakan singkatan yang sama untuk kedua "Saint" dan "Street". sistem TTS dengan ujung depan yang cerdas dapat membuat dididik tebakan tentang singkatan ambigu, sementara yang lain memberikan hasil yang sama dalam semua kasus, sehingga tidak masuk akal (dan kadang-kadang lucu) output.
untuk-fonemtantangan Teks
sistem sintesis Pidato menggunakan dua pendekatan dasar untuk menentukan pengucapan sebuah kata berdasarkan Surat ejaan , sebuah proses yang sering disebut-ke-fonem atau grafem-ke-fonem konversi teks ( fonem adalah istilah yang digunakan oleh ahli bahasa untuk menggambarkan suara khas di bahasa). Pendekatan paling sederhana untuk konversi text-to-fonem adalah pendekatan berbasis kamus, dimana kamus besar berisi semua kata-kata dari bahasa dan pengucapan yang benar disimpan oleh program ini. Menentukan pengucapan yang benar dari setiap kata adalah masalah mencari setiap kata dalam kamus dan mengganti ejaan dengan pengucapan yang ditentukan dalam kamus. Pendekatan lain adalah berdasarkan aturan, di mana aturan pengucapan diterapkan untuk kata-kata untuk menentukan pengucapan mereka berdasarkan ejaan mereka. Hal ini mirip dengan "terdengar keluar", atau sintetik phonics pendekatan, untuk membaca belajar.
Setiap pendekatan memiliki kelebihan dan kekurangan. The Pendekatan berbasis kamus cepat dan akurat, tapi benar-benar gagal jika diberikan kata yang tidak ada dalam kamus [. rujukan? ] Sebagai ukuran kamus tumbuh, demikian juga kebutuhan ruang memori dari sistem sintesis. Di sisi lain, pendekatan berbasis aturan bekerja pada masukan apapun, tetapi kompleksitas peraturan tumbuh secara substansial sebagai sistem memperhitungkan ejaan rekening tidak teratur atau pengucapan. (Perhatikan bahwa kata "dari" adalah sangat umum dalam bahasa Inggris, namun adalah kata-satunya di mana huruf "f" diucapkan [v].) Akibatnya, hampir semua sistem pidato sintesis menggunakan kombinasi pendekatan ini.
Bahasa dengan ortografi fonemis memiliki sistem yang teratur menulis sangat, dan prediksi pengucapan kata-kata berdasarkan ejaan mereka cukup berhasil. sistem sintesis Speech untuk bahasa seperti itu sering menggunakan metode berbasis peraturan ekstensif, beralih ke kamus hanya untuk beberapa kata-kata, seperti nama asing dan pinjaman, yang pengucapan tidak jelas dari ejaan mereka. Di sisi lain, sistem sintesis pidato untuk bahasa seperti bahasa Inggris , yang memiliki sistem ejaan yang sangat tidak teratur, lebih cenderung mengandalkan kamus, dan menggunakan metode berbasis aturan hanya untuk kata-kata yang tidak biasa, atau kata-kata yang tidak dalam kamus mereka.
Tantangan Evaluasi
Evaluasi konsisten sistem sintesis pidato mungkin sulit karena kurangnya universal disepakati kriteria evaluasi objektif. organisasi yang berbeda sering menggunakan data pidato yang berbeda. Kualitas sistem sintesis pidato juga tergantung untuk tingkat besar pada kualitas teknik produksi (yang dapat melibatkan analog atau rekaman digital) dan pada fasilitas yang digunakan untuk memutar ulang pidato. Evaluasi sistem pidato sintesis karena itu sering dikompromikan oleh perbedaan antara teknik produksi dan fasilitas replay.
Baru-baru ini, namun, beberapa peneliti telah mulai mengevaluasi sistem sintesis pidato menggunakan dataset pidato umum. [30]
Prosodics dan isi emosional
Sebuah studi baru-baru ini melaporkan dalam jurnal "Pidato Komunikasi" oleh Amy Drahota dan rekan-rekannya di University of Portsmouth , Inggris , melaporkan bahwa pendengar untuk rekaman suara bisa menentukan, pada tingkat lebih baik daripada kesempatan, baik atau tidak pembicara tersenyum. [31] Disarankan bahwa identifikasi fitur vokal yang emosional sinyal konten dapat digunakan untuk membantu membuat pidato disintesis terdengar lebih alami.
[ sunting ]Dedicated hardware
Votrax
SC-01A (forman analog)
SC-02 / SSI-263 / "263 Arktik"
Instrumen Umum SP0256-Al2 (CTS256A-Al2, MEA8000)
Magnevation SpeakJet (www.speechchips.com TTS256)
Inovasi Savage SoundGin
National Semiconductor DT1050 Digitalker (Mozer)
Sistem Silicon SSI 263 (forman analog)
Texas Instruments Chips Pidato LPC
TMS5110A
TMS5200
Oki Semikonduktor
ML22825 (ADPCM)
ML22573 (HQADPCM)
Toshiba T6721A
Philips PCF8200
Modul Embedded TextSpeak TTS
[ sunting ]Sistem operasi komputer atau outlet dengan sintesis pidato
[ sunting ]Atari
Diperdebatkan, sistem pidato pertamanya terintegrasi ke dalam sistem operasi adalah komputer pribadi 1400XL/1450XL dirancang oleh Atari, Inc menggunakan chip SC01 Votrax pada tahun 1983. Komputer 1400XL/1450XL menggunakan Finite State Machine untuk mengaktifkan Dunia Bahasa Inggris Ejaan teks pidato sintesis-. [32] Sayangnya, komputer pribadi 1400XL/1450XL tidak pernah dikirimkan dalam jumlah.
The Atari ST komputer yang dijual dengan "stspeech.tos" pada floppy disk.
[ sunting ]Apple
Sistem pidato pertamanya diintegrasikan menjadi sebuah sistem operasi yang dikirimkan dalam jumlah adalah Apple Computer s ' MacInTalkpada tahun 1984. Sejak 1980-an Macintosh Komputer ditawarkan teks untuk kemampuan pidato melalui Perangkat lunak MacinTalk. Pada awal 1990 Apple memperluas kemampuan sistem penawaran lebar teks-untuk mendukung-speech. Dengan diperkenalkannya komputer berbasis PowerPC lebih cepat mereka termasuk sampling kualitas suara yang lebih tinggi. Apple juga memperkenalkan pengenalan suaradalam sistem perusahaan yang menyediakan satu set perintah cairan. Baru-baru ini, Apple telah menambahkan suara berbasis sampel.Berawal dari rasa ingin tahu, sistem pidato Apple Macintosh telah berkembang menjadi sebuah program yang didukung penuh, PlainTalk , bagi orang-orang dengan gangguan penglihatan. VoiceOver adalah untuk pertama kalinya ditampilkan di Mac OS X Tiger (10.4). Selama 10.4 (Tiger) & rilis pertama dari 10.5 (Leopard) hanya ada satu pengiriman suara standar dengan Mac OS X. Dimulai dengan 10,6 (Snow Leopard), pengguna dapat memilih keluar dari daftar berbagai beberapa suara. suara VoiceOver fitur pengambilan napas yang terdengar realistis antara kalimat, serta meningkatkan kejelasan pada tingkat baca tinggi di atas PlainTalk. Mac OS X juga termasuk mengatakan , sebuah command-line berbasis aplikasi yang mengkonversi text to speech terdengar. The AppleScript Standar Penambahan mencakup mengatakan verba yang memungkinkan sebuah skrip untuk menggunakan salah satu suara terpasang dan untuk mengontrol pitch, kecepatan berbicara dan modulasi dari teks lisan.
[ sunting ]AmigaOS
Sistem operasi kedua dengan kemampuan sintesis pembicaraan lanjutan itu AmigaOS , diperkenalkan pada tahun 1985. Sintesis suara dilisensi oleh Commodore International dari sebuah perangkat lunak pihak rumah ketiga (Jangan Tanyakan Software, sekarang Softvoice, Inc) dan menampilkan sistem lengkap emulasi suara, dengan baik dan perempuan suara laki-laki dan "stress" Indikator penanda , yang dimungkinkan oleh fitur-fitur canggih dari Amiga hardware audio chipset . [33] Ini adalah dibagi menjadi perangkat narator dan perpustakaan penerjemah. Amiga Bicara Handler fitur-to-speech penerjemah teks. AmigaOS dianggap pidato sintesis perangkat hardware virtual, sehingga pengguna bahkan bisa redirect konsol keluaran untuk itu. Beberapa program Amiga, seperti pengolah kata, membuat ekstensif menggunakan sistem pidato.
[ sunting ]Microsoft Windows
Lihat juga: Microsoft Agen
Modern Windows sistem menggunakan SAPI4 - dan SAPI5 sistem berbasis pidato-yang mencakup pengenalan suara mesin (SRE). SAPI 4.0 tersedia pada sistem operasi berbasis-Microsoft sebagai pihak ketiga add-on untuk sistem seperti Windows 95 dan Windows 98 .Windows 2000 menambahkan sebuah sintesis program pidato disebut Narator , langsung tersedia bagi pengguna. Semua program yang kompatibel dengan Windows bisa memanfaatkan fitur sintesis pidato, tersedia melalui menu sekali diinstal pada sistem. Microsoft Speech Server adalah paket lengkap untuk sintesis suara dan pengakuan, untuk aplikasi komersial seperti call center .
Text-to-Speech (TTS) kemampuan untuk komputer mengacu pada kemampuan untuk memutar ulang teks dalam suara yang diucapkan..TTS adalah kemampuan operasi sistem untuk kembali dicetak bermain teks diucapkan sebagai kata-kata [34]
Sebuah driver internal (diinstal dengan sistem operasi) (disebut mesin TTS): mengakui teks dan menggunakan suara buatan (dipilih dari suara-suara pra-dihasilkan beberapa) berbicara teks tertulis. mesin tambahan (sering menggunakan jargon tertentu atau kosa kata) juga tersedia melalui pihak produsen ketiga. [34]
[ sunting ]Android
Versi 1.6 dari Android menambahkan dukungan untuk sintesis pidato (TTS). [35]
[ sunting ]Internet
TTS perkembangan paling dalam web browser, adalah JavaScript Text to Speech karya Yury Delendik, port mana yang Flite C engine JavaScript murni. Hal ini memungkinkan halaman web untuk mengubah teks ke audio menggunakan teknologi HTML5. Kemampuan untuk menggunakan port Yuri TTS saat ini membutuhkan browser custom build yang menggunakan Mozilla Audio-Data-API . Namun, banyak pekerjaan yang sedang dilakukan dalam konteks dari W3C untuk memindahkan teknologi ini ke dalam pasar browser mainstream melaluiW3C Audio Inkubator Grup dengan keterlibatan BBC dan Google Inc
Saat ini, ada beberapa aplikasi , plugin dan gadget yang dapat membaca pesan langsung dari e-mail client dan halaman web dari web browser atau Google Toolbar seperti Teks--suara ke yang merupakan add-on untuk Firefox . Beberapa khusus perangkat lunak dapat menceritakan RSS-feed . Di satu sisi, online RSS-perawi menyederhanakan penyampaian informasi dengan memungkinkan pengguna untuk mendengarkan sumber berita favorit mereka dan untuk mengkonversikannya ke podcast . Di sisi lain, on-line RSS-pembaca yang tersedia di hampir semua PC yang terhubung ke Internet. Pengguna dapat men-download file audio yang dihasilkan ke perangkat portabel, misalnya dengan bantuan podcast receiver, dan mendengarkan mereka sambil berjalan, jogging atau Komuter untuk bekerja.
Bidang tumbuh di internet TTS berbasis web berbasis teknologi bantu , misalnya " Browsealoud 'dari perusahaan Inggris dan Readspeaker .Hal ini dapat memberikan fungsi TTS kepada siapapun (untuk alasan aksesibilitas, kenyamanan, hiburan atau informasi) dengan akses ke web browser. The nirlaba proyek Pediaphon diciptakan pada tahun 2006 untuk menyediakan TTS berbasis web interface mirip denganWikipedia . [36] Selain itu SPEAK.TO.ME dari Oxford Informasi Laboratories mampu memberikan text to speech melalui browser tanpa perlu mendownload aplikasi khusus, dan termasuk teknologi pengiriman pintar untuk memastikan hanya apa yang dilihat diucapkan dan konten secara logis pathed.
[ sunting ]Lain-lain
Beberapa model rumah komputer Texas Instrumen diproduksi pada tahun 1979 dan 1981 ( Texas Instruments TI-99 / 4 dan TI-99/4A ) yang mampu-untuk-fonem sintesis teks atau membaca kata-kata dan frasa lengkap (teks-ke-kamus), menggunakan Pidato yang sangat populer Synthesizer perifer. TI menggunakan proprietary codec untuk melekatkan frase diucapkan lengkap ke dalam aplikasi, terutama video game. [37]
IBM 's OS / 2 Warp 4 termasuk VoiceType, pelopor untuk IBM ViaVoice .
Sistem yang beroperasi pada perangkat lunak open source dan sistem bebas termasuk Linux sangat beragam, dan termasuk open source program seperti Festival Speech Synthesis System yang menggunakan sintesis berbasis diphone (dan dapat menggunakan jumlah terbatas MBROLA suara), dan gnuspeech yang menggunakan sintesis artikulatoris [38] dari Free Software Foundation .
Perusahaan yang mengembangkan sintesis sistem pidato tetapi tidak lagi dalam bisnis ini termasuk TERBAIK Pidato (dibeli oleh L & H),fasih Teknologi (dibeli oleh SpeechWorks), Lernout & Hauspie (dibeli oleh Nuansa), SpeechWorks (dibeli oleh Nuansa), Retoris Sistem ( dibeli oleh Nuansa).
[ sunting ]bahasa markup sintesis Pidato
Sejumlah bahasa markup telah dibentuk untuk membawakan teks sebagai pidato dalam XML format-compliant. Yang paling terakhir adalahSpeech Synthesis Markup Language (SSML), yang menjadi rekomendasi W3C pada tahun 2004. sintesis pidato bahasa markup yang lebih tua termasuk Jawa Pidato Markup Language ( JSML ) dan Sable . Meskipun masing-masing diusulkan sebagai standar, tidak satupun dari mereka telah diadopsi secara luas.
sintesis bahasa markup Pidato dibedakan dari bahasa markup dialog. VoiceXML , misalnya, termasuk tags terkait dengan pengenalan suara, manajemen dialog dan panggilan touchtone, di samping teks-pidato-markup.
[ sunting ]Aplikasi
Pidato sintesis telah lama menjadi penting teknologi bantuan alat dan aplikasi di bidang ini sangat signifikan dan luas. Hal ini memungkinkan hambatan lingkungan harus dikeluarkan untuk orang dengan berbagai cacat. Aplikasi terpanjang telah menggunakan pembaca layar bagi orang-orang dengan gangguan penglihatan , tetapi teks-to-speech sistem yang sekarang umum digunakan oleh orang-orang dengan disleksiadan kesulitan membaca lainnya serta dengan anak-anak pra-melek. Mereka juga sering digunakan untuk membantu mereka yang parahgangguan berbicara biasanya melalui khusus komunikasi bantuan output suara .
Situs seperti Ananova dan YAKiToMe! telah menggunakan sintesis pidato untuk mengubah berita yang ditulis untuk konten audio, yang dapat digunakan untuk aplikasi mobile.
teknik sintesis Pidato digunakan juga dalam produksi hiburan seperti game, anime dan serupa. Pada tahun 2007, Animo Limited mengumumkan pengembangan paket aplikasi perangkat lunak berdasarkan sintesis pidato FineSpeech software-nya, secara eksplisit diarahkan terhadap pelanggan dalam industri hiburan, mampu menghasilkan narasi dan baris dialog sesuai dengan spesifikasi pengguna. [39]Aplikasi jatuh tempo pada tahun 2008, ketika NEC Biglobe mengumumkan sebuah layanan web yang memungkinkan pengguna untuk membuat frase dari suara Code Geass: Lelouch dari R2 Pemberontakan . karakter [40]
TTS aplikasi seperti YAKiToMe! dan Speakonia sering digunakan untuk menambahkan suara sintetis untuk video YouTube untuk efek komedi, seperti dalam Bunch video Barney. YAKiToMe! juga digunakan untuk mengkonversi seluruh buku-buku untuk keperluan pribadi Podcasting, RSS feed dan halaman web untuk berita, dan pendidikan teks untuk belajar ditingkatkan.
Software seperti Vocaloid dapat menghasilkan menyanyikan suara melalui lirik dan melodi. Ini juga merupakan tujuan dari proyek Komputer Bernyanyi (yang menggunakan GNU LilyPond dan Festival ) untuk membantu orang buta periksa input lirik mereka. [41]
Berikutnya ke aplikasi ini adalah penggunaan teks untuk perangkat lunak pidato juga populer di Interactive Voice Response sistem, sering dikombinasikan dengan pengenalan suara . Contoh suara tersebut dapat ditemukan di speechsynthesissoftware.com atau Nextup .
Subscribe to:
Post Comments (Atom)

No comments:
Post a Comment