Kompresi audio (data)
kompresi Audio adalah bentuk kompresi data yang dirancang untuk mengurangi kebutuhan bandwidth transmisi digital audio stream dan ukuran penyimpanan file audio . Audio kompresi algoritma diimplementasikan dalam perangkat lunak komputer sebagai codec audio .algoritma kompresi data Generik berkinerja buruk dengan data audio, jarang mengurangi ukuran data jauh di bawah 87% dari aslinya,[ rujukan? ] dan tidak dirancang untuk digunakan dalam aplikasi real time. Akibatnya, dioptimalkan secara khusus audio lossless dan lossyalgoritma telah dibuat. algoritma lossy memberikan tingkat kompresi yang lebih besar dan digunakan dalam perangkat konsumen mainstream audio.
Dalam kedua dan lossless kompresi lossy, redundansi informasi berkurang, dengan menggunakan metode seperti pengkodean , pengenalan pola dan prediksi linier untuk mengurangi jumlah informasi yang digunakan untuk mewakili data terkompresi.
Trade-off antara kualitas audio sedikit berkurang dan transmisi atau ukuran penyimpanan sebanding dengan yang kedua untuk aplikasi audio yang paling praktis di mana pengguna mungkin tidak akan merasakan kerugian dalam rendisi kualitas pemutaran. Misalnya, salah satuCompact Disc memegang sekitar satu jam dari kesetiaan musik terkompresi tinggi, kurang dari 2 jam musik terkompresi losslessly, atau 7 jam musik yang dikompresi dalam MP3 format di media bit rate .
audio kompresi Lossless
kompresi lossless audio menghasilkan representasi data digital yang dapat diperluas ke tepat digital duplikat dari stream audio asli. Hal ini kontras dengan perubahan ireversibel pada playback dari teknik kompresi lossy seperti Vorbis dan MP3 . rasio kompresi adalah sama dengan yang untuk data kompresi lossless generik (sekitar 50-60% dari ukuran asli [1] ), dan secara substansial kurang dari untuk kompresi lossy, yang biasanya menghasilkan 5-20% dari ukuran aslinya [2]
Aplikasi
Area aplikasi utama lossless encoding adalah:
Arsip
Untuk tujuan pengarsipan umumnya diinginkan untuk melestarikan bahan sumber tepat (yaitu pada 'kualitas terbaik').
Mengedit
Audio insinyur menggunakan kompresi lossless untuk mengedit audio untuk menghindari kerugian generasi digital .
Tinggi kesetiaan pemutaran
Audiophiles lebih memilih format kompresi lossless untuk menghindari artefak kompresi .
Penguasaan kasual-menggunakan media audio
Kualitas tinggi master salinan rekaman yang digunakan untuk menghasilkan kompresi versi lossily untuk pemutar audio digital . Seperti format dan meningkatkan encoders, file yang dikompresi lossily diperbarui dapat dihasilkan dari master lossless.
Sebagai tempat penyimpanan file dan bandwidth komunikasi telah menjadi lebih murah dan lebih tersedia, kompresi lossless audio telah menjadi lebih populer.
Format
Mempersingkat adalah format lossless dini; yang baru termasuk Free Lossless Audio Codec (FLAC), Apple Apple Lossless , 4 MPEG-ALS ,Monkey's Audio , dan TTA .
Beberapa format audio menampilkan kombinasi format lossy dan koreksi lossless; ini memungkinkan pengupasan koreksi untuk dengan mudah mendapatkan file lossy. Format tersebut termasuk MPEG-4 SLS (Scalable dengan Lossless), WavPack , dan OptimFROG DualStream .
Beberapa format yang terkait dengan teknologi, seperti:
Stream Langsung Transfer , digunakan dalam Super Audio CD
Meridian Lossless Packing , yang digunakan dalam DVD-Audio , Dolby TrueHD , Blu-ray dan HD DVD
Kesulitan dalam kompresi data audio lossless
Sulit untuk menjaga semua data dalam aliran audio dan mencapai kompresi substansial. Pertama, sebagian besar rekaman suara sangat kompleks, direkam dari dunia nyata. Sebagai salah satu metode kompresi kunci adalah untuk menemukan pola dan pengulangan, data yang lebih kacau seperti audio tidak kompres dengan baik. Dalam cara yang sama, foto-foto kompres kurang efisien dengan metode lossless dari gambar yang dihasilkan komputer sederhana lakukan. Tapi yang menarik, bahkan komputer yang dihasilkan suara dapat berisi sangat rumitbentuk gelombang yang menjadi tantangan untuk algoritma kompresi banyak. Hal ini disebabkan sifat gelombang audio, yang umumnya sulit untuk menyederhanakan tanpa konversi (selalu lossy) untuk informasi frekuensi, seperti yang dilakukan oleh telinga manusia.
Alasan kedua adalah bahwa nilai-nilai dari audio sample berubah sangat cepat, generik data sehingga kompresi algoritma tidak bekerja dengan baik untuk audio, dan string byte berturut-turut tidak umumnya muncul sangat sering. Namun, konvolusi dengan] filter [-1 1 (yaitu, mengambil turunan pertama) cenderung sedikit memutihkan ( decorrelate , membuat datar) spektrum, sehingga memungkinkan kompresi lossless tradisional di encoder untuk melakukan tugasnya; integrasi di decoder mengembalikan sinyal asli. Codec seperti FLAC ,Mempersingkat dan TTA menggunakan prediksi linier untuk memperkirakan spektrum sinyal. Pada encoder, kebalikannya adalah estimator digunakan untuk memutihkan sinyal dengan menghapus puncak spektrum sedangkan estimator digunakan untuk merekonstruksi sinyal asli di decoder.
Kriteria Evaluasi
Lossless audio codec tidak mempunyai masalah kualitas, sehingga kegunaan dapat diperkirakan oleh
Kecepatan kompresi dan dekompresi
Tingkat kompresi
Ketahanan dan koreksi kesalahan
Dukungan produk
kompresi audio lossy
Kompresi audio lossy digunakan dalam berbagai aplikasi. Selain aplikasi langsung (mp3 player atau komputer), kompresi digital audio stream yang digunakan dalam DVD video paling; televisi digital, media streaming di internet , satelit dan kabel radio, dan semakin dalam siaran radio terestrial. Kompresi lossy biasanya mencapai kompresi yang jauh lebih besar daripada kompresi lossless (data dari 5 persen menjadi 20 persen dari aliran asli, bukan dari 50 persen menjadi 60 persen), dengan membuang data yang kurang-kritis.
Inovasi dari kompresi audio lossy adalah menggunakan psychoacoustics untuk mengakui bahwa tidak semua data dalam aliran audio dapat dirasakan oleh sistem pendengaran manusia. kompresi lossy Kebanyakan mengurangi redundansi persepsi oleh suara mengidentifikasi pertama yang dianggap tidak relevan perseptual, yaitu, suara yang sangat sulit untuk mendengar. Contoh umum termasuk frekuensi tinggi, atau suara yang terjadi pada saat yang sama dengan suara keras. Mereka suara yang dikodekan dengan akurasi menurun atau tidak kode sama sekali.
Jika mengurangi redundansi persepsi tidak mencapai kompresi yang cukup untuk aplikasi tertentu, mungkin memerlukan kompresi lebih lanjut lossy. Tergantung pada sumber audio, ini masih belum dapat menghasilkan perbedaan mencolok. Pidato misalnya dapat dikompresi jauh lebih dari musik. Kebanyakan skema kompresi lossy memungkinkan kompresi parameter harus disesuaikan untuk mencapai tingkat target data, biasanya dinyatakan sebagai bit rate . Sekali lagi, reduksi data akan dipandu oleh beberapa model betapa pentingnya suara adalah sebagai dirasakan oleh telinga manusia, dengan tujuan efisiensi dan kualitas dioptimalkan untuk tingkat target data. (Ada berbagai model yang digunakan untuk analisis perseptual, beberapa lebih cocok untuk berbagai jenis audio daripada yang lain.) Oleh karena itu, tergantung pada kebutuhan bandwidth dan penyimpanan, penggunaan kompresi lossy dapat mengakibatkan pengurangan persepsi kualitas audio yang berkisar dari tidak ada sampai parah, tapi umumnya pengurangan jelas terdengar kualitas tidak dapat diterima untuk pendengar.
Karena data akan dihapus selama kompresi lossy dan tidak dapat dipulihkan oleh dekompresi, beberapa orang mungkin tidak suka kompresi lossy untuk penyimpanan arsip. Oleh karena itu, sebagaimana dicatat, bahkan mereka yang menggunakan kompresi lossy (untuk aplikasi audio portabel, misalnya) mungkin ingin menyimpan arsip losslessly terkompresi untuk aplikasi lain. Selain itu, teknologi kompresi terus maju, dan mencapai kompresi lossy state-of-the-art akan memerlukan satu untuk memulai lagi dengan data lossless audio asli dan kompres dengan lossy codec baru. Sifat kompresi lossy (baik untuk audio dan gambar) hasil dalam meningkatkan penurunan kualitas jika data terkompress, kemudian recompressed menggunakan kompresi lossy
Metode Coding
Domain metode Transform
Dalam rangka untuk menentukan apa informasi dalam sinyal audio perseptual tidak relevan, paling algoritma kompresi lossy menggunakan transformasi seperti discrete cosine transform dimodifikasi (MDCT) untuk mengkonversi domain waktu gelombang sampel menjadi transformasi domain. Setelah berubah, biasanya menjadi domain frekuensi , frekuensi komponen dapat dialokasikan bit menurut bagaimana didengar mereka. Kemampuan didengar komponen spektral ditentukan dengan terlebih dahulu menghitung ambang masking , di bawah ini yang diperkirakan suara akan berada di luar batas persepsi manusia.
Ambang masking dihitung dengan menggunakan ambang mutlak pendengaran dan prinsip-prinsip masking simultan - fenomena dimana sinyal tertutup oleh sinyal lain yang dipisahkan oleh frekuensi - dan, dalam beberapa kasus, temporal masking - di mana sebuah sinyal tertutup oleh sinyal lain dipisahkan oleh waktu. Sama-kontur kenyaringan juga dapat digunakan untuk bobot pentingnya persepsi dari komponen yang berbeda. Model kombinasi telinga-otak manusia memasukkan efek seperti ini sering disebut model psychoacoustic .
domain metode Waktu
Jenis-jenis kompresor lossy, seperti linear predictive coding (LPC) digunakan dengan pidato, yang berbasis sumber coders. Coders ini menggunakan model generator suara itu (seperti saluran suara manusia dengan LPC) untuk memutihkan sinyal audio (yaitu, rata spektrum-nya) sebelum kuantisasi. LPC juga dapat dianggap sebagai teknik pengkodean dasar persepsi; rekonstruksi sinyal audio menggunakan prediktor linier bentuk kebisingan kuantisasi koder ke dalam spektrum dari sinyal sasaran, sebagian masking itu.
Aplikasi
Karena sifat algoritma lossy, kualitas audio menderita bila file didekompress dan recompressed ( rugi generasi digital ). Hal ini membuat kompresi lossy tidak cocok untuk menyimpan hasil antara dalam aplikasi teknik audio profesional, seperti mengedit suara dan merekam multitrack. Namun, mereka sangat populer dengan pengguna akhir (terutama MP3 ), sebagai satu megabyte dapat menyimpan sekitar satu menit patut musik pada kualitas memadai.
Kegunaan
Kegunaan dari codec audio lossy ditentukan oleh:
Persepsi kualitas audio
Kompresi faktor
Kecepatan kompresi dan dekompresi
Inherent latency algoritma (kritis untuk aplikasi streaming real-time; lihat di bawah)
Dukungan produk
format Lossy sering digunakan untuk distribusi audio streaming, atau aplikasi interaktif (seperti pengkodean untuk transmisi digital pidato dalam jaringan ponsel). Dalam aplikasi tersebut, data harus decompressed sebagai aliran data, bukan setelah seluruh data stream telah terkirim. Tidak semua codec audio yang dapat digunakan untuk aplikasi streaming, dan untuk aplikasi seperti codec yang dirancang untuk data stream efektif biasanya akan dipilih.
Latency hasil dari metode yang digunakan untuk encode dan decode data. Beberapa codec akan menganalisa segmen lagi data untuk mengoptimalkan efisiensi, dan kemudian kode tersebut dengan cara yang membutuhkan segmen yang lebih besar data pada satu waktu untuk decode. (Sering codec membuat segmen disebut "frame" untuk membuat data segmen diskrit untuk encoding dan decoding.) Yang melekat latensi dari algoritma coding dapat sangat penting, misalnya, ketika ada dua arah transmisi data, seperti dengan telepon percakapan, keterlambatan signifikan serius dapat menurunkan kualitas yang dirasakan.
Berbeda dengan kecepatan kompresi, yang sebanding dengan jumlah operasi yang dibutuhkan oleh algoritma, sini latency mengacu pada jumlah sampel yang harus dianalisa sebelum blok audio diproses. Dalam kasus minimum, latency adalah 0 nol sampel (misalnya, jika koder / decoder hanya mengurangi jumlah bit yang digunakan untuk quantize sinyal). algoritma domain Sisa misalnya LPC juga sering memiliki latency rendah, maka popularitas mereka dalam pidato pengkodean untuk telephony. Dalam algoritma seperti MP3, bagaimanapun, jumlah sampel yang harus dianalisa untuk menerapkan model psychoacoustic dalam domain frekuensi, dan latensi berada di urutan 23 ms (46 ms untuk komunikasi dua arah
Pengkodean Pidato
encoding Pidato adalah suatu kategori penting dari kompresi data audio. Model persepsi digunakan untuk memperkirakan apa telinga manusia dapat mendengar pada umumnya agak berbeda dari yang digunakan untuk musik. Kisaran frekuensi yang diperlukan untuk menyampaikan suara suara manusia biasanya jauh lebih sempit daripada yang dibutuhkan untuk musik, dan suara biasanya kurang kompleks. Akibatnya, pidato dapat dikodekan pada kualitas tinggi menggunakan bit rate yang relatif rendah.
Hal ini dicapai, secara umum, oleh beberapa kombinasi dari dua pendekatan:
Hanya encoding suara yang dapat dibuat oleh suara manusia tunggal.
Membuang lebih banyak data pada sinyal-menjaga cukup untuk merekonstruksi sebuah "dimengerti" suara daripada rentang frekuensi penuh manusia pendengaran .
Mungkin awal algoritma yang digunakan dalam pengkodean pidato (dan audio kompresi data secara umum) adalah algoritma-hukum A dan -hukum algoritma μ .
Sejarah
Solidyne 922: komersial pertama di dunia bit kartu kompresi audio untuk PC, 1990
Satu ringkasan sastra untuk berbagai macam sistem pengkodean audio diterbitkan dalam Jurnal IEEE di Wilayah Dipilih di Komunikasi (JSAC), Februari 1988. Sementara ada beberapa makalah dari sebelum waktu itu, ini merupakan koleksi berbagai didokumentasikan seluruh selesai, bekerja coders audio, hampir semua dari mereka menggunakan persepsi (yaitu masking) teknik dan beberapa jenis analisis frekuensi dan back-end coding berisik. [3] Beberapa jenis kertas ini mengomentari kesulitan mendapatkan baik, audio digital bersih untuk tujuan penelitian.Kebanyakan, jika tidak semua, dari penulis dalam edisi JSAC juga aktif dalam komite-1 MPEG Audio.
Teman komersial pertama kompresi dunia siaran sistem audio otomasi dikembangkan oleh Oscar Bonello, seorang profesor Teknik di Universitas Buenos Aires . [4] Pada tahun 1983, dengan menggunakan prinsip psychoacoustic dari masking band kritis pertama kali diterbitkan pada tahun 1967, [5] dia mulai mengembangkan aplikasi praktis berdasarkan baru-baru ini dikembangkan IBM PC komputer, dan sistem otomatisasi siaran diluncurkan pada 1987 dengan nama Audicom . 20 tahun kemudian, hampir semua stasiun radio di dunia menggunakan teknologi serupa, yang diproduksi oleh sejumlah perusahaan.
Subscribe to:
Post Comments (Atom)

No comments:
Post a Comment