Дисциплины:

Архитектура (936)
Биология (6393)
География (744)
История (25)
Компьютеры (1497)
Кулинария (2184)
Культура (3938)
Литература (5778)
Математика (5918)
Медицина (9278)
Механика (2776)
Образование (13883)
Политика (26404)
Правоведение (321)
Психология (56518)
Религия (1833)
Социология (23400)
Спорт (2350)
Строительство (17942)
Технология (5741)
Транспорт (14634)
Физика (1043)
Философия (440)
Финансы (17336)
Химия (4931)
Экология (6055)
Экономика (9200)
Электроника (7621)

Основні характеристики звуку

⇐ Предыдущая 1 23

Основні властивості звуку

Звук – це хвильові коливання густини середовища, коливання густини повітря. Звукові хвилі при допомозі мікрофона перетворюються в аналоговий змінний електричний сигнал. Для забезпечення масовості роботи із звуковим сигналом в комп’ютері, його потрібно перевести в цифрову форму, для чого використовується АЦП.

Точність передачі (запису) звуку на комп’ютер, яка пов’язана із якістю перетворення звуку на АЦП, залежить від частоти дискретизації – кількості вимірів за сек.

Частотний діапазон звукових хвиль, який може сприйматися вухом людини, лежить в межах 20 Гц – 20 000 Гц. Звідси виходить, що f дискретизації повинна бути більшою 20 тис. вимірювань за сек. Для якісного звучання зазвичай використовуються частоти дискретизації 44.1 чи 48 КГц. При цьому рахується, що такою частотою досягається CD – звучання. Але іноді деякі мультимедійні – продукти з метою економії дискового простору застосовують менші частоти: 32,22 і навіть 11 КГц. Найкращі аудіоформати використовують частоту дискретизації 96 КГц.

Для характеристики точності вимірювань введено поняття розрядності дискретизації– кількість бітів, а натомість і пам’яті, що відводиться під 1 результат вимірювання.

Іноді використовують розрядність дискретизації у 8 бітів, але такої точності, зазвичай, недостатньо. У більшості випадків використовується розрядність у 16 бітів, які дозволяють закодувати 2¹⁶=65 536 значеньамплітуди.

Де-факто, стандартом є частота дискретизації 44.1 КГц та розрядності дискретизації 16 бітів.

розд. дискретизації

V_зв=n*f_g*r_g*t – (час тривання звуку).

частота запису

кількість каналів

Підрахуємо скільки пам’яті займає 1 хв. звуку з використанням залежності (4.1):

Приклади: Монозапис: 44 100*2*60=5 292 000 байтів

Стереозапис: 44 100*2*60*2=10 584 000 байтів

Тобто, 1 хв. стандартного стереозвуку вимагає нажаль >10 MБ.

Це без стиснення (саме в такому виді звукова інформація зберігається в аудіо форматі WAV)...

Зараз застосовуються аудіоформати, які можуть зберігати звук у стиснутому стані без втрати якості (стиснення в 10÷14р.).

Основна ідея, що лежить в основі всіх алгоритмів звукового стиснення, - нехтування деталями, які лежать за межами чутності вуха людини:

1) Людське вухо практично не чує звуків, що знаходяться у тому ж частотному діапазоні, що і значно гучніший звук.

(якщо поряд з вами буде паровоз, то ви навряд чи почуєте, як тікає ваш годинник).

Цей ефект називається маскуючим ефектом і змінюється в залежності від частоти і гучності звуку);

2) Досить широко застосовується методика зменшення звукового файлу за рахунок зменшення розрядності дискретизації, допускаючи, що певних деталей слухах все рівно не почує чи для даної конкретної задачі допустиме зменшена якість звучання. Цей спосіб застосовується у залежності від виду звукового сигналу (може для нього і 8 бітів достатньо) і від того, для чого він призначений.

3) Більшість сучасних аудіоформатів здійснюється поділ частотної смуги на декілька під смуг, у кожній із яких виділяється найбільш гучне звучання частоти і враховується для неї ефект маскування. Деякі аудіоформати враховують вплив ефекту маскування сусідніх смуг, тобто дуже гучний звук на одній із них може вплинути на кодування звукового сигналу сусідніх підсмуг.

Всі аудіоформати, що стискають звуковий сигнал, враховують сприйняття звуку людиною, тому:

*із звукового потоку вилучаються звуки , які завідомо не сприймаються вухом людини;

*із більшою ретельністю та точністю кодуються звукові частоти, на які людина звертає свою основну увагу (діапазон 1000÷4000 Гц). Ці частоти кодуються із зменшеною якістю.

*крім того, враховується, що людина може визначати напрям звуку менше середньої f, інші звуки сприймаються людиною як фонові. У зв’язку з цим часто використовується механізм суміщеного стерео, в рамках якого середні f кодуються в стереосигнал, а фонові – в моносигнал.

Основні характеристики звуку

До основних властивостей звуку відносять амплітуду та спектральний склад звукового коливання, а також їх зміна в часі.

Амплітуда (amplitude) визначає максимальну інтенсивність коливань - голосність (volume) або силу звуку. На осцилограмі амплітуда представляється розмахом сигналу - найбільшим та найменшим відносно середнього рівня звучання.

Спектральний склад визначає забарвлення або тембр звуку. Довільне періодичне коливання
може бути представлене рядом Фур’є - сумою скінченої кількості синусоїдальних коливань
(чистих тонів). Спектр звуку представляє собою графік інтенсивностей (амплітуд) цих частотних
складових, що позначаються, як правило, у вигляді вертикальних ліній відповідної висоти. Спектр
чистого тону має тільки одну лінію, що відповідає його частоті, спектр довільного іншого
коливання має більше одної лінії. Якщо на спектрі лінії є досить гострий пік, то такий звук
сприймається на слух як тон відповідної висоти, а решта складових визначають його забарвлення,
в протилежному випадку звук сприймається як одночасне звучання декількох тонів або шум.
Частотні складові, кратні основній частоті тону, називаються гармоніками (harmonics) або

обертонами, гармоніки нумеруються, починаючи з основного тона (перша гармоніка), а обертони - з першої кратної складової (перший обертон - друга гармоніка, і т.д.).

В зв’язку з особливостями слухового сприйняття висота звуку визначається більше за його спектральним складом, ніж за його основним тоном. Наприклад, суб’єктивна висота більшості спектрально багатих низькочастотних звуків практично не міняється навіть при повному видаленні з них основного тону, який в слуховому апараті відновлюється за різнисними частотами перших обертонів.

Зміна амплітуди в часі називається амплітудною огинаючою (envelope) звуку - на

амплітудному графіку вона ніби огинає графік коливання, а графік виходить ніби вписаним в огинаючу. Довільний природній звук має огинаючу приблизно такого вигляду:

Рис.4.1. Огинаюча природнього звуку.

Цифрами позначені фази розвитку звуку, прийняті в акустиці:

1. - атака (attack) - початкова фаза, підйом,

2. - зупинка (hold) - коротка стабілізація після підйому,

3. - спад (decay) - фаза переходу звуку у встановлений стан,

4. - утримання (sustain) - фаза підтримки,

5. - затухання (release) - післязвучання.

Фаза підтримки має місце лише в тому випадку, якщо вплив, що викликав появу звуку, залишиться постійним на протязі деякого часу (наприклад, рух пили по металу або потік повітря в духовому інструменті).

Аналогічно, існує поняття спектральної огинаючої - тривимірний графік зміни спектру (і, відповідно, тембру) в часі.

Крім періодичних коливань - тонів - розглядаються також неперіодичні коливання - шуми. Для шума зарактерно більш-менш рівномірний розподіл інтенсивності по спектру, без явно виражених піків або спадів. Основні види шуму: білий і рожевий та коричневий. Білий шум має рівномірну спектральну густину і в чистому вигляді в природніх звуках не зустрічається, однак часто зустрічається в електронних приладах. Густина рожевого шуму спадає з ростом частоти (1/f) - це характеристика шуму дощу, прибою, вітру та інших неяскраво виражених природніх шумів. Деколи розглядається також коричневий шум із густиною 1/f2, що швидко спадає з ростом частоти, близький до звуків ударного походження (грім, обвал). 4.7 Методи обробки звуку

1. Монтаж. Полягає у вирізанні із запису одних ділянок, вставці інших, їх заміні, розмноженні
та ін. Називається також редегуванням. Всі сучасні звуко- та відеозаписи в тій чи іншій мірі
піддаються монтажу.

2. Амплітудні перетворення. Виконуються за допомогою різних дій над амплітудою сигналу,
які в кінцевому рахунку зводяться до множення значень самплів на постійний коефіцієнт
(підсилення/послаблення) або змінну в часі функцію-модулятор (амплітудна модуляція).
Частковим випадком амплітудної модуляції є формування огинаючої для надання
стаціонарному звучанню розвитку в часі.

Амплітудні перетворення виконуються послідовно з окремими самплами, тому вони прості в

реалізації і не вимагають великого об’єму обчислень.

3. Частотні (спектральні) перетворення. Виконуються над частотними складовими звуку.
Якщо використовувати спектральне розкладання - форму представлення звуку, в якій по
горизонталі відраховуються частоти, а по вертикалі - інтенсивності складових цих частот,
то більшість частотних перетворень стають подібними на амплітудні перетворення над
спектром. Наприклад, фільтрація - підсилення або послаблення визначених смуг частот -
зводиться до накладання на спектр відповідної амплітудної огинаючої. Однак частотну
модуляцію таким чином уявити неможна - вона виглядає, як зміщення всього спектру або
його окремих ділянок в часі за визначеним законом.

Для реалізації частотних перетворень звичайно застосовується спектральне розкладання за
методом Фур’є, яке вимагає значних ресурсів. Однак є алгоритм швидкого перетворення
Фур’є (ШПФ, FFT), який виконується в цілочисельні арифметиці і дозволяє вже на

молодших моделях 486 процесорів розвертати в реальному часі спектр сигналу середньої
якості. При частотних перетвореннях, крім цього, потрібна обробка і наступна згортка,
тому фільтрація в реальному часі поки що не реалізується на процесорах загального призначення. Замість цього існує велика кількість цифрових сигнальних процесорів (Digital Signal Processor - DSP), які виконують ці операції в реальному часі і по декількох каналах.

4. Фазові перетворення. Зводяться в основному до постійного зсуву фази сигналу або її
модуляції деякою функцією або іншим сигналом. Завдяки тому, що слуховий апарат
людини використовує фазу для визначення напрямку на джерело звуку, фазові
перетворення стереозвуку дозволяють отримати ефекти обертового звуку, хору і подібних.
За допомогою зсуву фази на 90..180 градусів (останнє отримується простим інвертуванням
відліків) реалізується ефект “псевдооб’ємності” звуку (Surround).

5. Часові перетворення. Полягають в додаванні до основного сигналу його копій, зсунутих в
часі на різні величини. При зсувах на величини, що можна порівняти з періодом сигналу, ці
перетворення перетворюються в фазові, при невеликих зсувах за межами періоду
(приблизно менше 20 мс) це дає ефект, близький до хорового (розмноження джерела
звуку), при великих - ефекти багатократного відбиття: реверберації (20..50 мс) і відлуння
(більше 50 мс).

6. Формантні перетворення. Є частковим випадком частотних і оперують з формантами -
характерними смугами частот, що зустрічаються в звуках, які вимовляє людина. Кожному
звуку відповідає своє співвідношення амплітуд і частот декількох формант, яке визначає
тембр і розбірливість голосу. Змінюючи параметри формант, иожна підкреслювати або
затушевувати окремі звуки, міняти одну голосну на іншу, зсувати регістр голосу та ін.

Формати звукових файлів

§ WAVE (.wav) - найширше розповсюджений звуковий формат. Використовується в Windows для зберігання звукових файлів. В його основі лежить формат RIFF (Resource
Interchange File Format), який дозволяє зберігати довільні дані в структурованому вигляді.
Для записування звуку використовуються різні способи стиснення, оскільки звукові файли
мають великий об’єм. Найпростіший спосіб стиснення - імпульсно-кодова модуляція (Pulse
Code Modulation, PCM), але він не забезпечує достатньо гарного стиснення. Цей спосіб був
дещо вдосконалений і на його основі розроблені ще два методи: DPCM (Differential Pulse
Code Modulation - диференційна імпульсно-кодова модуляція) та ADPCM (Adaptive Differential Pulse Code Modulation - адаптивна диференційна імпульсно-кодова модуляція), що забезпечують більш сильне стиснення з прийнятною якістю.

§ AU (.au, .snd) - формат звукових файлів, що використовується на робочих станціях фірми
Sun (.au) і в операційній системі NeXT (.snd). Отримав широке розповсюдження в Internet,
на ранній стадії розвитку якого відігравав роль стандартного формата для звукової
інформації.

§ MPEG-3 (.mp3) –на сьогоднішній час самий популярний формат збереження оцифрованого звуку МР-3 використовує приблизно у 10 разів менше дискового простору при збереженні звуку відповідної якості, ніж файл у форматі WAV.

⇐ Предыдущая 1 23

Эта страница нарушает авторские права

allrefrs.su - 2025 год. Все права принадлежат их авторам!