Чиним эхо: голос одного спикера попал на запись другого
В развитие этой темы: https://boosty.to/themontageguy
Одна из самых распространенных проблем при записи подкастов или многомикрофонных интервью, токшоу и проч., это когда на запись с микрофона одного спикера попадает речь других - так происходит при неправильной настройке микрофонов или использовании микрофонов не того типа (широкоформатных вместо узконаправленных) или при слишком малом расстоянии между спикерами, в результате чего, когда один спикер говорит в свой микрофон, его речь также улавливается и микрофоном другого спикера. Визуально это выглядит так:
И хорошо, если рисунок попавшего на запись "призрачного" эха от второго спикера такой, как у меня на скрине - это очень тихо, и убрать его можно практически любым шумодавом (noise reduction\denoise), лимитером (limiter) по низам, дакингом (ducking) или гейтом (gate). Но что если ситуация совсем патовая, и голос второго спикера, попавший на запись к первому, равен или местами даже превышает громкость тихих участков речи первого спикера? В этом случае ни одна программа или нейросеть не поймет, где заканчивается "призрачный" спикер, а где начинается настоящий.
Пример выглядит так:
В этом случае вам точно не помогут следующие инструменты (я их все попробовал, в разных комбинациях, где-то даже дублировал и менял настройки, где-то комбинировал с результатами, полученными из нейросетей, которые также не справились):
Что точно поможет: iZotope RX11, модуль De-Bleed. Данный модуль имеет два преимущества - машинное обучение и алгоритм вычитания одного звука из другого. Модуль анализирует запись с той аудиодорожки, на которой содержится чистая запись спикера, которого нужно удалить из главной записи, а затем применяет полученные данные и почти полностью убирает этот "призрачный" остаток с главной записи методом вычитания. В отличие от шумодавов, гейтов и прочего, упомянутого выше, не режутся те участки записи, которые по уровню громкости ниже, чем у паразитного звука. То есть вам не придется переслушивать весь подкаст на предмет того, а не скушала ли обработка тихие участки речи вашего спикера. Также в отличие от нейросетей тут нет никакой реконструкции звука, что не приводит к его искажению. И главное - процедуру можно безопасно провести с одной записью несколько раз и получить еще более приятный результат. В моем примере мне хватило одного раза, т.к. паразитное эхо стало настолько тихим, что уже и не проявлялось после звуковой обработке подкаста, которую я делаю с каждым новым видео.
Как работает:
1. Открываете iZotope RX11, через меню File загружаете сперва одну, затем вторую записи. Они будут размещены у вас по вкладкам сверху:
2) Открыв вкладку той записи, которую будем чистить, запускаем модуль De-Bleed. Он находится в меню модулей справа в разделе Repair:
3) В меню модуля выбираем ту дорожку, с которой будем брать данные для вычитания. То есть если вы запустили модуль на записи Mic1, в выпадающем списке выбираем Mic2:
4) Нажимаем кнопку Learn, чтобы модуль запустил алгоритм обучения. Процесс не очень долгий. На 14700K обучение на полуторачасовой записи занимает около 10 минут.
5) По завершении вы можете прослушать, что получилось - для этого жмакайте на кнопку Preview и ждите завершения короткого пре-рендера - либо сразу жмете на Render и применяете данные обучения на выбранном треке. Процесс также занимает время.
После этого можете экспортировать полученный результат в нужный формат.
спикер
подкаст
звук
izotope
de-bleed
чистка звука