Adobe Voco

Adobe Voco — программное обеспечение для редактирования и генерации прототипов аудио от Adobe, которое позволяет осуществлять редактирование и генерацию звука. Названный «Photoshop-for-voice»^[1], Voco был впервые представлен на мероприятии Adobe MAX в ноябре 2016 года. Технология, показанная в Adobe MAX, была предварительным просмотром, который потенциально мог быть включен в Adobe Creative Cloud. По состоянию на 27 октября 2019 года Adobe еще не выпустила дополнительную информацию о потенциальной дате выпуска.

Технические деталиПравить

Как показала демонстрация, программное обеспечение берет приблизительно 20 минут речи желаемой цели, а затем генерирует похожий на звук голос даже с фонемами, которых не было в материале примера цели. Adobe заявила, что Voco снизит стоимость производства аудио.^[1] С внедрением Adobe Voco и аналогичной технологии WaveNet, созданной DeepMind.^[2]

ПроблемыПравить

Были высказаны этические соображения и проблемы безопасности в связи с возможностью изменить аудиозапись, включив в нее слова и фразы, которые первоначальный говорящий никогда не произносил, и потенциальным риском для биометрических данных голосовых отпечатков.^[1]

Также существуют опасения, что его можно использовать в сочетании с:

Синтезом человеческого изображения, который с начала 2000-х годов достиг такого уровня подобия, что проводить различие между человеком, записанным с помощью камеры, и имитацией человека очень сложно.^[3]
Видео манипулирование выражениями лица человека практически в реальном времени с использованием существующего 2D-видео RGB.^[4]

АльтернативыПравить

Отсутствие публичного прогресса в Adobe открыло возможности для других компаний создавать альтернативные продукты VOCO, такие как LyreBird.^[5]

WaveNet - это аналогичный, но открытый исследовательский проект для лондонской фирмы по искусственному интеллекту DeepMind, разработанный независимо в то же время, что и Adobe Voco.

СсылкиПравить

↑ ¹ ² ³ Adobe Voco 'Photoshop-for-voice' causes concern (неопр.). BBC.com. BBC (7 ноября 2016). Дата обращения: 5 июля 2016. Архивировано 7 ноября 2016 года.
↑ WaveNet: A Generative Model for Raw Audio (неопр.). Deepmind.com (8 сентября 2016). Дата обращения: 24 мая 2017. Архивировано 27 мая 2017 года.
↑ Rodgers, Julian Adobe Voco - Should We Be Afraid? (неопр.) Production Expert. Pro Tools. Дата обращения: 14 декабря 2018. Архивировано 16 декабря 2019 года.
↑ Thies, Justus Face2Face: Real-time Face Capture and Reenactment of RGB Videos (неопр.). Proc. Computer Vision and Pattern Recognition (CVPR), IEEE (2016). Дата обращения: 18 июня 2016. Архивировано 12 июня 2016 года.
↑ Lyrebird - Create a digital copy of voice (англ.). lyrebird.ai. Дата обращения: 27 марта 2018. Архивировано 24 апреля 2018 года.

[BBC2016-1] ¹ ² ³ Adobe Voco 'Photoshop-for-voice' causes concern (неопр.). BBC.com. BBC (7 ноября 2016). Дата обращения: 5 июля 2016. Архивировано 7 ноября 2016 года.

[deepmind.com2016-2] WaveNet: A Generative Model for Raw Audio (неопр.). Deepmind.com (8 сентября 2016). Дата обращения: 24 мая 2017. Архивировано 27 мая 2017 года.

[RodgersAdobeVoco-3] Rodgers, Julian Adobe Voco - Should We Be Afraid? (неопр.) Production Expert. Pro Tools. Дата обращения: 14 декабря 2018. Архивировано 16 декабря 2019 года.

[Thi2016-4] Thies, Justus Face2Face: Real-time Face Capture and Reenactment of RGB Videos (неопр.). Proc. Computer Vision and Pattern Recognition (CVPR), IEEE (2016). Дата обращения: 18 июня 2016. Архивировано 12 июня 2016 года.

[5] Lyrebird - Create a digital copy of voice (англ.). lyrebird.ai. Дата обращения: 27 марта 2018. Архивировано 24 апреля 2018 года.

[1]

[2]

[3]

[4]

[5]