Синхронный автоматический перевод

Синхронный автоматический перевод (Speech-to-Speech Real-Time Translation) — «моментальный» машинный перевод речи, с одного естественного языка на другой, с помощью специальных программных и технических средств^{[источник не указан 3458 дней]}. Так же называется направление научных исследований, связанных с построением подобных систем^{[источник не указан 3458 дней]}.

В отличие от печатного текста или искусственных сигналов, естественная речь не допускает простого и однозначного членения на элементы (фонемы, слова, фразы), поскольку они не имеют явных физических границ. Границы слов в потоке речи автоматически могут быть определены лишь в ходе распознавания посредством подбора оптимальной последовательности слов, наилучшим образом согласующейся с входным потоком речи по акустическим, лингвистическим, семантическим и иным критериям. ^[1]

ИсторияПравить

Июнь 2012 года — Программа для автоматического синхронного перевода (Технологический институт города Карлсруэ (федеральная земля Баден-Вюртемберг, Германия)^[2]. Устройство переводит устные лекции преподавателей института с немецкого на английский язык и воспроизводит перевод в виде субтитров^[3].

Октябрь 2012 года — Автоматический, почти синхронный голосовой перевод с английского на путунхуа. Разработчик — Microsoft.^[4] Система машинного обучения, на основе искусственных нейронных сетей (Deep Neural Networks), которая сокращает непонимание до каждого седьмого−восьмого слова. Но самое большое достижение — это, генерация речи с сохранением модуляций голоса говорящего.^[5]

Ноябрь 2012 года — Открывшийся сервис, японского мобильного оператора NTT Docomo, позволяет абонентам, говорящим на разных языках общаться в режиме реального времени.^[6] Языки, поддерживаемые сервисом: (японский <-> английский), (японский <-> корейский), (японский <-> китайский).^[7]

Май 2015 года — Появился Blabber Messenger, который переводит речь на 14 языков, а чат на 88.

Принцип работыПравить

Процесс электронного перевода речи (S2S Real-Time Translation), как правило, включает следующие три этапа)^[8]^[9]:

автоматическое распознавание речи (ASR — automatic speech recognition) — преобразование речи в текст;
машинный перевод (MT — Machine Translation); — автоматический перевод текста с одного языка на другой.
синтез речи (TTS — text-to-speech) — технология, которая даёт возможность произнести текст голосом, приближенным к естественному.

Говорящий на языке A говорит в микрофон, а модуль распознавания речи признаёт^[что?] произнесённое. Происходит сравнение входных данных с фонологическими моделями, состоящими из большого количества речевых библиотек. Отфильтрованное таким образом, используя словарь и грамматику языка А, преобразуется в строку слов, основанную на массиве фразы языка^{[неизвестный термин]} А. Модуль автоматического перевода преобразует эту строку. Ранние системы заменяли каждое слово, с соответствующим словом в языке B. Более совершенные системы не используют дословный перевод, а принимают во внимание весь контекст фразы, чтобы произвести соответствующий перевод. Созданный перевод передаётся в модуль синтеза речи, который оценивает произношение и интонацию, соответствующую ряду слов из массива речевых данных языка B. Данные, соответствующие фразе, отбираются, соединяются и выводятся в необходимой потребителю форме на языке В.

Системы перевода речиПравить

Системы перевода речи (ST — Speech Translation)^[10], состоят из двух основных компонентов: Автоматическое распознавание речи (ASR — automatic speech recognition) и Машинный перевод (MT — Machine Translation) и различаются:

Работающие «на клиенте» (client-based).
По принципу «клиент-сервер» (client-server) (OnLine service).

Распознавание слитной спонтанной речи — конечная цель всех усилий по распознаванию речи. Автоматическое распознавание речи разделяют, на привязку и её отсутствие, к голосу конкретного человека.

Если рассматривать классическую схему «наука-технологии-практические сист

емы», то, наиболее серьёзные проблемы в которых будет работать практическая система автоматического распознавания или понимания речи, возникают при условиях:^[11]

— произвольный, наивный пользователь;
— спонтанная речь, сопровождаемая аграмматизмами и речевым «мусором»;
— наличие акустических помех и искажений, в том числе меняющихся;
— наличие речевых помех.

Обобщённая классификация систем распознавания речи. См.( ^[12])

Традиционно системы машинного перевода делятся на категории:^[13]^[14]^[15]

Rule-Based Machine Translation (RBMT) — системы, основанные на правилах, которые описывают языковые структуры и их преобразования.
Example-Based MT (EBMT) — системы на примерах двух текстов, один из которых является переводом другого.
Statistical Machine Translation (SMT) — статистический машинный перевод^[16] — разновидность машинного перевода текста, основанная на сравнении больших объёмов языковых пар.
Hybrid Machine Translation (SMT + RBMT) — Гибридные модели «… где ожидается прорыв в качестве перевода».^[15]

Границы между системами Example-based и Rule-based не очень чёткие, поскольку и те и другие используют словари и правила работы со словарями.

Статистический машинный переводПравить

Статистический машинный перевод основан на поиске наиболее вероятного перевода предложения, с использованием данных двуязычного корпуса (Parallel Corpora) — Битекст. В результате при выполнении перевода компьютер не оперирует лингвистическими алгоритмами, а вычисляет вероятность применения того или иного слова или выражения. Слово или последовательность слов, имеющие оптимальную вероятность, считаются наиболее соответствующими переводу исходного текста и подставляются компьютером в получаемый в результате текст. В статистическом машинном переводе ставится задача не перевода текста, а задача его расшифровки.

Типичная архитектура статистических систем МП.^[17]^[18]

Одноязычный корпус (язык перевода).
Языковая модель — набор n-грамм (последовательностей словоформ длины n) из корпуса текстов.
Параллельный корпус.
Фразовая таблица — таблица соответствий фраз исходного корпуса и корпуса переводов с некоторыми статистическими коэффициентами.
Статистический декодер — среди всех возможных вариантов перевода, выбирает наиболее вероятный.

В качестве языковой модели в системах статистического перевода используются преимущественно различные модификации n-граммной модели, утверждающей, что <грамматичность> выбора очередного слова при формировании текста определяется только тем, какие(n-1)слов идут перед ним.^[18]

n-граммы.
- — Достоинства: — высокое качество перевода, для фраз, которые целиком помещаются в n-граммную модель.
- — Недостатки: — качественный перевод возможен только для фраз, которые целиком помещаются в n-граммную модель.

Преимущества SMT

Быстрая настройка
Легко добавлять новые направления перевода
Гладкость перевода

Недостатки SMT

<Дефицит> параллельных корпусов
Многочисленные грамматические ошибки
Нестабильность перевода

Системы, которые не используют обучение, называются «Speaker Independent» системы. Системы, использующие обучение, — «Speaker Dependent» системы.

Системы МП, основанные на правилах «Rule-Based»Править

Системы машинного перевода основанные на правилах (Rule-Based Machine Translation), подразделяются:^[15]^[19]

системы пословного перевода;
трансферные системы (Transfer) — преобразуют структуры входного языка в грамматические конструкции выходного языка;
интерлингвистические системы (Interlingua)- промежуточный язык описания смысла.

Компоненты типичной RBMT:

Лингвистические базы данных: — двуязычные словари; — файлы имен, транслитерации; — морфологические таблицы.
Модуль перевода: — грамматические правила; — алгоритмы перевода.

Особенности RBMT систем:

Преимущества: — синтаксическая и морфологическая точность; — стабильность и предсказуемость результата; — возможность настройки на предметную область.
Недостатки: — трудоемкость и длительность разработки, — необходимость поддерживать и актуализировать лингвистические БД; — «машинный акцент» при переводе.

Гибридные модели SMT + RBMTПравить

Архитектура Гибридной технологии:^[15]

Обучение: Параллельный корпус->Обучение: — Модель языка; — Данные для постредактирования; — Правила синтеза; — Словарь терминологии.
Эксплуатация: Гибридный перевод.

Этапы Гибридной технологии:

Обучение RBMT на основе параллельного корпуса с использованием статистических технологий;
Эксплуатация на основе натренированной системы.

Системы синтеза речиПравить

Типичная архитектура «Text-to-Speech» System.^[20]

Анализ текста: — Определение структуры текста; — Нормализация текста; — Лингвистический анализ.
Фонетический анализ: — Графо — Фонетическое преобразование.
Анализ просодики: — Шаг & Длительность словосочетаний.
Синтез речи (Speech Synthesis): — Рендеринг голоса.

В свою очередь, синтез речи разделяют на группы^[21]:

параметрический синтез;
конкатенативный, или компиляционный (компилятивный) синтез;
синтез по правилам;
предметно-ориентированный синтез.

ШумоочисткаПравить

Источники шумов в речевых системах:^[22] — помехи от микрофонов, провода, АЦП (аналогово-цифровой преобразователь), внешние шумы, возникающие в окружении говорящего.

Классификация шумов относительно их характеристик:

периодический / непериодический шум;
ширина диапазона частот, в котором распределяется энергия шума: — широкополосные (ширина полосы частот более 1 кГц) и узкополосные шумы (ширина полосы частот менее 1 кГц);
речевой шум, состоящий из голосов людей, окружающих говорящего.

Наиболее опасным по своему влиянию на речевой сигнал и наиболее трудноудаляемым шумом считается белый шум: — непериодичный шум, спектральная плотность которого равномерно распределена по всей области частот.

В области систем распознавания речи в шуме, существует следующие подходы:

Разработчики не обращают внимания на шум.
Сначала избавляются от шума, а затем распознают очищенный речевой сигнал. Эта концепция обычно используется при разработке систем шумоочистки в качестве дополнительного модуля систем распознавания.
Распознавание зашумленного сигнала без его предварительного улучшения, при котором изучается, каким же образом человек распознает и понимает зашумленную речь; ведь он не производит предварительной фильтрации речевого сигнала для того, чтобы очистить его от шума.

Методы достижения помехозащищённости:

сводятся либо к выделению некоторых инвариантных относительно шума признаков, либо к обучению в условиях шума или модификации эталонов распознавания с использованием оценки уровня шумов.

Слабым местом подобных методов является ненадежная работа систем распознавания, настроенных на распознавание в шуме, в условиях отсутствия шумов, а также сильная зависимость от физических характеристик шума.

Вычисление коэффициентов линейного предсказания. В качестве элементов эталонов, вместо численных значений используются вероятностные распределения (среднее математическое, дисперсия).
Цифровая обработкой сигнала: — методы маскировки шумов (численные значения, сравнимые с характеристиками шума, игнорируются или используются с меньшими весовыми коэффициентами) и методы шумоподавления с использованием нескольких микрофонов (например, очистка от низкочастотных шумов с использованием микрофона с одной стороны устройства и высокочастотных — с другой стороны).
Очистка полезного сигнала от посторонних шумов, с использованием массивов микрофонов, моделирующих направленный микрофон с переменным лучом направления (простейший метод «задержки и суммирования» или более сложный с модификацией весов микрофонов).

Модели и методы оптимизацииПравить

Большинство существующих метрик автоматической оценки машинного перевода, основаны на сравнении с человеческим эталоном.^[17]

При обучении Speech Translation System, применяют следующие методы оптимизаций качества и скорости перевода: ^[10]^[23]^[24]^[25]

Каскадное ASR/WER с MT/BLEU

Автоматическое распознавание речи (ASR — automatic speech recognition)

ASR/WER (Word Error Rate) — вероятность ошибки в кодовом слове;
ASR/PER (Position-independent Word Error Rate)- вероятность ошибок позиционно-независимых слов (в разных предложениях);
ASR/CSR (Command Success Rate) — вероятность успешного выполнения команды.

Машинный перевод (MAT — Machine-Assisted Translation)

MT/BLEU (Bilingual Evaluation Understudy) — вероятность совпадение перевода с образцом.

ОсобенностиПравить

Помимо проблем, связанных с переводом текста, синхронный перевод речи имеет дело с особыми проблемами, включая бессвязность разговорного языка, меньше ограничений грамматики разговорного языка, неясной границы слова разговорного языка и коррекции ошибок распознавания речи. Кроме того, у синхронного перевода есть свои преимущества по сравнению с переводом текста, в том числе менее сложную структуру разговорного языка и меньше лексики в разговорном языке.

СтандартыПравить

Когда много стран начнут исследовать и развивать речевой перевод, будет необходимо стандартизировать интерфейсы и форматы данных, чтобы гарантировать, что системы взаимно совместимы.

Международное объединённое исследование, создаётся речевыми консорциумами перевода:

(C-STAR) Consortium for Speech Translation Advanced Research — международный консорциум по переводу речи для объединённого исследования речевого перевода;
(A-STAR) Asia-Pacific — для Азиатско-Тихоокеанского региона.

Они были основаны как международная объединённая исследовательская организация, по проектированию форматов двуязычных стандартов, которые важны, для продвижения научных исследований этой технологии и стандартизации интерфейсов и форматов данных, чтобы соединить речевой модуль перевода на международном уровне.[1]

Оценки качества переводаПравить

BLEU (Bilingual Evaluation Understudy) — алгоритм оценки-оптимизации качества текста, машинного перевода.
WER (Word Error Rate) — алгоритм оценки-оптимизации качества текста, машинного перевода.
Классификатор «Речь/не речь» (speech/non-speech) — определяющий вероятность правильного распознавания речи. Компромисс между определением, голос как шум или шум как голос (Type I and type II errors).

См. такжеПравить

Автоматическое распознавание речи
Автоматизированный перевод
Машинный перевод
Синтез речи
Искусственная нейронная сеть (Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами)

ЛитератураПравить

Переводческие технологии для Европы.-М.:МЦБС,2008.
Патент RU 2419142: Система автоматического перевода речь в речь
ГОСТ Р 52633.5-2011 «Защита информации. Техника защиты информации. Автоматическое обучение нейросетевых преобразователей биометрия-код доступа» — построен на алгоритме обучения, имеющем линейную вычислительную сложность и высокую устойчивость. (Первый в мировой практике стандарт по автоматическому обучению искусственных нейронных сетей)
A. Waibel, «Speech Translation Enhanced Automatic Speech Recognition», in Interactive Systems Laboratories,Universitat Karlsruhe (Germany),Carnegie Mellon University (USA),2005.
Dong Yu, «Транскрипция разговорной речи, с помощью контекстно-зависимой глубокой нейронной сети»,Microsoft Research,2011.
Dong Yu, Li Deng, «Deep Neural Network or Gaussian Mixture Model?»,Microsoft Research,2012.
Xuedong Huang, «Spoken Language Processing: a guide to Theory, Algorithm, and System Development, page 1-980», Microsoft Research, 2000.

СсылкиПравить

Simultaneous Translation: University without Language Barriers
В Германии разработана программа для синхронного перевода лекций
Speech Recognition Breakthrough for the Spoken, Translated Word // Microsoft Corporation, 7 November 2012
Microsoft показывает почти мгновенный перевод с английского языка на китайский
NTT DOCOMO to Introduce Mobile Translation of Conversations and Signage
Японцы презентовали систему автоматического перевода телефонных разговоров
Protocols of Network-based Speech-to-Speech Translation
«Прогноз на исследования и разработку речевых технологий перевода.» by Satoshi, Nakamura in Science & Technology Trends — Quarterly Review No.31 April 2009.
[2] (недоступная ссылка с 18-05-2013 [3594 дня]) «Architectural overview of speech-centric information processing systems»
[3] Automatic Speech-to-Speech Translator from IBM
[4] S2S Real-Time Translation from AT&T Labs
[5] S2S Real-Time Translation from Nokia Research Center

ПримечанияПравить

↑ http://www.proceedings.spiiras.nw.ru/data/src/2010/12/00/spyproc-2010-12-00-01.pdf (недоступная ссылка)
↑ KIT - KIT - Media - Press Releases - Archive Press Releases - Simultaneous Translation: University without Language Barriers (неопр.). Дата обращения: 1 февраля 2013. Архивировано 21 мая 2013 года.
↑ В Германии разработана программа для синхронного перевода лекций | Новости переводов (неопр.). Дата обращения: 1 февраля 2013. Архивировано 13 ноября 2012 года.
↑ Speech Recognition Breakthrough for the Spoken, Translated Word - Microsoft Research (неопр.). Дата обращения: 17 февраля 2013. Архивировано 15 марта 2013 года.
↑ Microsoft показывает почти мгновенный перевод с английского языка на китайский / Хабрахабр (неопр.). Дата обращения: 1 февраля 2013. Архивировано 15 марта 2013 года.
↑ Японцы презентовали систему автоматического перевода телефонных разговоров (неопр.). Дата обращения: 30 апреля 2020. Архивировано 25 января 2021 года.
↑ NTT DOCOMO to Introduce Mobile Translation of Conversations and Signage | Press Center | NTT DOCOMO Global (неопр.). Дата обращения: 13 февраля 2013. Архивировано 16 февраля 2013 года.
↑ IBM Research | Speech-to-Speech Translation (неопр.). Дата обращения: 17 февраля 2013. Архивировано 15 марта 2013 года.
↑ Источник (неопр.). Дата обращения: 15 февраля 2013. Архивировано 4 марта 2016 года.
↑ ¹ ² People — Microsoft Research (неопр.). Дата обращения: 22 февраля 2013. Архивировано 23 марта 2014 года.
↑ Современные проблемы в области распознавания речи. - Auditech.Ltd (неопр.). Дата обращения: 3 марта 2013. Архивировано из оригинала 15 июля 2013 года.
↑ Account Suspended (неопр.). Дата обращения: 2 марта 2013. Архивировано 27 ноября 2013 года.
↑ en:Machine translation
↑ Архивированная копия (неопр.). Дата обращения: 24 февраля 2013. Архивировано из оригинала 18 декабря 2011 года.
↑ ¹ ² ³ ⁴ Источник (неопр.). Дата обращения: 27 февраля 2013. Архивировано 25 июня 2012 года.
↑ Speech Recognition, Machine Translation, and Speech Translation — A Unified Discriminative Learning Paradigm — Microsoft Research (неопр.). Дата обращения: 22 февраля 2013. Архивировано 23 марта 2014 года.
↑ ¹ ² Архивированная копия (неопр.). Дата обращения: 23 февраля 2013. Архивировано из оригинала 9 ноября 2012 года.
↑ ¹ ² Статистическая система машинного перевода (Distributed statistical machine translation system) | Ilya (w-495) Nikitin - Academia.edu (неопр.). Дата обращения: 19 марта 2013. Архивировано 22 марта 2013 года.
↑ Статистическая система машинного перевода (Distributed statistical machine translation system) | Ilya (w-495) Nikitin - Academia.edu (неопр.). Дата обращения: 18 марта 2013. Архивировано 22 марта 2013 года.
↑ Источник (неопр.). Дата обращения: 22 февраля 2013. Архивировано 24 декабря 2012 года.
↑ Сорокин В. Н. Синтез речи. — М.: Наука, 1992, с. 392.
↑ http://www.sovmu.spbu.ru/main/sno/uzmf2/uzmf2_22.pdf (недоступная ссылка)
↑ Источник (неопр.). Дата обращения: 24 февраля 2013. Архивировано 23 января 2014 года.
↑ Архивированная копия (неопр.). Дата обращения: 25 февраля 2013. Архивировано из оригинала 18 июня 2006 года.
↑ Источник (неопр.). Дата обращения: 25 февраля 2013. Архивировано 23 марта 2014 года.

[spiiras1Ref-1] ttp://www.proceedings.spiiras.nw.ru/data/src/2010/12/00/spyproc-2010-12-00-01.pdf (недоступная ссылка)

[2] KIT - KIT - Media - Press Releases - Archive Press Releases - Simultaneous Translation: University without Language Barriers (неопр.). Дата обращения: 1 февраля 2013. Архивировано 21 мая 2013 года.

[3] В Германии разработана программа для синхронного перевода лекций | Новости переводов (неопр.). Дата обращения: 1 февраля 2013. Архивировано 13 ноября 2012 года.

[MicrosoftRef-4] Speech Recognition Breakthrough for the Spoken, Translated Word - Microsoft Research (неопр.). Дата обращения: 17 февраля 2013. Архивировано 15 марта 2013 года.

[5] Microsoft показывает почти мгновенный перевод с английского языка на китайский / Хабрахабр (неопр.). Дата обращения: 1 февраля 2013. Архивировано 15 марта 2013 года.

[6] Японцы презентовали систему автоматического перевода телефонных разговоров (неопр.). Дата обращения: 30 апреля 2020. Архивировано 25 января 2021 года.

[7] NTT DOCOMO to Introduce Mobile Translation of Conversations and Signage | Press Center | NTT DOCOMO Global (неопр.). Дата обращения: 13 февраля 2013. Архивировано 16 февраля 2013 года.

[ibmRef-8] IBM Research | Speech-to-Speech Translation (неопр.). Дата обращения: 17 февраля 2013. Архивировано 15 марта 2013 года.

[KITRef-9] Источник (неопр.). Дата обращения: 15 февраля 2013. Архивировано 4 марта 2016 года.

[STRef-10] ¹ ² People — Microsoft Research (неопр.). Дата обращения: 22 февраля 2013. Архивировано 23 марта 2014 года.

[auditechRef-11] Современные проблемы в области распознавания речи. - Auditech.Ltd (неопр.). Дата обращения: 3 марта 2013. Архивировано из оригинала 15 июля 2013 года.

[fetRef-12] Account Suspended (неопр.). Дата обращения: 2 марта 2013. Архивировано 27 ноября 2013 года.

[Machine_translationRef-13] :Machine translation

[SRecRef-14] Архивированная копия (неопр.). Дата обращения: 24 февраля 2013. Архивировано из оригинала 18 декабря 2011 года.

[promtRef-15] ¹ ² ³ ⁴ Источник (неопр.). Дата обращения: 27 февраля 2013. Архивировано 25 июня 2012 года.

[SMTRef-16] Speech Recognition, Machine Translation, and Speech Translation — A Unified Discriminative Learning Paradigm — Microsoft Research (неопр.). Дата обращения: 22 февраля 2013. Архивировано 23 марта 2014 года.

[autogenerated20130228-1-17] ¹ ² Архивированная копия (неопр.). Дата обращения: 23 февраля 2013. Архивировано из оригинала 9 ноября 2012 года.

[SMT1Ref-18] ¹ ² Статистическая система машинного перевода (Distributed statistical machine translation system) | Ilya (w-495) Nikitin - Academia.edu (неопр.). Дата обращения: 19 марта 2013. Архивировано 22 марта 2013 года.

[ReferenceB-19] Статистическая система машинного перевода (Distributed statistical machine translation system) | Ilya (w-495) Nikitin - Academia.edu (неопр.). Дата обращения: 18 марта 2013. Архивировано 22 марта 2013 года.

[sysRef-20] Источник (неопр.). Дата обращения: 22 февраля 2013. Архивировано 24 декабря 2012 года.

[ReferenceA-21] Сорокин В. Н. Синтез речи. — М.: Наука, 1992, с. 392.

[sovmuRef-22] ttp://www.sovmu.spbu.ru/main/sno/uzmf2/uzmf2_22.pdf (недоступная ссылка)

[ST_RateRef-23] Источник (неопр.). Дата обращения: 24 февраля 2013. Архивировано 23 января 2014 года.

[IBM_RateRef-24] Архивированная копия (неопр.). Дата обращения: 25 февраля 2013. Архивировано из оригинала 18 июня 2006 года.

[CSDRef-25] Источник (неопр.). Дата обращения: 25 февраля 2013. Архивировано 23 марта 2014 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]