Это не официальный сайт wikipedia.org 01.01.2023

MateCat — Википедия

MateCat

MateCat (англ. CAT, Computer assisted translation, машинный перевод) — онлайн-средство машинного перевода. Сайт является бесплатным для переводческих компаний, переводчиков и корпоративных пользователей. MateCat является открытым кодом и свободным программным обеспечением.

MateCat
Страница редактирования инструмента MateCat.
Страница редактирования инструмента MateCat.
URL matecat.com

История создания программы Править

Название MateCat является аббревиатурой Machine Translation Enhanced Computer Assisted Translation (Машинный Перевод, Усовершенствоанный Компьютерный Перевод), это 3-летний исследовательский проект (длящийся с 11.2011 по 10.2014) финансируемый 7-ой Рамочной Программой Европейской Комиссии (Seventh Framework Programme (FP7)) для проведения исследований, технологических разработок и демонстраций в рамках финансируемого соглашения № 287688.[1] Проект получил грант в размере уже более 2.500.000 евро от Европейских фондов.[2]

Консорциум проекта возглавляет FBK (Fondazione Bruno Kessler), международный исследовательский центр, базирующийся в Тренто, Италия.

CAT Средства Править

Целью MateCat является создание инструмента для редактирования машинного перевода. Система способна учиться на ошибках, автоматически улучшаться со временем, а также специализироваться на узко-специализированном языке (например, юридической терминологии), чтобы предоставить пользователю наиболее точные предложения по переводу в полностью автоматизированной и легко понятной манере[3]

CAT Средства предоставляют доступ к архиву переводов, базам данных по терминологии, средствам языкового согласования и, с недавнего времени, к механизмам машинного перевода. В большинстве случаев архив переводов — это хранилище переведённых сегментов. Во время перевода CAT средства запрашивают в архиве переводов точные или примерные совпадения для текущего исходного сегмента. Эти совпадения предлагаются пользователю в качестве вариантов перевода. Как только сегмент переведен, его оригинал и текст перевода добавляются в архив переводов для будущих запросов. Интеграция предложений от механизмов машинного перевода в качестве дополнения к совпадениям в архиве переводов обоснована недавними исследованиями[4][5][6], которые показали, что редактирование вариаантов, предлагаемых системой машинного перевода, существенно повышает качество переведённого текста.

Технологии Править

MateCat работает как веб-сервер, доступный через браузер. Веб-сервер CAT соединяется с другими сервисами через общедоступные приложения: архив переводов MyMemory[7], коммерческий сервер машинного перевода Google Translate, и серверы базе Moses[8], указанные в конфигурационном файле. В то время как серверы MyMemory и GT всегда работают и доступны, специализированные серверы Moses должны быть сначала установлены и настроены. Связь с серверами Moses расширяет возможности общедоступного сервиса Google Translate для поддержки самонастраивающихся, адаптированных под пользователя и информативных функций машинного перевода. XLIFF[9] — формат файла, изначально поддерживаемый версией инструмента MateCat с открытым исходным кодом; однако внешние преобразователи файлов также могут быть добавлены в конфигурацию MateCat. Инструмент поддерживает кодировку Unicode (UTF-8), включая не-латинские алфавиты и языки с написанием справа налево, а также обрабатывает тексты с встроенной разметкой.

Поддержка серверов Moses улучшает связь машинного перевода с CAT. В частности, перевод, предлагаемый Google Translate, дополняется информацией об обратной связи, при каждом редактировании текущего сегмент, а также обогащается информацией системы машинного перевода, включая рейтинг достоверности, рекомендуемые сочетания слов и т. д. Разработанный сервер машинного перевода поддерживает многопоточность для одновременного обслуживания нескольких переводчиков, обрабатывает текстовые сегменты, включая встроенную разметку, и адаптируется к редакторским правкам, выполняемым каждым пользователем[10]

Во время редактирования MateCat собирает информацию о времени работы с каждым сегмента, которая обновляется каждый раз, когда сегмент открывается и закрывается. Более того, для каждого сегмента сохраняется информация о всех вариантах перевода, предложенных системой, и о том варианте, который был выбран при окончательном редактировании. Эта информация доступна в любое время по ссылке «Редакция» на странице редактирования (Рис.1). Кроме того, для каждого сегмента, отсортированного от самого медленного до самого быстрого с точки зрения скорости перевода, сообщается подробная статистика о времени операций редактирования, что является источником информации для анализа производительности после завершения проекта.

Примечания Править

  1. José, M., & Machado, B. (2014). Free and open-source software — a translator’s good friend, 3. Retrieved from http://ec.europa.eu/translation/portuguese/magazine Архивная копия от 20 января 2022 на Wayback Machine
  2. EUROPEAN COMMISSION. (2017). EUROPEAN COMMISSION STAFF WORKING DOCUMENT INTERIM EVALUATION of HORIZON 2020 ANNEX 2. Brussels. Retrieved from http://ec.europa.eu/transparency/regdoc/rep/10102/2017/EN/SWD-2017-221-F1-EN-MAIN-PART-12.PDF Архивная копия от 2 июля 2018 на Wayback Machine
  3. MateCat  (неопр.). Дата обращения: 11 января 2021. Архивировано 15 декабря 2019 года.
  4. Marcello, Federico, Cattelan, Alessandro, Trombetti, Marco. Measuring user productivity in machine translation enhanced computer assisted translation (англ.) // Proceedings of the Tenth Conference of the Association for Machine Translation in the Americas (AMTA). — 2012. Архивировано 30 октября 2014 года.
  5. Green, Spence, Heer, Jeffrey, Manning, Christopher. The efficacy of human post-editing for language translation (англ.) // Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. — 2013. — P. 439–448. Архивировано 1 марта 2019 года.
  6. Läubli, Samuel, Fishel, Mark, Massey, Gary, Ehrensberger-Dow, Maureen, Volk, Martin. Assessing Post-Editing Efficiency in a Realistic Translation Environment (англ.) // Proceedings of MT Summit XIV Workshop on Post-editing Technology and Practice / Michel Simard Sharon O'Brien and Lucia Specia (eds.). — Nice, France, 2013. — P. 83–91. Архивировано 23 апреля 2018 года.
  7. MyMemory is the world's largest Translation Memory (TM) built collaboratively via MT and human contributions (англ.). Mymemory.translated.net. Дата обращения: 30 октября 2014. Архивировано 9 февраля 2010 года.
  8. Moses is the most popular open source statistical MT toolkit (англ.). Statmt.org. Дата обращения: 30 октября 2014. Архивировано 8 февраля 2010 года.
  9. Docs.oasis-open.org (англ.). Docs.oasis-open.org. Дата обращения: 30 октября 2014. Архивировано 29 октября 2014 года.
  10. Nicola Bertoldi, Mauro Cettolo, and Marcello Federico. 2013. Cache-based Online Adaptation for Machine Translation Enhanced Computer Assisted Translation. In Proceedings of the MT Summit XIV, pages 35-42, Nice, France, September.

Ссылки Править