Речевой корпус
Речево́й ко́рпус (звуково́й ко́рпус) — база данных аудиофайлов и транскрипций текстов, разновидность корпуса текстов. В речевых технологиях[en] речевые корпуса используются, среди прочего, для создания акустических моделей[en] (которые затем могут использоваться в механизмах распознавания речи). В лингвистике речевые корпуса используются для исследований фонетики, диалектологии, конверсационного анализа и в других областях.
Существует два типа речевых корпусов:
1.Базы начитанных текстов, в том числе:
- тексты книг;
- тексты трансляций новостей;
- списки слов;
- последовательности чисел.
2.Базы аудиозаписей спонтанной речи — в том числе:
- диалоги — беседы между двумя или более людьми;
- устные рассказы (например, Buckeye Corpus[1]);
- картографические пояснения — один человек объясняет маршрут на карте другим;
- задачи назначения — два человека пытаются найти общее время встречи, основанное на отдельных графиках.
Особый вид речевых корпусов — это базы данных текстов, наговоренных людьми, не являющимися носителями языка[en], которые содержат речь с иностранным акцентом.
ПримечанияПравить
- ↑ Buckeye Corpus (неопр.). Дата обращения: 6 апреля 2018. Архивировано 23 марта 2018 года.
ЛитератураПравить
- Edwards, Jane / Lampert, Martin (eds.) (1992): Talking Data — Transcription and Coding in Discourse Research. Hillsdale: Erlbaum.
- Leech, Geoffrey / Myers, Greg / Thomas, Jenny (eds.) (1995): Spoken English on Computer: Transcription, Markup and Application. Harlow: Longman.
СсылкиПравить
- Santa Barbara Corpus of Spoken American English
- Buckeye Corpus The Buckeye Corpus of Conversational Speech
- Spoken Language Corpora at the Research Center on Multilingualism
- The Spoken Turkish Corpus at METU Ankara
- Spoken Corpus Klient with the Corp-Oral Corpus at ILTEC Lisbon
- VoxForge — open source speech corpora
- OLAC: Open Language Archives Community
- BAS Bavarian Archive for Speech Signals
- Simmortel Speech Recognition Corpus for Indian English and Hindi
- ELRA: the European Language Resources Association
- The PELCRA Conversational Corpus of Polish
- The Arabic Speech Corpus