Триграмма (анализ текста)
Триграммы являются частным случаем n-грамм, где n равно 3. Они часто используются в обработке естественного языка для проведения статистического анализа текстов и в криптографии для контроля и использования шифров и кодов.
ЧастотностьПравить
Контекст очень важен, варьирование рангов и процентов анализа легко выводится на основе разных размеров выборки, разных авторов; или разных типов документов: поэзия, научная фантастика, технологическая документация; и уровней написания: рассказы для детей против взрослых, военные приказы и рецепты. [1][2]
Типичный криптоаналитический частотный анализ показывает, что 16 наиболее распространенными триграммами уровня символов в английском языке являются:
Место[2] | Триграмма | Частотность[3] (Разные источники) |
---|---|---|
1 | the | 1.81 % |
2 | and | 0.73 % |
3 | tha | 0.33 % |
4 | ent | 0.42 % |
5 | ing | 0.72 % |
6 | ion | 0.42 % |
7 | tio | 0.31 % |
8 | for | 0.34 % |
9 | nde | |
10 | has | |
11 | nce | |
12 | edt | |
13 | tis | |
14 | oft | 0.22 % |
15 | sth | 0.21 % |
16 | men |
Поскольку в шифрованных сообщениях, отправляемых по телеграфу, часто опускаются знаки препинания и пробелы, криптографический частотный анализ таких сообщений включает триграммы, которые пересекают границы слов. Это приводит к тому, что такие триграммы, как «edt», встречаются часто, хотя они могут никогда не встречаться ни в одном слове этих сообщений.[4]
ПримерыПравить
Предложение «The quick red fox jumps over the lazy brown dog» имеет следующие триграммы на уровне слов:
the quick red quick red fox red fox jumps fox jumps over jumps over the over the lazy the lazy brown lazy brown dog
А триграмма уровня слова «the quick red» имеет следующие триграммы уровня символов (где знак подчеркивания «_» обозначает пробел):
the he_ e_q _qu qui uic ick ck_ k_r _re red
ПримечанияПравить
- ↑ Linton, Tom Relative Frequencies of Letters in General English Plain text (неопр.). Central College (2001). Архивировано 22 января 2007 года.
- ↑ 1 2 Lewand, Robert. [[1] в «Книгах Google» Cryptological Mathematics]. — The Mathematical Association of America, 2000. — P. 37. — ISBN 978-0-88385-719-9.
- ↑ English Letter Frequencies (неопр.). Practical Cryptography. Дата обращения: 31 мая 2022. Архивировано 12 мая 2022 года.
- ↑ Voice Search SEO (неопр.). Fuelonline. Дата обращения: 31 мая 2022. Архивировано 25 сентября 2021 года.