Терм-документная матрица

Терм-документная матрица представляет собой математическую матрицу, описывающую частоту терминов, которые встречаются в коллекции документов. В терм-документной матрице строки соответствуют документам в коллекции, а столбцы соответствуют терминам. Существуют различные схемы для определения значения каждого элемента матрицы. Одной из таких является схема TF-IDF. Они полезны в области обработки естественного языка, особенно в методах латентно-семантического анализа.

Общая концепцияПравить

При создании базы данных терминов, используемых в наборе документов, матрица терминов формируется как матрица инцидентности, строки которой соответствуют документам, а элементы строк - наличию соответствующих терминов в этих документах. Например, если есть два коротких документа:

D1 = "Мне нравятся данные"
D2 = "Мне не нравятся данные",

то соответствующая матрица терминов будет иметь вид:

	Мне	нравятся	не нравятся	данные
D1	1	1	0	1
D2	1	0	1	1

который показывает, какие термины содержатся в тех или иных документах, и сколько раз они встречаются. Такой подход аналогичен использованию матрицы инцидентности при анализе предложений, образующих корпус слов^[1].

ПримечанияПравить

↑ Слюсар, В.И. Применение торцевого произведения матриц в задачах обработки естественного языка. (неопр.) Нейромережні технології та їх застосування НМТіЗ-2020: збірник наукових праць XIX Міжнародної наукової конференції «Нейромережні технології та їх застосування НМТіЗ-2020». - Краматорськ: Донбаська державна машинобудівна академія. -2020 . 156 - 162. (2020). Дата обращения: 12 декабря 2020. Архивировано 25 января 2021 года.

[1] Слюсар, В.И. Применение торцевого произведения матриц в задачах обработки естественного языка. (неопр.) Нейромережні технології та їх застосування НМТіЗ-2020: збірник наукових праць XIX Міжнародної наукової конференції «Нейромережні технології та їх застосування НМТіЗ-2020». - Краматорськ: Донбаська державна машинобудівна академія. -2020 . 156 - 162. (2020). Дата обращения: 12 декабря 2020. Архивировано 25 января 2021 года.

[1]