Энтропия языка
Энтропия языка — статистическая функция текста на определённом языке либо самого языка, определяющая количество информации на единицу текста.
С математической точки зрения энтропия языка определяется как
где — сообщение, — его энтропия, — длина сообщения.
Согласно Клоду Шеннону и Томасу Каверу (англ. Thomas Cover), для английского языка эта величина составляет от 1,3 до 2,3 бита на букву.
ЛитератураПравить
- Шнайер Б. Глава 11. Математические основы. Энтропия языка. // Прикладная криптография. Протоколы, алгоритмы, исходные тексты на языке Си = Applied Cryptography. Protocols, Algorithms and Source Code in C. — М.: Триумф, 2002. — С. 269. — 816 с. — 3000 экз. — ISBN 5-89392-055-4.
- C. E. Shannon. Prediction and entropy of printed English (англ.) // Bell Systems Technical Journal. — 1951. — Vol. 30. — P. 50—64. Архивировано 5 февраля 2007 года.
- Cover, T., King, R. A convergent gambling estimate of the entropy of English // Information Theory, IEEE Transactions on. — 1978. — Т. 24, вып. 4. — С. 413 - 421. — ISSN 0018-9448.