Принцип минимальной длины описания

Принцип минимальной длины описания (англ. minimum description length, MDL) — это формализация бритвы Оккама, в которой лучшая гипотеза (модель и её параметры) для данного набора данных это та, которая ведёт к лучшему сжиманию данных. Принцип MDL предложил Йорма Риссанен в 1978 году^[1]. Принцип является важной концепцией в теории информации и теории вычислительного обучения^[2]^[3]^[4].

ОбзорПравить

Любой набор данных может быть представлен как строка символов из конечного (скажем, двоичного) алфавита.

[Принцип MDL] основан на следующем осознании: любая закономерность в заданном наборе данных может быть использована для сжатия данных, то есть описания данных с использованием меньшего набора символов, чем нужно для описания данных буквально. (Грюнвальд, 1998)^[5]

MDL является теорией логического и статистического вывода, который начинается с идеи: всё статистическое обучение относится к обнаружению закономерностей в данных, а лучшая гипотеза описания закономерностей в данных, это та, которая позволяет сжать данные наиболее сильно. Подобно другим статистическим методам, принцип может быть использован для обучения параметров модели, используя некоторые данные. Хотя, обычно, стандартные статистические методы предполагают, что общий вид модели фиксирован. Основная сила принципа MDL заключается в том, что он может быть использован для выбора общего вида модели и её параметров. Количественная характеристика (иногда только модели, иногда только параметров, иногда и модели, и параметров) называется гипотезой. Базовой идеей является рассмотрение двухступенчатого кода (без потерь), который кодирует данные $\text{[math]}$ $\text{[math]}$ $D$ путём сначала кодирования гипотезы $\text{[math]}$ $\text{[math]}$ $H$ в множестве рассматриваемых гипотез $\text{[math]}$ $\text{[math]}$ ${\cal {H}}$ , а затем кодирования $\text{[math]}$ $\text{[math]}$ $D$ «с помощью» $\text{[math]}$ $\text{[math]}$ $H$ . В простейшем контексте это просто означает «кодировку отклонения данных от предсказания, полученного посредством» $\text{[math]}$ $\text{[math]}$ $H$ :

\text{[math]}

{L(D)}=\min _{H\in {\cal {H}}}\ (\ L(H)+L(D|H)\ )\

Гипотеза $\text{[math]}$ $\text{[math]}$ $H$ , на которой достигается минимум тогда рассматривается как лучшее объяснение данных $\text{[math]}$ $\text{[math]}$ $D$ . В качестве простого примера рассмотрим задачу регрессии: данные $\text{[math]}$ $\text{[math]}$ $D$ пусть состоят из последовательности точек $\text{[math]}$ $\text{[math]}$ $D=(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ , множество $\text{[math]}$ $\text{[math]}$ ${\cal {H}}$ пусть будет множеством всех многочленов из $\text{[math]}$ $\text{[math]}$ $X$ в $\text{[math]}$ $\text{[math]}$ $Y$ . Чтобы описать многочлен $\text{[math]}$ $\text{[math]}$ $H$ степени (скажем) $\text{[math]}$ $\text{[math]}$ $k$ , следует сначала дискретизировать параметры до некоторой точности, затем нужно описать эту точность (натуральное число). Затем следовало бы описать степень $\text{[math]}$ $\text{[math]}$ $k$ (ещё одно натуральное число) и, наконец, следовало бы описать $\text{[math]}$ $\text{[math]}$ $k+1$ параметров. Полная длина будет $\text{[math]}$ $\text{[math]}$ $L(H)$ . Затем описываем точки в $\text{[math]}$ $\text{[math]}$ $D$ , используя некоторый фиксированный код для x-значений, а затем используя код для $\text{[math]}$ $\text{[math]}$ $n$ отклонений $\text{[math]}$ $\text{[math]}$ $y_{i}-H(x_{i})$ .

На практике, часто (но не всегда) используют статистическую модель. Например, ассоциируют каждый многочлен $\text{[math]}$ $\text{[math]}$ $H$ с соответствующим условным распределением, тем самым указывая, что данные $\text{[math]}$ $\text{[math]}$ $X$ , $\text{[math]}$ $\text{[math]}$ $Y$ нормально распределены со средним $\text{[math]}$ $\text{[math]}$ $H(X)$ и некоторым отклонением $\text{[math]}$ $\text{[math]}$ $\sigma ^{2}$ , которые могут быть либо фиксированы, либо добавлены как параметры. Тогда набор гипотез $\text{[math]}$ $\text{[math]}$ ${\cal {H}}$ сокращается до линейной модели $\text{[math]}$ $\text{[math]}$ $Y=H(X)+\epsilon$ с $\text{[math]}$ $\text{[math]}$ $H$ в виде многочлена.

Более того, часто конкретные значения параметров напрямую не очень интересны, а интересны только, например, степень многочлена. В этом случае полагают множество $\text{[math]}$ $\text{[math]}$ ${\cal {H}}$ равным $\text{[math]}$ $\text{[math]}$ ${\cal {H}}=\{{\cal {H}}_{0},{\cal {H}}_{1},\ldots \}$ , где каждый элемент $\text{[math]}$ $\text{[math]}$ ${\cal {H}}_{j}$ представляет гипотезу, что данные лучшим образом описываются многочленом степени j. Тогда кодируют данные $\text{[math]}$ $\text{[math]}$ $D$ данной гипотезы $\text{[math]}$ $\text{[math]}$ ${\cal {H}}_{j}$ с помощью одночастевого кода^[en], разработанного так, что когда некоторая гипотеза $\text{[math]}$ $\text{[math]}$ $H\in {\cal {H}}_{j}$ хорошо соответствует данным, код $\text{[math]}$ $\text{[math]}$ $L(D|H)$ короткий. Разработка таких кодов называется универсальным кодированием. Существуют различные типы универсальных кодов, которые можно использовать, часто дающие близкие длины для длинных последовательностей данных, но отличающиеся для коротких последовательностей. 'Лучшими' кодами (в смысле, что они имеют свойство минимаксной оптимальности) являются нормированные коды максимального правдоподобия (англ. normalized maximum likelihood codes, NML) или коды Штарькова. Очень полезный класс кодов — коды байесовского маргинального правдоподобия. Для семейства экспоненциальных распределений, когда используется априорное распределение Джеффриca и пространство параметров подходящим образом ограничено, они асимптотически совпадают с кодами NML. Это придвигает теорию MDL вплотную к объективному байесовскому выбору модели, к которой также иногда применяется априорное распределение Джеффриca, хотя по другим причинам.

MDL в сравнении с теорией логического вывода СоломоноваПравить

Для выбора гипотезы, которая улавливает наиболее сильно регулярность в данных, учёные ищут гипотезу, по которой можно получить лучшее сжатие. Чтобы это сделать, фиксируется код для сжатия данных. Возможно, наиболее общий код, который можно использовать,— это (полный по Тьюрингу) компьютерный язык. Программа для вывода данных пишется на этом языке. Тогда программа эффективно представляет данные. Длина самой короткой программы, которая выводит данные, называется колмогоровской сложностью данных. Это центральная идея Рея Соломонова идеализированной теории логического вывода^[en], которая служит источником вдохновения для MDL.

ВыводПравить

Однако эта математическая теория не даёт практического метода получения вывода. Наиболее важные причины этого:

Колмогоровская сложность не вычислима — нет алгоритма, который по произвольной последовательности данных выдаёт кратчайшую программу, воспроизводящую данные.
Колмогоровская сложность зависит от того, какой компьютерный язык используется. Выбор языка произволен, но он влияет на сложность на некоторую дополнительную константу. По этой причине константа в теории колмогоровской сложности отбрасывается. На практике, однако, доступно лишь небольшое количество данных, так что константы могут иметь очень большое влияние на результаты вывода — хорошие результаты при работе с ограниченным набором данных не гарантируется.

MDL пытается бороться с этой проблемой посредством:

Ограничения набора разрешённых кодов так, что становится возможным (вычислительно) найти наименьшую длину кода для данных согласно разрешённым кодам.
Выбора кодов, которые обоснованно эффективны независимо от данных. Идея «обоснованной эффективности» отражается в идее «универсального кода».

Одно из важнейших свойств методов MDL — они дают естественную защиту от переобучения, поскольку они реализуют компромисс между сложностью гипотезы (классом модели) и сложностью данных^[3].

Пример MDLПравить

Монета бросается 1000 раз и число выпадения орла или решки записывается. Рассмотрим два класса моделей:

Первая является кодом, в который записывается 0 для орла и 1 для решки. Этот код представляет гипотезу, что монета симметрична (то есть выпадение орла и решки должно быть одинаково вероятно). Длина кода, согласно этому кодированию всегда, равна в точности 1000 битам.
Вторая состоит из всех кодов, которые эффективны для несимметричной монеты, и представляют гипотезу, что монета не симметрична. Скажем, мы наблюдаем 510 выпадений орла и 490 выпадений решки. Тогда длина кода, соответствующая наилучшему кодированию, во втором классе моделей меньше 1000 бит.

По этой причине наивный статистический метод может выбрать вторую модель как лучшее объяснение данных. Однако подход MDL строил бы один код, основанный на гипотезе вместо использования лучшего кода. Этот код мог бы быть нормированным кодом максимального правдоподобия или байесовским кодом. Если такой код используется, полная длина кода, основанного на втором классе моделей, была бы больше 1000 бит. Поэтому заключение, которое следует неминуемо из подхода MDL, будет, что нет достаточных оснований для гипотезы о несимметричной монете, даже если лучший элемент второго класса моделей даёт лучшее соответствие данным.

MDL обозначениеПравить

Центральным понятиям для MDL теории является один-к-одному соответствие между длиной кода функций и распределениями вероятностей (это следует из неравенства Крафта — Макмиллана). Для любого распределения вероятности $\text{[math]}$ $\text{[math]}$ $P$ можно построить код $\text{[math]}$ $\text{[math]}$ $C$ , такой, что длина (в битах) $\text{[math]}$ $\text{[math]}$ $C(x)$ равна $\text{[math]}$ $\text{[math]}$ $-\log _{2}P(x)$ . Этот код минимизирует ожидаемую длину кода. И наоборот, если дан код $\text{[math]}$ $\text{[math]}$ $C$ , можно построить распределение вероятности $\text{[math]}$ $\text{[math]}$ $P$ , такое, что выполняется выше указанное утверждение. (Проблемы округления здесь игнорируются.) Другими словами, поиск эффективного кода эквивалентен поиску хорошего распределения вероятности.

Связанные концепцииПравить

Принцип MDL сильно связан с теорией вероятностей и статистикой через соответствие кодов и распределение вероятностей, упомянутое выше. Это привело некоторых исследователей к выводу, что принцип MDL эквивалентен байесовскому выводу — длина кода модели и данные в MDL соответствуют априорной вероятности и маргинальному правдоподобию^[en] в байесовской схеме^[6].

В то время как байесовские алгоритмы часто полезны для построения эффективных MDL кодов, принцип MDL вмещает также другие коды, не являющиеся бaйесовскими. Примером служит нормированный код максимального правдоподобия Штарькова, который играет центральную роль в текущей теории MDL, но не имеет эквивалента в байесовском выводе. Более того, Риссанен подчёркивает, что нам не следует делать каких-либо предположений о верности процесса получения данных — на практике, класс моделей обычно является упрощением реальности, а потому не содержит каких-либо кодов или распределений вероятности, верных в объективном смысле^[7]^[8]. В последней ссылке Риссанен подводит математическое обоснование принципа MDL к структурной функции Колмогорова^[en].

Согласно философии MDL следует избегать байесовских методов, если они основываются на ненадёжной априорной вероятности, что может привести к плохим результатам. Априорные условия, приемлемые с точки зрения MDL, также предпочтительнее так называемого байесовкого объективного анализа. Здесь, однако, причины обычно другие^[9].

Другие системыПравить

MDL не был первым подходом информационно-теоретического обучения. Ещё в 1968 году Уоллес и Болтон ввели связанную концепцию, названную сообщением минимальной длины (англ. minimum message length, MML). Разница между MDL и MML является источником постоянной путаницы. Внешне методы выглядят большей частью эквивалентными, но есть некоторые существенные отличия, особенно в интерпретации:

MML полностью субъективный байесовский подход — он начинает с идеи, что имеется некоторая вера о процессе получения данных в виде априорного распределения. Принцип MDL избегает каких-либо предположений о процессе получения данных.
Оба метода используют двухчастевые коды — одна часть всегда представляет информацию, которую пытаются обучить, такую как индекс модели класса (при выборе модели) или значения параметров (при оценке параметров). Вторая часть содержит закодированные данные согласно информации из первой части. Разница в методах заключается в том, что в литературе по MDL рекомендуют нежеланные параметры относить во вторую часть кода, где они могут быть представлены с данными с помощью так называемого одночастевого кода^[en], который часто более эффективен, чем двухчастевой код. В исходном описании MML все параметры кодируются в первой части, так что происходит обучение всех параметров.
В схеме MML каждый параметр устанавливается точно в то положение, которое приводит к оптимальной общей длине сообщения — приведённый пример может возникнут, если некоторые параметры первоначально считались «возможно полезными» для модели, но потом было обнаружено, что они неспособны помочь в объяснении данных. Схема MDL фокусируется более на сравнении классов моделей, а не самих моделей, и это более естественно задавать тот же вопрос путём сравнения классов моделей, чем явно включать такой параметр в один класс и не включать в другой.

См. такжеПравить

ПримечанияПравить

↑ Rissanen, 1978, с. 465–658.
↑ Minimum Description Length (неопр.). University of Helsinki. Дата обращения: 3 июля 2010. Архивировано из оригинала 18 февраля 2010 года.
↑ ¹ ² Grünwald, 2007.
↑ Grünwald, Myung, Pitt, 2005.
↑ Grünwald, 2004.
↑ MacKay, 2003.
↑ Rissanen, Jorma. Homepage of Jorma Rissanen. Архивировано 10 декабря 2015 года. Дата обращения: 3 июля 2010.
↑ Rissanen, 2007.
↑ Nannen, 2010.

ЛитератураПравить

Rissanen J. Modeling by shortest data description // Automatica. — 1978. — Т. 14, вып. 5. — doi:10.1016/0005-1098(78)90005-5.
Peter D. Grünwald. the Minimum Description Length principle. — Cambridge, Massachusetts; London, England: MIT Press, 2007. — ISBN 978-0-262-07281-6.
Advances in Minimum Description Length: Theory and Applications / Peter D. Grünwald, In Jae Myung, Mark A. Pitt. — Cambridge, Massachusetts; London, England: MIT Press, 2005. — (Neural Information Processing). — ISBN 0-262-07262-9.

Peter Grünwald. [1]. — 2004.
Rissanen J. Information and Complexity in Statistical Modeling. — Springer, 2007. — (Information Science and Statistics). — ISBN 0-387-36610-5.
Volker Nannen. A short introduction to Model Selection, Kolmogorov Complexity and Minimum Description Length // препринт. — 2010.
David MacKay. Information Theory, Inference, and Learning Algorithms. — Cambridge University Press, 2003.

Литература для дальнейшего чтенияПравить

Minimum Description Length on the Web, by the University of Helsinki. Features readings, demonstrations, events and links to MDL researchers.
Homepage of Jorma Rissanen, containing lecture notes and other recent material on MDL.
Advances in Minimum Description Length, MIT Press, ISBN 0-262-07262-9.

[_7277dc4459251396-1] Rissanen, 1978, с. 465–658.

[2] Minimum Description Length (неопр.). University of Helsinki. Дата обращения: 3 июля 2010. Архивировано из оригинала 18 февраля 2010 года.

[_5f992520e1a32b3a-3] ¹ ² Grünwald, 2007.

[_aee37215700e911b-4] Grünwald, Myung, Pitt, 2005.

[_d1085bae87b0dc0d-5] Grünwald, 2004.

[_c040e76e684bd6e6-6] MacKay, 2003.

[7] Rissanen, Jorma. Homepage of Jorma Rissanen. Архивировано 10 декабря 2015 года. Дата обращения: 3 июля 2010.

[_c0e9c7b43d133acf-8] Rissanen, 2007.

[_1aaef2221c862566-9] Nannen, 2010.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]