Вероятно приближённо корректное обучение

Вероятно приближённо корректное обучение (ВПК-обучение, англ. Probably Approximately Correct learning, PAC learning) — схема машинного обучения, использующая понятия асимптотической достоверности и вычислительной сложности. Предложена в 1984 году Лесли Вэлиантом^[1].

В этой схеме учитель получает выборки и должен выбрать обобщающую функцию (называемую гипотезой) из определённого класса возможных функций. Целью является функция, которая с большой вероятностью (откуда «вероятно» в названии) будет иметь низкую ошибку обобщения^[en] (откуда «приближенно корректное» в названии). Учитель должен быть способен обучить концепт^[2], дающее произвольный коэффициент аппроксимации, вероятность успеха или распределения выборок.

Модель была позднее расширена для обработки шума (некорректно классифицируемых выборок).

Важным нововведением схемы ВПК является использование понятия о вычислительной сложности машинного обучения. В частности, ожидается, что учитель находит эффективные функции (которые ограничены по времени выполнения и требуемому пространству многочленом от размера выборки), и учитель должен реализовать эффективную процедуру (запрашивая размер примера, ограниченный многочленом от размера концепта, модифицированного границами приближения и правдоподобия).

Определения и терминологияПравить

Для формального определения используется некоторое заданное множество $\text{[math]}$ $\text{[math]}$ $X$ , называемое признаковым пространством или кодировкой всех выборок. Например, в задаче оптического распознавания символов признаковым пространством является $\text{[math]}$ $\text{[math]}$ $X=\{0,1\}^{n}$ , а в задаче нахождения интервала (корректно классифицирующей точки внутри интервала как положительные и вне интервала как отрицательные) признаковым пространством является множество всех ограниченных интервалов в $\text{[math]}$ $\text{[math]}$ $\mathbb {R}$ .

Ещё одно понятие, используемое в схеме — концепт — подмножество $\text{[math]}$ $\text{[math]}$ $c\subset X$ . Например, множество всех последовательностей бит в $\text{[math]}$ $\text{[math]}$ $X=\{0,1\}^{n}$ , которые кодируют рисунок буквы «P» является одним из концептов в задаче оптического распознавание символов. Примером концепта для задачи нахождения интервала служит множество открытых интервалов $\text{[math]}$ $\text{[math]}$ $\{(a,b)\mid 0\leqslant a\leqslant \pi /2,\pi \leqslant b\leqslant {\sqrt {13}}\}$ , каждый из которых содержит только положительные точки. Класс концептов^[en] $\text{[math]}$ $\text{[math]}$ $C$ — множество концептов над $\text{[math]}$ $\text{[math]}$ $X$ . Это может быть множество всех подмножеств каркасного^[en] 4-связного^[en] массива бит (ширина шрифта равна 1).

Пусть $\text{[math]}$ $\text{[math]}$ $EX(c,D)$ будет процедурой, которая формирует пример $\text{[math]}$ $\text{[math]}$ $x$ с помощью вероятностного распределения $\text{[math]}$ $\text{[math]}$ $D$ и даёт правильную метку $\text{[math]}$ $\text{[math]}$ $c(x)$ , которая равна 1, если $\text{[math]}$ $\text{[math]}$ $x\in c$ и 0 в противном случае. Теперь, если дано $\text{[math]}$ $\text{[math]}$ $0<\epsilon ,\delta <1$ , предположим, что есть алгоритм $\text{[math]}$ $\text{[math]}$ $A$ и многочлен $\text{[math]}$ $\text{[math]}$ $p$ от $\text{[math]}$ $\text{[math]}$ $1/\epsilon ,1/\delta$ (и другие относящиеся к делу параметры класса $\text{[math]}$ $\text{[math]}$ $C$ ) такие, что, если дана выборка размера $\text{[math]}$ $\text{[math]}$ $p$ , нарисованный согласно $\text{[math]}$ $\text{[math]}$ $EX(c,D)$ , то с вероятностью по меньшей мере $\text{[math]}$ $\text{[math]}$ $1-\delta$ выход алгоритма $\text{[math]}$ $\text{[math]}$ $A$ является гипотеза $\text{[math]}$ $\text{[math]}$ $h\in C$ , которая имеет среднюю ошибку, меньшую или равную $\text{[math]}$ $\text{[math]}$ $\epsilon$ на $\text{[math]}$ $\text{[math]}$ $X$ для одного и того же распределения $\text{[math]}$ $\text{[math]}$ $D$ . Далее, если утверждение выше для алгоритма $\text{[math]}$ $\text{[math]}$ $A$ верно для любого концепта $\text{[math]}$ $\text{[math]}$ $c\in C$ и для любого распределения $\text{[math]}$ $\text{[math]}$ $D$ над $\text{[math]}$ $\text{[math]}$ $X$ и для всех $\text{[math]}$ $\text{[math]}$ $0<\epsilon ,\delta <1$ , тогда $\text{[math]}$ $\text{[math]}$ $C$ является (эффективно) ВПК-обучаемым (или свободным от распределения ВПК-обучаемым). В этом случае считается, что $\text{[math]}$ $\text{[math]}$ $A$ является алгоритмом ВПК-обучения для $\text{[math]}$ $\text{[math]}$ $C$ .

ЭквивалентностьПравить

При определённых условиях регулярности эти три условия эквивалентны:

Класс понятий $\text{[math]}$ $\text{[math]}$ $C$ является ВПК-обучаемым.
Размерность Вапника — Червоненкиса класса $\text{[math]}$ $\text{[math]}$ $C$ конечна.
$\text{[math]}$ $\text{[math]}$ $C$ является однородным классом Гливенко — Кантелли.

См. такжеПравить

ПримечанияПравить

↑ Valiant1984.
↑ Концептами называют собственные подмножества множества допустимых признаков.

ЛитератураПравить

Valiant L. A theory of the learnable // Communications of the ACM. — 1984. — Вып. 27.
Kearns M., Vazirani U. An Introduction to Computational Learning Theory. — MIT Press, 1994. — ISBN 9780262111935.
Balas Kausik Natarajan. Machine Learning. A Theoretical Approach. — Morgan Kaufmann Publishers, 1991. — ISBN 1-55860-148-1.
D. Haussler. Overview of the Probably Approximately Correct (PAC) Learning Framework Архивная копия от 28 сентября 2011 на Wayback Machine. An introduction to the topic.
L. Valiant. Probably Approximately Correct. Basic Books, 2013. В книге Вэлиант обсуждает, как ВПК-обучение описывает, каким образом организмы развиваются и учатся.

[_b3e73739a030ff82-1] Valiant1984.

[2] Концептами называют собственные подмножества множества допустимых признаков.

[1]

[2]