Это не официальный сайт wikipedia.org 01.01.2023

Дилемма смещения–дисперсии — Википедия

Дилемма смещения–дисперсии

Компромисс отклонение-дисперсия в статистике и в машинном обучении — это свойство набора моделей предсказания, когда модели с меньшим отклонением от имеющихся данных имеют более высокую дисперсию на новых данных (то есть подвержены переобучению), и наоборот. Компромисс отклонение-дисперсия — конфликт при попытке одновременно минимизировать эти два источника ошибки[en], которые мешают алгоритмам обучения с учителем делать обобщение за пределами тренировочного набора.

  • Смещение — это погрешность оценки, возникающая в результате ошибочного предположения в алгоритме обучения. В результате большого смещения алгоритм может пропустить связь между признаками и выводом (недообучение).
  • Дисперсия — это ошибка чувствительности к малым отклонениям в тренировочном наборе. При высокой дисперсии алгоритм может как-то трактовать случайный шум[en] в тренировочном наборе, а не желаемый результат (переобучение).
Функция и данные с шумом.
разброс = 5
разброс = 1
разброс = 0.1
Функция (красный цвет) аппроксимирована с помощью радиально-базисных функций (РБФ) (синий цвет). На каждом графике показано несколько испытаний. Для каждого испытания в качестве тренировочного набора использовались некоторые точки из выборки с шумом (верхний график). При широком разбросе (график 2) смещение высоко, РБФ не могут полностью аппроксимировать функцию (особенно центральную яму), но дисперсия между испытаниями мала. По мере увеличения разброса (графики 3 и 4) смещение возрастает, синяя кривая ближе аппроксимирует красную кривую. Однако дисперсия между испытаниями растёт. На нижнем графике приближённое значение в точке x=0 сильно зависят от расположения точек выборки.

Разложение смещения-дисперсии — это способ анализа ожидаемой ошибки обобщения[en] алгоритма обучения для частной задачи сведением к сумме трёх членов — смещения, дисперсии и величины, называемой неустранимой погрешностью, которая является результатом шума в самой задаче.

Дилемма возникает во всех формах обучения с учителем — в классификации, регрессии (аппроксимация функции)[1][2] и структурное прогнозирование. Дилемма также используется для объяснения эффективности эвристики при обучении людей[3].

Побудительные причиныПравить

Дилемма смещения-дисперсии является центральной проблемой в обучении с учителем. Выбираемая модель должна, с одной стороны, точно уловить все закономерности в обучающих данных, а с другой стороны — обобщить закономерности на неизвестные данные. К сожалению, обычно это невозможно сделать одновременно. Методы обучения с высокой дисперсией могут хорошо представлять тренировочный набор, но имеют риск быть переобученными для данных с шумом или непрезентативных данных. В отличие от них, алгоритмы с низкой дисперсией обычно дают более простые модели, не склонно к переобучению, но может оказаться недообученным, что приводит к пропуску важных свойств.

Модели с малым смещением обычно более сложны (например, в них регрессионные многочлены имеют более высокий порядок), что позволяет им представлять тренировочное множество более точно. Однако они могут иметь большую компоненту шума[en] тренировочного набора, что делает предсказание менее точным вопреки добавленной сложности. Для контраста, модели с высоким смещением относительно более просты (имеют многочлены меньшего порядка или даже линейные), но могут давать низкую дисперсию предсказаний, если применяются вне тренировочного набора.

Разложение смещения-дисперсии квадратичной ошибкиПравить

Предположим, что у нас есть тренировочное множество, состоящее из набора точек x 1 , , x n   и вещественных значений y i  , связанных с каждой из этих точек x i  . Мы предполагаем, что есть функция с шумом y = f ( x ) + ε  , где шум ε   имеет нулевое среднее и дисперсию σ 2  .

Мы хотим найти функцию f ^ ( x )  , которая аппроксимирует истинную функцию f ( x )   настолько хорошо, насколько возможно, в смысле некоторого алгоритма обучения. Мы делаем понятие «настолько хорошо, насколько возможно» точным путём измерения среденквадратичной ошибки[en] между y   и f ^ ( x )   — мы хотим, чтобы значение ( y f ^ ( x ) ) 2   было минимальным как для точек x 1 , , x n  , так и за пределами нашей выборки. Естественно, мы не можем сделать это идеально, поскольку y i   содержит шум ε  . Это означает, что мы должны быть готовы принять неустранимую ошибку в любой функции, с которой будем работать.

Поиск функции f ^  , которая обобщается для точек вне тренировочного набора, может быть осуществлён любым из несчётного числа алгоритмов, используемых для обучения с учителем. Оказывается, что какую бы функцию f ^   мы ни выбрали, мы можем разложить её ожидаемую ошибку на непросмотренном экземпляре данных x   следующим образом:[4][5].

E [ ( y f ^ ( x ) ) 2 ] = ( Bias [ f ^ ( x ) ] ) 2 + Var [ f ^ ( x ) ] + σ 2  ,

где

Bias [ f ^ ( x ) ] = E [ f ^ ( x ) f ( x ) ]  

и

Var [ f ^ ( x ) ] = E [ f ^ ( x ) 2 ] ( E [ f ^ ( x ) ] ) 2  

Математические ожидания пробегают разные варианты выбора тренировочного набора x 1 , , x n , y 1 , , y n   из одного и того же совместного распределения P ( x , y )  . Три члена представляют

  • квадрат смещения метода обучения, который можно рассматривать как ошибку, вызванную упрощением предположений, принятых в методе. Например, когда применяется аппроксимация нелинейной функции f ( x )   при использовании метода обучения для линейных моделей[en], будет появляться ошибка в оценке f ^ ( x )   как результат такого допущения;
  • дисперсия метода обучения, или, интуитивно, как далеко метод обучения f ^ ( x )   уведёт от среднего значения;
  • неустранимая ошибка σ 2  . Поскольку все три величины неотрицательны, они формируют нижнюю границу ожидаемой ошибки на непросмотренных данных[4].

Чем более сложна модель f ^ ( x )  , тем больше точек данных она захватывает и тем меньше будет смещение. Однако сложность приводит модель к захвату большего числа точек, а потому её дисперсия будет больше.

ВыводПравить

Вывод разложения смещения-дисперсии для среднеквадратичной ошибки приведён ниже[6][7]. Для удобства введём обозначения f = f ( x )   и f ^ = f ^ ( x )  . Во-первых, вспомним, что по определению для любой случайной переменной X   мы имеем

Var [ X ] = E [ X 2 ] ( E [ X ] ) 2  

Переставив члены получим:

E [ X 2 ] = Var [ X ] + ( E [ X ] ) 2  

Поскольку f   детерминирована,

E [ f ] = f  .

Тогда из y = f + ε   и E [ ε ] = 0   вытекает, что E [ y ] = E [ f + ε ] = E [ f ] = f  .

Но поскольку Var [ ε ] = σ 2 ,  , получаем

Var [ y ] = E [ ( y E [ y ] ) 2 ] = E [ ( y f ) 2 ] = E [ ( f + ε f ) 2 ] = E [ ε 2 ] = Var [ ε ] + ( E [ ε ] ) 2 = σ 2  

Так как ε   и f ^   независимы, мы можем записать

E [ ( y f ^ ) 2 ] = E [ y 2 + f ^ 2 2 y f ^ ] = E [ y 2 ] + E [ f ^ 2 ] E [ 2 y f ^ ] = Var [ y ] + E [ y ] 2 + Var [ f ^ ] + E [ f ^ ] 2 2 f E [ f ^ ] = Var [ y ] + Var [ f ^ ] + ( f 2 2 f E [ f ^ ] + E [ f ^ ] 2 ) = Var [ y ] + Var [ f ^ ] + ( f E [ f ^ ] ) 2 = σ 2 + Var [ f ^ ] + Bias [ f ^ ] 2  

Применение для регрессииПравить

Разложение смещения-дисперсии образует концептуальный базис для методов регуляризации регрессии, таких как Lasso[en] и гребневая регрессия. Методы регуляризации вносят смещение в решение регрессии, которое может значительно уменьшить дисперсию по сравнению с обычным методом наименьших квадратов[en] (ОМНК, англ. Ordinary Least Squares, OLS). Хотя решение ОМНК даёт несмещённую оценку регрессии, решения с меньшей дисперсией, полученные путём регуляризации, обеспечивают превосходную среднеквадратичную ошибку.

Применение для классификацииПравить

Разложение смещение-дисперсия первоначально было сформулировано для линейной регрессии методом наименьших квадратов. Для случая классификации с 0-1 функцией потерь (доля неправильно классифицированных), можно найти похожее разложение[8][9]. Альтернативно, если задача классификации может быть сформулирована как вероятностная классификация[en], ожидание квадрата ошибки предсказанных вероятностей по отношению к истинным вероятностям может быть разложено как и ранее[10].

ПодходыПравить

Снижение размерности и отбор признаков могут уменьшить дисперсию путём упрощения моделей. Аналогично, больше тренировочное множество приводит к уменьшению дисперсии. Добавление признаков (предсказателей) ведёт к уменьшению смещения за счёт увеличения дисперсии. Алгоритмы обучения обычно имеют некоторые настраиваемые параметры, которые контролируют смещение и дисперсию. Например,

Один из способов разрешения дилеммы — использование смешенных моделей[en] и композиционного обучения[en][14][15]. Например, форсирование[en] комбинирует несколько «слабых» (с высоким смещением) моделей в сборку, которая имеет более низкое смещение, чем каждая из индивидуальных моделей, в то время как бэггинг комбинирует «строгое» обучение так, что уменьшается дисперсия.

k-ближайших соседейПравить

В случае регрессии k-ближайших соседей существует выражение в замкнутой форме[en], связывающее разложение смещение-дисперсия с параметром k[5]:

E [ ( y f ^ ( x ) ) 2 X = x ] = ( f ( x ) 1 k i = 1 k f ( N i ( x ) ) ) 2 + σ 2 k + σ 2  

где N 1 ( x ) , , N k ( x )   являются k ближайшими соседями x в тренировочном наборе. Смещение (первый член) является монотонно возрастающей функцией от k, в то время как дисперсия (второй член) убывает по мере роста k. Фактически, при «разумных предположениях» оценщика смещения ближайшего соседа (1-NN) полностью обращается в нуль, когда размер тренировочного множества стремится к бесконечности[1].

Применение для обучения людейПравить

В то время как дилемма смещения-дисперсии широко обсуждается в контексте машинного обучения, она была проверена в контексте когнитивных способностей человека, прежде всего Гердом Гигеренцером с соавторами. Они утверждают, что (см. ссылки ниже) человеческий мозг решает дилемму в случае разреженных плохо описанных тренировочных наборов, полученных в результате личного опыта, путём использования эвристики высокого смещения/низкой дисперсия. Это отражает факт, что подход с нулевым смещением имеет плохую обобщаемость к новым ситуациям, а также беспричинно предполагает точное знание состояния мира. Получающаяся эвристика относительно проста, но даёт лучшее соответствие широкому разнообразию ситуаций[3].

Гиман и др.[1] возражают, что из дилеммы смещения-дисперсии следует, что такие возможности, как распознавание общих объектов, не может быть получено с нуля, а требует определённого «жёсткого монтажа», который затем превращается в опыт. Именно поэтому подходы к заключениям без модели требуют неоправданно больших наборов тренировочных наборов, если нужно избежать высокой дисперсии.

См. такжеПравить

ПримечанияПравить

ЛитератураПравить