Сглаживающий сплайн

Сглаживающий сплайн (англ. smoothing spline) — оценка функции $\text{[math]}$ $\text{[math]}$ ${\hat {f}}(x)$ ${\hat {f}}(x)$ , полученная из набора зашумлённых наблюдений $\text{[math]}$ $\text{[math]}$ $y_{i}$ $y_{i}$ за исходными данными $\text{[math]}$ $\text{[math]}$ $f(x_{i})$ $f(x_{i})$ и используемая в дальнейших вычислениях для балансировки адекватности модели функции $\text{[math]}$ $\text{[math]}$ ${\hat {f}}(x_{i})$ ${\hat {f}}(x_{i})$ к $\text{[math]}$ $\text{[math]}$ $y_{i}$ $y_{i}$ с основанной на производной мере кривизной функции $\text{[math]}$ $\text{[math]}$ ${\hat {f}}(x)$ ${\hat {f}}(x)$ . Иными словами, сглаживающий сплайн является важным средством при работе с зашумленными данными типа $\text{[math]}$ $\text{[math]}$ $x_{i}$ $x_{i}$ , $\text{[math]}$ $\text{[math]}$ $y_{i}$ $y_{i}$ . Наиболее известным видом сглаживающего сплайна является кубический сплайн.

Определение кубического сплайнаПравить

Пусть $\text{[math]}$ $\text{[math]}$ $(x_{i},Y_{i});x_{1}<x_{2}<\dots <x_{n},i\in \mathbb {Z}$ — последовательность наблюдений, порождённых выражением $\text{[math]}$ $\text{[math]}$ $Y_{i}=\mu (x_{i})$ . Приближение сглаживающими сплайнами $\text{[math]}$ $\text{[math]}$ ${\hat {\mu }}$ функции $\text{[math]}$ $\text{[math]}$ $\mu$ определяется как функция (в классе дважды дифференцируемых функций), минимизирующая^[1]

\text{[math]}

\sum _{i=1}^{n}(Y_{i}-{\hat {\mu }}(x_{i}))^{2}+\lambda \int _{x_{1}}^{x_{n}}{\hat {\mu }}''(x)^{2}\,dx.

Замечания:

$\text{[math]}$ $\text{[math]}$ $\lambda \geq 0$ параметр сглаживания, контролирующий соотношение между точностью воспроизведения данных и «неровностью» аппроксимирующей функции.
интеграл вычисляется по всему диапазону $\text{[math]}$ $\text{[math]}$ $x_{i}$ .
при $\text{[math]}$ $\text{[math]}$ $\lambda \to 0$ (нет сглаживания), сглаживающий сплайн превращается в интерполяционный сплайн.
при $\text{[math]}$ $\text{[math]}$ $\lambda \to \infty$ (бесконечное сглаживание), штраф за неровность становится преобладающим и аппроксимация превращается в линейную МНК аппроксимацию.
наиболее часто в современной статистической литературе используется штраф за неровность на основе второй производной, однако метод может быть легко адаптирован к использованию штрафов на основе других производных.
в ранней литературе, с равноудалёнными $\text{[math]}$ $\text{[math]}$ $x_{i}$ , для вычисления штрафа вместо производной использовались конечные разности второго и третьего порядка.
если сумму квадратов отклонений сплайна от исходных данных (первый член функционала) заменить на логарифм функции правдоподобия, получим оценку максимального правдоподобия со штрафной функцией. В такой постановке обычный сглаживающий сплайн представляет собой специальный случай, когда правдоподобие рассчитывается исходя из нормального распределения погрешности.

Вывод кубического сглаживающего сплайнаПравить

Разделим нахождение выражений, описывающих сглаживающий сплайн, на два этапа:

Сначала найдём значения $\text{[math]}$ $\text{[math]}$ ${\hat {\mu }}(x_{i});i=1,\ldots ,n$ .
Из этих значений найдём $\text{[math]}$ $\text{[math]}$ ${\hat {\mu }}(x)$ для всех x.

Начнём со второго этапа:

Дан вектор $\text{[math]}$ $\text{[math]}$ ${\hat {m}}=({\hat {\mu }}(x_{1}),\ldots ,{\hat {\mu }}(x_{n}))^{T}$ «подогнанных» значений; сумма квадратов в критерии сплайна — константа. Требуется только минимизировать $\text{[math]}$ $\text{[math]}$ $\int {\hat {\mu }}''(x)^{2}\,dx$ , и минимизация — натуральный кубический сплайн, интерполирующий точки $\text{[math]}$ $\text{[math]}$ $(x_{i},{\hat {\mu }}(x_{i}))$ . Данный интерполяционный сплайн — линейный оператор — может быть представлен в виде:

\text{[math]}

{\hat {\mu }}(x)=\sum _{i=1}^{n}{\hat {\mu }}(x_{i})f_{i}(x)

,

где $\text{[math]}$ $\text{[math]}$ $f_{i}(x)$ — набор базисных сплайн-функций. В результате штраф за отсутствие у функции признака гладкости имеет форму

\text{[math]}

\int {\hat {\mu }}''(x)^{2}dx={\hat {m}}^{T}A{\hat {m}}.

где элементы A — $\text{[math]}$ $\text{[math]}$ $\int f_{i}''(x)f_{j}''(x)dx$ . Базисные функции и матрица A зависят от конфигурации независимых переменных $\text{[math]}$ $\text{[math]}$ $x_{i}$ , но не от $\text{[math]}$ $\text{[math]}$ $Y_{i}$ или $\text{[math]}$ $\text{[math]}$ ${\hat {m}}$ .

Возвращаясь к первому этапу, взвешенная сумма квадратов может быть записана так:

\text{[math]}

\|Y-{\hat {m}}\|^{2}+\lambda {\hat {m}}^{T}A{\hat {m}},

где $\text{[math]}$ $\text{[math]}$ $Y=(Y_{1},\ldots ,Y_{n})^{T}$ . минимизация по $\text{[math]}$ $\text{[math]}$ ${\hat {m}}$ даёт

\text{[math]}

{\hat {m}}=(I+\lambda A)^{-1}Y.

Создание многомерных сплайновПравить

Из приведённого ограничения на формулу из определения $\text{[math]}$ $\text{[math]}$ $x_{1}<x_{2}<\dots <x_{n}$ следует, что алгоритм не работает для произвольного набора данных. Если планируется использование алгоритма для произвольного набора точек в многомерном пространстве необходим алгоритм, в котором нет таких ограничений. Возможное решение заключается во введении параметра таким образом, что входные данные могут быть представлены как одномерные функции, зависящие от данного параметра; после можно применить сглаживание для каждой функции. В двумерном пространстве решение состоит в параметризации $\text{[math]}$ $\text{[math]}$ $x$ и $\text{[math]}$ $\text{[math]}$ $y$ как $\text{[math]}$ $\text{[math]}$ $x(t)$ and $\text{[math]}$ $\text{[math]}$ $y(t)$ где $\text{[math]}$ $\text{[math]}$ $t_{1}<t_{2}<\dots <t_{n}$ . Подходящее решение для $\text{[math]}$ $\text{[math]}$ $t$ это накопленное расстояние $\text{[math]}$ $\text{[math]}$ $t_{i+1}=t_{i}+{\sqrt {(x_{i+1}-x_{i})^{2}+(y_{i+1}-y_{i})^{2}}}$ где $\text{[math]}$ $\text{[math]}$ $t_{1}=0$ .^[2]^[3]

Более детальный анализ параметризации выполнен E.T.Y Lee.^[4]

Связанные методыПравить

Сглаживающие сплайны имеют отношение, но отличаются от:

Регрессионных сплайнов (англ. Regression Splines). Метод, при использовании которого данные аппроксимируются с помощью набора базисных сплайн-функций с уменьшенным количеством узлов, в большинстве случаев при помощи метода наименьших квадратов. При этом в случае отсутствия у функции признака гладкости штрафы не используются.
Штрафных сплайнов, сплайнов со штрафами (англ. Penalized Splines). Сочетают уменьшенное количество узлов регрессионных сплайнов со штрафом за отсутствие у функций сглаживающих сплайнов признака гладкости.^[5]
Метод упругой карты. Метод, сочетающий штрафы по методу наименьших квадратов для ошибки аппроксимации со штрафами за кривизну и растяжение аппроксимирующего множества и использующий крупный шаг дискретизации для оптимизации проблемы.

Исходный кодПравить

Исходный код для сглаживающих сплайнов может быть взят из примеров к книге Carl de Boor’s A Practical Guide to Splines. Примеры написаны на Фортране. Обновлённые исходные коды также доступны на официальном сайте Carl de Boor’s [1].

ПримечанияПравить

↑ Hastie, T. J.; Tibshirani, R. J. Generalized Additive Models (неопр.). — Chapman and Hall, 1990. — ISBN 0-412-34390-8.
↑ Robert E. Smith Jr., Joseph M Price and Lona M. Howser. A Smoothing Algorithm Using Cubic Spline Functions (неопр.) (недоступная ссылка — история). Дата обращения: 31 мая 2011. Архивировано 14 сентября 2013 года.
↑ N. Y. Graham. Smoothing With Periodic Cubic Splines (неопр.). Дата обращения: 31 мая 2011. Архивировано 14 сентября 2013 года.
↑ E.T.Y. Lee. Choosing nodes in parametric curve interpolation (неопр.). Дата обращения: 28 июня 2011. Архивировано 14 сентября 2013 года.
↑ Ruppert, David; Wand, M. P. and Carroll, R. J. Semiparametric Regression (неопр.). — Cambridge University Press, 2003. — ISBN 0-521-78050-0.

ЛитератураПравить

Wahba, G. (1990). Spline Models for Observational Data. SIAM, Philadelphia.
Green, P. J. and Silverman, B. W. (1994). Nonparametric Regression and Generalized Linear Models. CRC Press.
De Boor, C. (2001). A Practical Guide to Splines (Revised Edition). Springer.
Березовский, М. В. Сглаживающие изогеометрические и робастные сплайны: методы и алгоритмы. Диссертация.

[1] Hastie, T. J.; Tibshirani, R. J. Generalized Additive Models (неопр.). — Chapman and Hall, 1990. — ISBN 0-412-34390-8.

[2] Robert E. Smith Jr., Joseph M Price and Lona M. Howser. A Smoothing Algorithm Using Cubic Spline Functions (неопр.) (недоступная ссылка — история). Дата обращения: 31 мая 2011. Архивировано 14 сентября 2013 года.

[3] N. Y. Graham. Smoothing With Periodic Cubic Splines (неопр.). Дата обращения: 31 мая 2011. Архивировано 14 сентября 2013 года.

[4] E.T.Y. Lee. Choosing nodes in parametric curve interpolation (неопр.). Дата обращения: 28 июня 2011. Архивировано 14 сентября 2013 года.

[5] Ruppert, David; Wand, M. P. and Carroll, R. J. Semiparametric Regression (неопр.). — Cambridge University Press, 2003. — ISBN 0-521-78050-0.

[1]

[2]

[3]

[4]

[5]