Выборка по значимости

Выборка по значимости (англ. importance sampling, далее ВЗ) — один из методов уменьшения дисперсии случайной величины, который используется для улучшения сходимости процесса моделирования какой-либо величины методом Монте-Карло. Идея ВЗ основывается на том, что некоторые значения случайной величины в процессе моделирования имеют бо́льшую значимость (вероятность) для оцениваемой функции (параметра), чем другие. Если эти «более вероятные» значения будут появляться в процессе выбора случайной величины чаще, дисперсия оцениваемой функции уменьшится. Следовательно, базовая методология ВЗ заключается в выборе распределения, которое способствует выбору «более вероятных» значений случайной величины. Такое «смещенное» распределение изменяет оцениваемую функцию, если применяется прямо в процессе расчета. Однако, результат расчета перевзвешивается согласно этому смещенному распределению, и это гарантирует, что новая оцениваемая функция ВЗ не будет смещена. Сам вес дается отношением правдоподобия, то есть производной Радона-Никодима истинного начального распределения по отношению к выбранному смещенному распределению.

Фундаментальной задачей в реализации ВЗ является выбор смещенного распределения, которое выделяет регионы с «более вероятными» значениями оцениваемой функции.

ВЗ эффективен при удачном выборе и построении такого распределения, так как оно даст существенное сокращение времени вычислений. При неудачном смещенном распределении даже стандартный метод Монте-Карло может дать лучшие результаты.

Математические основанияПравить

Рассмотрим моделирование вероятности $\text{[math]}$ $\text{[math]}$ $p_{t}$ события $\text{[math]}$ $\text{[math]}$ ${X\geq t\ }$ , где $\text{[math]}$ $\text{[math]}$ $X$ — случайная величина с распределением $\text{[math]}$ $\text{[math]}$ $F$ и плотностью вероятности $\text{[math]}$ $\text{[math]}$ $f(x)=F'(x)$ , где штрих означает производную. Пусть статистика длины K — последовательность К независимых и однородно распределенных событий $\text{[math]}$ $\text{[math]}$ $X_{i}$ , создается на основе распределения $\text{[math]}$ $\text{[math]}$ $F$ , и мы хотим оценить число случайных переменных $\text{[math]}$ $\text{[math]}$ $k_{t}$ в K, значения которых лежат выше некоторого $\text{[math]}$ $\text{[math]}$ $t$ . Случайная переменная $\text{[math]}$ $\text{[math]}$ $k_{t}$ характеризуется биномиальным распределением

\text{[math]}

P(k_{t}=k)={K \choose k}p_{t}^{k}(1-p_{t})^{K-k},\,\quad \quad k=0,1,\dots ,K.

Выборкой по значимости называют построение и использование другой функции плотности $\text{[math]}$ $\text{[math]}$ $f_{*}$ (для X), обычно называемой смещенной плотностью, в вычислительном эксперименте (моделировании). Новая плотность позволяет событию $\text{[math]}$ $\text{[math]}$ ${X\geq t\ }$ появляться чаще, тем самым длина последовательности для данного значения дисперсии построенной статистики будет уменьшаться. Другими словами, для данной статистики K, использование смещенной плотности приводит к меньшей дисперсии, чем при оценке обычным Монте-Карло. Из определения $\text{[math]}$ $\text{[math]}$ $p_{t}$ , мы можем ввести $\text{[math]}$ $\text{[math]}$ $f_{*}$ следующим образом:

\text{[math]}

p_{t}={E}[X\geq t]

\text{[math]}

=\int (x\geq t){\frac {f(x)}{f_{*}(x)}}f_{*}(x)\,dx

\text{[math]}

={E_{*}}[(X\geq t)W(X)]

где

\text{[math]}

W(\cdot )\equiv {\frac {f(\cdot )}{f_{*}(\cdot )}}

— отношение правдоподобия и называется весовой функцией. Последнее равенство приводит к рассмотрению статистики

\text{[math]}

{\hat {p}}_{t}={\frac {1}{K}}\,\sum _{i=1}^{K}(X_{i}\geq t)W(X_{i}),\,\quad \quad X_{i}\sim f_{*}

Это статистика ВЗ для $\text{[math]}$ $\text{[math]}$ $p_{t}$ и она не отклонена при использовании $\text{[math]}$ $\text{[math]}$ $f_{*}$ . Таким образом, процедуру моделирования при ВЗ можно сформулировать как, приготовление последовательности независимых и однородно распределенных событий для плотности $\text{[math]}$ $\text{[math]}$ $f_{*}$ , тогда когда каждое событие будет иметь увеличенный на $\text{[math]}$ $\text{[math]}$ $W$ вес, и далее события также как и раньше принимаются, если они больше, чем $\text{[math]}$ $\text{[math]}$ $t$ . Результат усредняется по всей статистике $\text{[math]}$ $\text{[math]}$ $K$ . Легко показать, что дисперсия ВЗ оценки будет равна

\text{[math]}

Var_{*}{\hat {p}}_{t}={\frac {1}{K}}Var_{*}[(X\geq t)W(X)]

\text{[math]}

={\frac {1}{K}}{\Big [}{E_{*}}[(X\geq t)^{2}W^{2}(X)]-p_{t}^{2}{\Big ]}

\text{[math]}

={\frac {1}{K}}{\Big [}{E}[(X\geq t)^{2}W(X)]-p_{t}^{2}{\Big ]}

Теперь проблему ВЗ можно сформулировать как поиск такой плотности вероятности $\text{[math]}$ $\text{[math]}$ $f_{*}$ , что дисперсия новой статистики будет меньше по сравнению с полученной обычным методом Монте-Карло. Если в задаче возможно построить смещенную плотность вероятности, для которой дисперсия равна 0, то она называется оптимальной смещенной плотностью вероятности.

Методы построения смещенных распределенийПравить

Хотя существует множество методов для построения смещенных плотностей, следующие два метода наиболее распространены при использовании ВЗ.

МасштабированиеПравить

Сдвиг вероятностной меры в область $\text{[math]}$ $\text{[math]}$ ${X\geq t\ }$ с помощью масштабирования случайной переменной $\text{[math]}$ $\text{[math]}$ $X$ числом больше единицы. Такое масштабирование приводит к увеличению значимости хвоста плотности вероятности и, тем самым, дает увеличение вероятности появления «нужных» событий. По всей вероятности, масштабирование было одним из первых смещающих методов, широко используемых на практике. Легко реализуемый в реальные алгоритмы, этот метод дает довольно скромное улучшение эффективности моделирования по сравнению с другими смещающими методами.

В ВЗ при масштабировании, плотность вероятности для моделирования определяется как первоначальная плотность для масштабированной случайной переменной $\text{[math]}$ $\text{[math]}$ $a X$ . Если нам важна оценка хвоста плотности вероятности в большую сторону, выбирают $\text{[math]}$ $\text{[math]}$ $a>1$ . Новая плотность и весовая функция, соответственно, равны

\text{[math]}

f_{*}(x)={\frac {1}{a}}f{\bigg (}{\frac {x}{a}}{\bigg )}

и

\text{[math]}

W(x)=a{\frac {f(x)}{f(x/a)}}\,.

Хотя масштабирование сдвигает вероятностную меру в желаемый регион «нужных» событий, оно также сдвигает вероятность в регион $\text{[math]}$ $\text{[math]}$ $X<t$ . Если $\text{[math]}$ $\text{[math]}$ $X$ — сумма $\text{[math]}$ $\text{[math]}$ $n$ случайных переменных, разброс вероятности происходит в $\text{[math]}$ $\text{[math]}$ $n$ -ном пространстве. Как следствие, это уменьшает эффективность ВЗ при увеличении $\text{[math]}$ $\text{[math]}$ $n$ (эффект размерности).

ТрансляцияПравить

Другая простая и эффективная смещающая техника основана на трансляции плотности вероятности (и, следовательно, случайной переменной) в область, где вероятность увеличивается. Трансляции не приводят к эффекту размерности. Эта техника успешно применяется в реальных приложениях, например, при моделировании систем цифровой связи. Часто, этот метод эффективнее, чем масштабирование. При смещении трансляцией новая плотность вероятности определяется, как

\text{[math]}

f_{*}(x)=f(x-c),\quad c>0

где $\text{[math]}$ $\text{[math]}$ $c$ — величина сдвига, выбираемая из условия минимизации дисперсии ВЗ статистики.

Эффекты сложности системыПравить

Фундаментальной проблемой ВЗ является трудность построения хорошего смещенного распределения при усложнении изучаемой системы. В этом смысле, сложными системами называют системы с долгой памятью, так как для систем, где происходит сложная обработка малого количества входных параметров (то есть в задачах с малой размерностью), проблема построения ВЗ проще. Например, в теории цифровой передачи сигналов, долгая память (или большая размерность начальных условий) приводит к проблемам трех типов:

длинная память (сильное межсимвольное взаимодействие)
память неопределенной длины (декодеры Витерби)
память возможно бесконечной длины (адаптивные эквалайзеры)

В принципе, основные идеи ВЗ не изменяются при применении в такого рода проблемах, но реализация становится существенно сложнее. Успешной стратегией борьбы с проблемами долгой памяти может быть разбиение всей проблемы на несколько лучше определенных частей. Тогда ВЗ применяется в каждой из подпроблем независимо.

Численные оценки ВЗПравить

Для определения успешности найденной плотности ВЗ, полезно иметь численную оценку уменьшения объёма вычислений при её применении. Для такой оценки обычно применяют отношение $\text{[math]}$ $\text{[math]}$ $\sigma _{MC}^{2}/\sigma _{IS}^{2}$ , которое можно интерпретировать, как фактор увеличения скорости, с которой ВЗ статистика достигнет такой же точности, как и статистика, полученная методом обычного Монте-Карло. Значение отношения можно получить только эмпирическом путём, так как дисперсии статистик практически невозможно вывести аналитически.

Ценовая функция дисперсииПравить

Дисперсия — не единственная ценовая функция для моделирования, так как возможны другие типы ценовых функций, использующихся в различных статистических приложениях, например, среднее абсолютное отклонение. Тем не менее, в литературе обычно цитируется дисперсия, возможно, из-за использования дисперсии в вычислении доверительных интервалов и в выражении для измерения эффективности $\text{[math]}$ $\text{[math]}$ $\sigma _{MC}^{2}/\sigma _{IS}^{2}$ .

Одна из проблем использования дисперсии заключается в том, что отношение $\text{[math]}$ $\text{[math]}$ $\sigma _{MC}^{2}/\sigma _{IS}^{2}$ переоценивает уменьшение объёма вычислений в случае использования ВЗ, так как этот параметр не учитывает дополнительного времени, необходимого для вычисления весовой функции. Следовательно, при реальном применении улучшение в результате применения ВЗ должно оцениваться другими методами. Возможно, более серьёзной проблемой с точки зрения эффективности в ВЗ является время на разработку и реализации самой техники и аналитическое построение необходимой весовой функции (если она не известна заранее).

См. такжеПравить

ЛитератураПравить

И. М. Соболь. Численные методы Монте-Карло. М.: Наука, 1973 г.
P. J.Smith, M.Shafi, and H. Gao, "Quick simulation: A review of importance sampling techniques in communication systems, " IEEE J.Select.Areas Commun., vol. 15, pp. 597–613, May 1997.
M. Ferrari, S. Bellini, "Importance Sampling simulation of turbo product codes, " ICC2001, The IEEE International Conference on Communications, vol. 9, pp. 2773–2777, June 2001.
Tommy Oberg, Modulation, Detection, and Coding, John Wiley & Sons, Inc., New York, 2001.
R. Srinivasan., Importance Sampling. New York: Springer, 2002.

Дополнительно

«Importance sampling — Applications in communications and detection», Rajan Srinivasan, Springer-Verlag, Berlin, 2002.
«Introduction to rare event simulation», James Antonio Bucklew, Springer-Verlag, New York, 2004.

СсылкиПравить

Sequential Monte Carlo Methods (Particle Filtering) homepage on University of Cambridge
Introduction to importance sampling in rare-event simulations European journal of Physics. PDF document.
Adaptive monte carlo methods for rare event simulation: adaptive monte carlo methods for rare event simulations Winter Simulation Conference
Cuba — a library for multidimensional numerical integration