Вероятность

Вероя́тность — степень (относительная мера, количественная оценка) возможности наступления некоторого события. Когда основания для того, чтобы какое-нибудь возможное событие произошло в действительности, перевешивают противоположные основания, то это событие называют вероятным, в противном случае — маловероятным или невероятным. Перевес положительных оснований над отрицательными, и наоборот, может быть в различной степени, вследствие чего вероятность (и невероятность) бывает большей либо меньшей^[1]. Поэтому часто вероятность оценивается на качественном уровне, особенно в тех случаях, когда более или менее точная количественная оценка невозможна или крайне затруднена. Возможны различные градации «уровней» вероятности^[2].

Простой пример: вероятность того, что на кубике выпадет число «5» (как и для любого другого числа), равна

\text{[math]}

{\tfrac {1}{6}}

{\tfrac {1}{6}}

Исследование вероятности с математической точки зрения составляет особую дисциплину — теорию вероятностей^[1]. В теории вероятностей и математической статистике понятие вероятности формализуется как числовая характеристика события — вероятностная мера (или её значение) — мера на множестве событий (подмножеств множества элементарных событий), принимающая значения от $\text{[math]}$ $\text{[math]}$ $0$ $0$ до $\text{[math]}$ $\text{[math]}$ $1$ $1$ . Значение $\text{[math]}$ $\text{[math]}$ $1$ $1$ соответствует достоверному событию. Невозможное событие имеет вероятность 0 (обратное, вообще говоря, не всегда верно). Если вероятность наступления события равна $\text{[math]}$ $\text{[math]}$ $p$ $p$ , то вероятность его ненаступления (а также невероятность наступления) равна $\text{[math]}$ $\text{[math]}$ $1-p$ $1-p$ . В частности, вероятность $\text{[math]}$ $\text{[math]}$ $1/2$ $1/2$ означает равную вероятность наступления и ненаступления события.

Классическое определение вероятности основано на понятии равновозможности исходов. В качестве вероятности выступает отношение количества исходов, благоприятствующих данному событию, к общему числу равновозможных исходов. Например, вероятности выпадения «орла» или «решки» при случайном подбрасывании монеты одинаковы и равны $\text{[math]}$ $\text{[math]}$ $1/2$ $1/2$ , вероятности выпадения любой грани игральной кости одинаковы и равны $\text{[math]}$ $\text{[math]}$ $1/6$ $1/6$ . Данное классическое «определение» вероятности можно обобщить на случай бесконечного количества возможных значений — например, если некоторое событие может произойти с равной вероятностью в любой точке (количество точек бесконечно) некоторой ограниченной области пространства (плоскости), то вероятность того, что оно произойдёт в некоторой части этой допустимой области равна отношению объёма (площади) этой части к объёму (площади) области всех возможных точек.

Эмпирическое «определение» вероятности связано с частотой наступления события исходя из того, что при достаточно большом числе испытаний частота должна стремиться к объективной степени возможности этого события. В современном изложении теории вероятностей вероятность определяется аксиоматически, как частный случай абстрактной теории меры множества. Тем не менее, связующим звеном между абстрактной мерой и вероятностью, выражающей степень возможности наступления события, является именно частота его наблюдения.

Вероятностное описание тех или иных явлений получило широкое распространение в современной науке, в частности в эконометрике, статистической физике макроскопических (термодинамических) систем, где даже в случае классического детерминированного описания движения частиц детерминированное описание всей системы частиц не представляется практически возможным и целесообразным. В квантовой физике сами описываемые процессы имеют вероятностную природу.

ИсторияПравить

Христиан Гюйгенс, вероятно, опубликовал первую книгу по теории вероятностей

Предыстория понятия вероятностиПравить

Необходимость понятия вероятности и исследований в этом направлении была исторически связана с азартными играми, особенно с играми в кости. До появления понятия вероятности формулировались в основном комбинаторные задачи подсчёта числа возможных исходов при бросании нескольких костей, а также задача раздела ставки между игроками, когда игра закончена досрочно. Первую задачу при бросании трёх костей «решил» в 960 году епископ Виболд из г. Камбре^[3]. Он насчитал 56 вариантов. Однако это количество по сути не отражает количество равновероятных возможностей, поскольку каждый из 56 вариантов может реализоваться разным количеством способов. В первой половине XIII века эти аспекты учёл Ришар де Форниваль. Несмотря на то, что у него тоже фигурирует число 56, но он в рассуждениях учитывает, что, например, «одинаковое количество очков на трёх костях можно получить шестью способами». Основываясь на его рассуждениях уже можно установить, что число равновозможных вариантов — 216. В дальнейшем многие не совсем верно решали эту задачу. Впервые чётко количество равновозможных исходов при подбрасывании трёх костей подсчитал Галилео Галилей, возводя шестёрку (количество вариантов выпадения одной кости) в степень 3 (количество костей): 6³=216. Он же составил таблицы количества способов получения различных сумм очков.

Задачи второго типа в конце XV века сформулировал и предложил первое (вообще говоря ошибочное) решение Лука Пачоли^[3]. Его решение заключалось в делении ставки пропорционально уже выигранным партиям. Существенное дальнейшее продвижение в начале XVI века связано с именами итальянских учёных Джероламо Кардано и Н. Тарталья. Кардано дал правильный подсчёт количества случаев при бросании двух костей (36). Он также впервые соотнес количество случаев выпадения некоторого числа хотя бы на одной кости (11) к общему числу исходов (что соответствует классическому определению вероятности) — 11/36. Аналогично и для трёх костей он рассматривал, например, что девять очков может получиться количеством способов, равным 1/9 «всей серии» (то есть общего количества равновозможных исходов — 216). Кардано формально не вводил понятие вероятности, но по существу рассматривал относительное количество исходов, что по сути эквивалентно рассмотрению вероятностей. В зачаточном состоянии у Кардано можно найти также идеи, связанные с законом больших чисел. По поводу задачи деления ставки Кардано предлагал учитывать количество оставшихся партий, которые надо выиграть. Н. Тарталья также сделал замечания по поводу решения Луки и предложил своё решение (вообще говоря, тоже ошибочное).

Заслуга Галилея также заключается в расширении области исследований на область ошибок наблюдений. Он впервые указал на неизбежность ошибок и классифицировал их на систематические и случайные (такая классификация применяется и сейчас).

Карл Фридрих Гаусс

Возникновение понятия и теории вероятностейПравить

Первые работы о вероятности относятся к XVII веку. Такие как переписка французских учёных Б. Паскаля, П. Ферма (1654 год) и нидерландского учёного X. Гюйгенса (1657 год) давшего самую раннюю из известных научных трактовок вероятности^[4]. По существу Гюйгенс уже оперировал понятием математического ожидания. Швейцарский математик Я. Бернулли установил закон больших чисел для схемы независимых испытаний с двумя исходами (результат был опубликован в 1713 году, уже после его смерти).

В XVIII в. — начале XIX в. теория вероятностей получает развитие в работах А. Муавра (Англия, 1718 год), П. Лаплас (Франция), К. Гаусса (Германия) и С. Пуассона (Франция). Теория вероятностей начинает применяться в теории ошибок наблюдений, развившейся в связи с потребностями геодезии и астрономии, и в теории стрельбы. Закон распределения ошибок по сути предложил Лаплас сначала как экспоненциальную зависимость от ошибки без учёта знака (в 1774 году), затем как экспоненциальную функцию квадрата ошибки (в 1778 году). Последний закон обычно называют распределением Гаусса или нормальным распределением. Бернулли (1778 год) ввёл принцип произведения вероятностей одновременных событий. Адриен Мари Лежандр (1805) разработал метод наименьших квадратов.

Андрей Николаевич Колмогоров

Во второй половине XIX в. развитие теории вероятностей связано с работами русских математиков П. Л. Чебышёва, А. М. Ляпунова и А. А. Маркова (старшего), а также работы по математической статистике А. Кетле (Бельгия) и Ф. Гальтона (Англия) и статистической физике Л. Больцмана (в Австрии), которые создали основу для существенного расширения проблематики теории вероятностей. Наиболее распространённая в настоящее время логическая (аксиоматическая) схема построения основ теории вероятностей разработана в 1933 советским математиком А. Н. Колмогоровым.

Определения вероятностиПравить

Классическое определениеПравить

Классическое «определение» вероятности исходит из понятия равновозможности как объективного свойства изучаемых явлений. Равновозможность является неопределяемым понятием и устанавливается из общих соображений симметрии изучаемых явлений. Например, при подбрасывании монетки исходят из того, что в силу предполагаемой симметрии монетки, однородности материала и случайности (непредвзятости) подбрасывания нет никаких оснований для предпочтения «решки» перед «орлом» или наоборот, то есть выпадение этих сторон можно считать равновозможными (равновероятными).

Наряду с понятием равновозможности в общем случае для классического определения необходимо также понятие элементарного события (исхода), благоприятствующего или нет изучаемому событию A. Речь идёт об исходах, наступление которых исключает возможность наступления иных исходов. Это несовместимые элементарные события. К примеру, при бросании игральной кости выпадение конкретного числа исключает выпадение остальных чисел.

Классическое определение вероятности можно сформулировать следующим образом:

Вероятностью случайного события A называется отношение числа n несовместимых равновероятных элементарных событий, составляющих событие A, к числу всех возможных элементарных событий N:

\text{[math]}

\Pr(A)={\frac {n}{N}}

Например, пусть подбрасываются две кости. Общее количество равновозможных исходов (элементарных событий) равно 36 (так как на каждый из 6 возможных исходов одной кости возможно по 6 вариантов исхода другой). Оценим вероятность выпадения семи очков. Получить 7 очков можно лишь при следующих сочетаниях исходов броска двух костей: 1+6, 2+5, 3+4, 4+3, 5+2, 6+1. То есть всего 6 равновозможных исходов, благоприятствующих получению 7 очков, из 36 возможных исходов броска костей. Следовательно, вероятность будет равна 6/36 или, если сократить, 1/6. Для сравнения: вероятность получения 12 очков или 2 очков равна всего 1/36 — в 6 раз меньше.

Геометрическое определениеПравить

Несмотря на то, что классическое определение является интуитивно понятным и выведенным из практики, оно, как минимум, не может быть непосредственно применено в случае, если количество равновозможных исходов бесконечно. Ярким примером бесконечного числа возможных исходов является ограниченная геометрическая область G, например, на плоскости, с площадью S. Случайно «подброшенная» «точка» с равной вероятностью может оказаться в любой точке этой области. Задача заключается в определении вероятности попадания точки в некоторую подобласть g с площадью s. В таком случае, обобщая классическое определение, можно прийти к геометрическому определению вероятности попадания в подобласть $\text{[math]}$ $\text{[math]}$ $g$ :

\text{[math]}

\Pr(A)={\frac {s}{S}}

В виду равновозможности вероятность эта не зависит от формы области g, она зависит только от её площади. Данное определение естественно можно обобщить и на пространство любой размерности, где вместо площади использовать понятие «объёма». Более того, именно такое определение приводит к современному аксиоматическому определению вероятности. Понятие объёма обобщается до понятия меры некоторого абстрактного множества, к которой предъявляются требования, которыми обладает и «объём» в геометрической интерпретации — в первую очередь, это неотрицательность и аддитивность.

Частотное (статистическое) определениеПравить

Классическое определение при рассмотрении сложных проблем наталкивается на трудности непреодолимого характера. В частности, в некоторых случаях выявить равновозможные случаи может быть невозможно. Даже в случае с монеткой, как известно, существует явно не равновероятная возможность выпадения «ребра», которую из теоретических соображений оценить невозможно (можно только сказать, что оно маловероятно и то это соображение скорее практическое). Поэтому ещё на заре становления теории вероятностей было предложено альтернативное «частотное» определение вероятности. А именно, формально вероятность можно определить как предел частоты наблюдений события A, предполагая однородность наблюдений (то есть одинаковость всех условий наблюдения) и их независимость друг от друга:

$\text{[math]}$ $\text{[math]}$ $\Pr(A)=\lim _{N\rightarrow \infty }{\frac {n}{N}},$

где $\text{[math]}$ $\text{[math]}$ $N$ — количество наблюдений, а $\text{[math]}$ $\text{[math]}$ $n$ — количество наступлений события $\text{[math]}$ $\text{[math]}$ $A$ .

Несмотря на то, что данное определение скорее указывает на способ оценки неизвестной вероятности — путём большого количества однородных и независимых наблюдений — тем не менее в таком определении отражено содержание понятия вероятности. А именно, если событию приписывается некоторая вероятность, как объективная мера его возможности, то это означает, что при фиксированных условиях и многократном повторении мы должны получить частоту его появления, близкую к $\text{[math]}$ $\text{[math]}$ $p$ (тем более близкую, чем больше наблюдений). Собственно, в этом заключается исходный смысл понятия вероятности. В основе лежит объективистский взгляд на явления природы. Ниже будут рассмотрены так называемые законы больших чисел, которые дают теоретическую основу (в рамках излагаемого ниже современного аксиоматического подхода) в том числе для частотной оценки вероятности.

Философские проблемы обоснованияПравить

К моменту создания теории вероятностей основой математики были два класса объектов — числа и геометрические фигуры. Для теории вероятностей потребовалось добавить в этот список совершенно особый объект: случайное событие, а также тесно связанные с ним понятия (вероятность, случайная величина и др.). Своеобразие новой науки проявлялось и в том, что её утверждения носили не безусловный характер, как ранее было принято в математике, а предположительно-вероятностный. Поэтому долгое время не прекращались споры о том, можно ли считать идеализированное событие математическим понятием (и тогда теория вероятностей есть часть математики) или же это факт, наблюдаемый в опыте (и тогда теорию вероятностей следует отнести к естественным наукам).

По мнению Давида Гильберта, теория вероятностей родственна механике, то есть представляет собой математизированную «физическую дисциплину»^[5]. Август де Морган и его последователь У. С. Джевонс считали базовым понятием «субъективную вероятность», то есть количественную меру нашего понимания предмета исследования, и связывали теорию вероятностей с логикой^[6]. Проблемы, связанные с неоднозначной субъективной вероятностью, неоднократно обсуждались, их часто формулируют в виде «вероятностных парадоксов» (см., например, «парадокс трёх узников» или «парадокс мальчика и девочки»). Формализацию субъективной вероятности, совместимую с колмогоровской, предложили Бруно де Финетти (1937) и Леонард Сэвидж (1954).

Во второй половине XX века Альфред Реньи и А. Н. Колмогоров исследовали возможность дать обоснование теории вероятностей на базе теории информации^[7]. В наши дни «сложилось чёткое понимание того, что теория вероятностей является подлинно математической наукой, имеющей вместе с тем самые тесные и непосредственные связи с широким спектром наук о природе, а также с техническими и социально-экономическими дисциплинами»^[8].

Несмотря на доказанную практикой эффективность вероятностных методов, роль случайности в природе, причина и границы статистической устойчивости остаются предметом дискуссий^[9]. «За 200 лет, прошедших со времен Лапласа и Гаусса, наука не добилась продвижения в фундаментальном вопросе — когда возникает статистическая устойчивость»^[10].

Аксиоматическое определениеПравить

В современном математическом подходе вероятность задаётся аксиоматикой Колмогорова. Предполагается, что задано некоторое пространство элементарных событий $\text{[math]}$ $\text{[math]}$ $X$ . Подмножества этого пространства интерпретируются как случайные события. Объединение (сумма) некоторых подмножеств (событий) интерпретируется как событие, заключающееся в наступлении хотя бы одного из этих событий. Пересечение (произведение) подмножеств (событий) интерпретируется как событие, заключающееся в наступлении всех этих событий. Непересекающиеся множества интерпретируются как несовместные события (их совместное наступление невозможно). Соответственно, пустое множество означает невозможное событие.

Вероятностью (вероятностной мерой) называется мера (числовая функция) $\text{[math]}$ $\text{[math]}$ $\mathbf {P}$ , заданная на множестве событий, обладающая следующими свойствами:

Неотрицательность: $\text{[math]}$ $\text{[math]}$ $\forall A\subset X:\mathbf {P} (A)\geqslant 0$ ,
Аддитивность: вероятность наступления хотя бы одного (то есть суммы) из попарно несовместных событий равна сумме вероятностей этих событий; другими словами, если $\text{[math]}$ $\text{[math]}$ $A_{i}A_{j}=\varnothing$ при $\text{[math]}$ $\text{[math]}$ $i\neq j$ , то $\text{[math]}$ $\text{[math]}$ $\mathbf {P} \left(\sum _{i}A_{i}\right)=\sum _{i}\mathbf {P} (A_{i})$ .
Конечность (ограниченность единицей): $\text{[math]}$ $\text{[math]}$ $\mathbf {P} (X)=1$ ,

В случае если пространство элементарных событий X конечно, то достаточно указанного условия аддитивности для произвольных двух несовместных событий, из которого будет следовать аддитивность для любого конечного количества несовместных событий. Однако, в случае бесконечного (счётного или несчётного) пространства элементарных событий этого условия оказывается недостаточно. Требуется так называемая счётная или сигма-аддитивность, то есть выполнение свойства аддитивности для любого не более чем счётного семейства попарно несовместных событий. Это необходимо для обеспечения «непрерывности» вероятностной меры.

Вероятностная мера может быть определена не для всех подмножеств множества $\text{[math]}$ $\text{[math]}$ $X$ . Предполагается, что она определена на некоторой сигма-алгебре $\text{[math]}$ $\text{[math]}$ $\Omega$ подмножеств^[11]. Эти подмножества называются измеримыми по данной вероятностной мере и именно они являются случайными событиями. Совокупность $\text{[math]}$ $\text{[math]}$ $(X,\Omega ,\mathbf {P} )$ — то есть множество элементарных событий, сигма-алгебра его подмножеств и вероятностная мера — называется вероятностным пространством.

Свойства вероятностиПравить

Основные свойства вероятности проще всего определить, исходя из аксиоматического определения вероятности.

1) вероятность невозможного события (пустого множества $\text{[math]}$ $\text{[math]}$ $\varnothing$ ) равна нулю:

\text{[math]}

\mathbf {P} \{\varnothing \}=0;

Это следует из того, что каждое событие можно представить как сумму этого события и невозможного события, что в силу аддитивности и конечности вероятностной меры означает, что вероятность невозможного события должна быть равна нулю.

2) если событие A включается («входит») в событие B, то есть $\text{[math]}$ $\text{[math]}$ $A\subset B$ , то есть наступление события A влечёт также наступление события B, то:

\text{[math]}

\mathbf {P} \{A\}\leqslant \mathbf {P} \{B\};

Это следует из неотрицательности и аддитивности вероятностной меры, так как событие $\text{[math]}$ $\text{[math]}$ $B$ , возможно, «содержит» кроме события $\text{[math]}$ $\text{[math]}$ $A$ ещё какие-то другие события, несовместные с $\text{[math]}$ $\text{[math]}$ $A$ .

3) вероятность каждого события $\text{[math]}$ $\text{[math]}$ $A$ находится от 0 до 1, то есть удовлетворяет неравенствам:

\text{[math]}

0\leqslant \mathbf {P} \{A\}\leqslant 1;

Первая часть неравенства (неотрицательность) утверждается аксиоматически, а вторая следует из предыдущего свойства с учётом того, что любое событие «входит» в $\text{[math]}$ $\text{[math]}$ $X$ , а для $\text{[math]}$ $\text{[math]}$ $X$ аксиоматически предполагается $\text{[math]}$ $\text{[math]}$ $\mathbf {P} \{X\}=1$ .

4) вероятность наступления события $\text{[math]}$ $\text{[math]}$ $B\setminus A$ , где $\text{[math]}$ $\text{[math]}$ $A\subset B$ , заключающегося в наступлении события $\text{[math]}$ $\text{[math]}$ $B$ при одновременном ненаступлении события $\text{[math]}$ $\text{[math]}$ $A$ , равна:

\text{[math]}

\mathbf {P} \{B\setminus A\}=\mathbf {P} \{B\}-\mathbf {P} \{A\};

Это следует из аддитивности вероятности для несовместных событий и из того, что события $\text{[math]}$ $\text{[math]}$ $A$ и $\text{[math]}$ $\text{[math]}$ $B\setminus A$ являются несовместными по условию, а их сумма равна событию $\text{[math]}$ $\text{[math]}$ $B$ .

5) вероятность события $\text{[math]}$ $\text{[math]}$ ${\bar {A}}$ , противоположного событию $\text{[math]}$ $\text{[math]}$ $A$ , равна:

\text{[math]}

\mathbf {P} \{{\bar {A}}\}=1-\mathbf {P} \{A\};

Это следует из предыдущего свойства, если в качестве множества $\text{[math]}$ $\text{[math]}$ $B$ использовать всё пространство $\text{[math]}$ $\text{[math]}$ $X$ и учесть, что $\text{[math]}$ $\text{[math]}$ $\mathbf {P} \{X\}=1$ .

6) (теорема сложения вероятностей) вероятность наступления хотя бы одного из (то есть суммы) произвольных (не обязательно несовместных) двух событий $\text{[math]}$ $\text{[math]}$ $A$ и $\text{[math]}$ $\text{[math]}$ $B$ равна:

\text{[math]}

\mathbf {P} \{A+B\}=\mathbf {P} \{A\}+\mathbf {P} \{B\}-\mathbf {P} \{AB\}.

Это свойство можно получить, если представить объединение двух произвольных множеств как объединение двух непересекающихся — первого и разности между вторым и пересечением исходных множеств: $\text{[math]}$ $\text{[math]}$ $A+B=A+(B\setminus (AB))$ . Отсюда учитывая аддитивность вероятности для непересекающихся множеств и формулу для вероятности разности (см. свойство 4) множеств, получаем требуемое свойство.

Условная вероятностьПравить

Формула БайесаПравить

Вероятность наступления события $\text{[math]}$ $\text{[math]}$ $A$ , при условии наступления события $\text{[math]}$ $\text{[math]}$ $B$ , называется условной вероятностью $\text{[math]}$ $\text{[math]}$ $A$ (при данном условии) и обозначается $\text{[math]}$ $\text{[math]}$ $\Pr(A\mid B)$ . Наиболее просто вывести формулу определения условной вероятности исходя из классического определения вероятности. Для данных двух событий $\text{[math]}$ $\text{[math]}$ $A$ и $\text{[math]}$ $\text{[math]}$ $B$ рассмотрим следующий набор несовместных событий: $\text{[math]}$ $\text{[math]}$ $A{\overline {B}},AB,{\overline {A}}B,{\overline {A}}\cdot {\overline {B}}$ , которые исчерпывают все возможные варианты исходов (такой набор событий называют полным — см. ниже). Общее количество равновозможных исходов равно $\text{[math]}$ $\text{[math]}$ $n$ . Если событие $\text{[math]}$ $\text{[math]}$ $B$ уже наступило, то равновозможные исходы ограничивается лишь двумя событиями $\text{[math]}$ $\text{[math]}$ $AB,{\overline {A}}B$ , что эквивалентно событию $\text{[math]}$ $\text{[math]}$ $B$ . Пусть количество этих исходов равно $\text{[math]}$ $\text{[math]}$ $n_{B}$ . Из этих исходов событию $\text{[math]}$ $\text{[math]}$ $A$ благоприятствуют лишь те, что связаны с событием $\text{[math]}$ $\text{[math]}$ $A B$ . Количество соответствующих исходов обозначим $\text{[math]}$ $\text{[math]}$ $n_{AB}$ . Тогда согласно классическому определению вероятности вероятность события $\text{[math]}$ $\text{[math]}$ $A$ при условии наступления события $\text{[math]}$ $\text{[math]}$ $B$ будет равна $\text{[math]}$ $\text{[math]}$ $\Pr(A\mid B)=n_{AB}/n_{B}$ , разделив числитель и знаменатель на общее количество равновозможных исходов $\text{[math]}$ $\text{[math]}$ $n$ и повторно учитывая классическое определение, окончательно получим формулу условной вероятности:

\text{[math]}

\Pr(A\mid B)={\frac {\Pr(AB)}{\Pr(B)}}

.

Отсюда следует так называемая теорема умножения вероятностей:

\text{[math]}

\Pr(AB)=\Pr(B)\cdot \Pr(A\mid B)

.

В силу симметрии, аналогично можно показать, что также $\text{[math]}$ $\text{[math]}$ $\Pr(AB)=\Pr(A)\cdot \Pr(B\mid A)$ , отсюда следует формула Байеса:

\text{[math]}

\Pr(A\mid B)={\frac {\Pr(A)\cdot \Pr(B\mid A)}{\Pr(B)}}

Независимость событийПравить

События A и B называются независимыми, если вероятность наступления одного из них не зависит от того, наступило ли другое событие. С учётом понятия условной вероятности это означает, что $\text{[math]}$ $\text{[math]}$ $\Pr(A\mid B)=\Pr(A)$ , откуда следует, что для независимых событий выполняется равенство

\text{[math]}

\Pr(AB)=\Pr(A)\cdot \Pr(B).

В рамках аксиоматического подхода данная формула принимается как определение понятия независимости двух событий. Для произвольной (конечной) совокупности событий $\text{[math]}$ $\text{[math]}$ $A_{i}$ их независимость в совокупности означает, что вероятность их совместного наступления равна произведению их вероятностей:

\text{[math]}

\Pr(A_{1}A_{2}\dotsb A_{n})=\Pr(A_{1})\Pr(A_{2})\dotsb \Pr(A_{n}).

Выведенная (в рамках классического определения вероятности) выше формула условной вероятности при аксиоматическом определении вероятности является определением условной вероятности. Соответственно, как следствие определений независимых событий и условной вероятности, получается равенство условной и безусловной вероятностей события.

Полная вероятность и формула БайесаПравить

Набор событий $\text{[math]}$ $\text{[math]}$ $A_{i}$ , хотя бы одно из которых обязательно (с единичной вероятностью) наступит в результате испытания, называется полным. Это означает, что набор таких событий исчерпывает все возможные варианты исходов. Формально в рамках аксиоматического подхода это означает, что $\text{[math]}$ $\text{[math]}$ $\sum _{i}A_{i}=X$ . Если эти события несовместны, то в рамках классического определения это означает, что сумма количеств элементарных событий, благоприятствующих тому или иному событию, равно общему количеству равновозможных исходов.

Пусть имеется полный набор попарно несовместных событий $\text{[math]}$ $\text{[math]}$ $A_{i}$ . Тогда для любого события $\text{[math]}$ $\text{[math]}$ $B$ верна следующая формула расчёта его вероятности (формула полной вероятности):

\text{[math]}

\Pr(B)=\sum _{i=1}^{n}\Pr(B\mid A_{i})\Pr(A_{i})

Тогда вышеописанную формулу Байеса с учётом полной вероятности можно записать в следующем виде:

$\text{[math]}$ $\text{[math]}$ $\Pr(A_{j}\mid B)={\frac {\Pr(A_{j})\cdot \Pr(B\mid A_{j})}{\sum _{i=1}^{n}\Pr(A_{i})\cdot \Pr(B\mid A_{i})}}$

Данная формула является основой альтернативного подхода к вероятности — байесовского или субъективного подхода (см. ниже).

Вероятность и случайные величиныПравить

Важнейший частный случай применения «вероятности» — вероятность получения в результате испытания или наблюдения того или иного числового значения некоторой измеряемой (наблюдаемой) величины. Предполагается, что до проведения испытания (наблюдения) точное значение этой величины неизвестно, то есть имеется явная неопределённость, связанная обычно (за исключением квантовой физики) с невозможностью учёта всех факторов, влияющих на результат. Такие величины называют случайными. В современной теории вероятностей понятие случайной величины формализуется и она определяется как функция «случая» — функция на пространстве элементарных событий. При таком определении наблюдаются не сами элементарные события, а «реализации», конкретные значения случайной величины. Например, при подбрасывании монетки выпадает «решка» или «орел». Если ввести функцию, ставящую в соответствие «решке» — число 1, а «орлу» — 0, то получим случайную величину как функцию указанных исходов. При этом понятие случайной величины обобщается на функции, отображающие пространство элементарных событий в некоторое пространство произвольной природы, соответственно можно ввести понятия случайного вектора, случайного множества и т. д. Однако, обычно под случайной величиной подразумевают именно числовую функцию (величину).

Отвлекаясь от описанной формализации под пространством элементарных событий можно понимать множество возможных значений случайной величины. Сигма-алгеброй подмножеств являются произвольные интервалы на числовой оси, их всевозможные (счётные) объединения и пересечения. Вероятностную меру называют в данном случае распределением случайной величины. Достаточно задать вероятностную меру для интервалов вида $\text{[math]}$ $\text{[math]}$ $(-\infty ;x)$ , поскольку произвольный интервал можно представить как объединение или пересечение таких интервалов. Предполагается, что каждому интервалу вышеуказаного вида поставлена в соответствие некоторая вероятность $\text{[math]}$ $\text{[math]}$ $F(x)=P(X<x)$ , то есть некоторая функция возможных значений $\text{[math]}$ $\text{[math]}$ $x$ . Такую функцию называют интегральной, кумулятивной или просто функцией распределения случайной величины. В случае дифференцируемости этой функции (в этом случае соответствующие случайные величины называются непрерывными) вводится также аналитически часто более удобная функция — плотность распределения — производная функции распределения: $\text{[math]}$ $\text{[math]}$ $f(x)=F'(x)$ . В случае дискретных случайных величин вместо плотности (она не существует в этом случае) можно использовать непосредственно ряд распределения $\text{[math]}$ $\text{[math]}$ $p_{i}$ — вероятность $\text{[math]}$ $\text{[math]}$ $i$ -го значения. Соответствующая функция распределения будет связана с рядом распределения как: $\text{[math]}$ $\text{[math]}$ $F(x)=\sum _{x_{i}<x}p_{i}$ . Вероятность того, что случайная величина окажется в некотором интервале $\text{[math]}$ $\text{[math]}$ $(x_{1},x_{2})$ определяется как разность значений функции распределения на концах этого интервала. Через плотность распределения — это соответствующий интеграл от плотности на данном интервале (для дискретной случайной величины — просто сумма вероятностей значений из этого интервала).

Доска Гальтона — демонстрирует нормальное распределение

Распределение случайной величины даёт её полную характеристику. Однако, часто используют отдельные характеристики этого распределения. В первую очередь это математическое ожидание случайной величины — среднее ожидаемое значение случайной величины с учётом взвешивания по вероятностям появления тех или иных значений, и дисперсия или вариация — средний квадрат отклонения случайной величины от её математического ожидания. В некоторых случаях используются и иные характеристики, среди которых важное значение имеют асимметрия и эксцесс. Описанные показатели являются частными случаями так называемых моментов распределения.

Существуют некоторые стандартные законы распределения, часто используемые на практике. В первую очередь — это нормальное распределение (распределение Гаусса). Оно полностью характеризуется двумя параметрами — математическим ожиданием и дисперсией. Его широкое использование связано, в частности, с так называемыми предельными теоремами (см. ниже). При проверке гипотез часто возникают распределения Хи-квадрат, распределение Стьюдента, распределение Фишера. При анализе дискретных случайных величин рассматриваются биномиальное распределение, распределение Пуассона и др. Также часто рассматривается гамма-распределение, частным случаем которого является экспоненциальное распределение, а также указанное выше распределение Хи-квадрат Естественно, используемые на практике распределения не ограничиваются только этими распределениями.

Часто на практике исходя из априорных соображений делается предположение, что распределение вероятностей данной случайной величины относится к некоторому известному с точностью до параметров распределению. Например, к тому же нормальному распределению, но с неизвестным математическим ожиданием и дисперсией (эти два параметра однозначно определяют все нормальное распределение). Задачей статистических наук (математическая статистика, эконометрика и т. д.) в таком случае является оценка значений этих параметров наиболее эффективным (точным) способом. Существуют критерии, с помощью которых можно установить степень «истинности» соответствующих методов оценки. Обычно требуется как минимум состоятельность оценки, несмещённость и эффективность в некотором классе оценок.

На практике применяются также непараметрические методы оценки распределений.

Законы больших чиселПравить

Важнейшее значение в теории вероятностей и в её приложениях имеет группа теорем, объединяемых обычно под названием «закон больших чисел» или предельных теорем. Не прибегая к строгим формулировкам, можно сказать, например, что при некоторых слабых условиях среднее значение независимых одинаково распределенных случайных величин стремится к их математическому ожиданию при достаточно большом количестве этих случайных величин. Если в качестве совокупности случайных величин рассматривать независимые наблюдения одной и той же случайной величины, то это означает, что среднее по выборочным наблюдениям должно стремиться к истинному (неизвестному) математическому ожиданию этой случайной величины. Это закон больших чисел в форме Чебышёва. Это даёт основу для получения соответствующих оценок.

Весьма частным, но очень важным случаем является схема Бернулли — независимые испытания, в результате которых некоторое событие либо происходит, либо нет. Предполагается, что в каждом испытании вероятность наступления события одинакова и равна $\text{[math]}$ $\text{[math]}$ $p$ (но она неизвестна). Эту схему можно свести к средней величине, если ввести формальную случайную величину X, являющуюся индикатором наступления события: она равна 1 при наступлении события и 0 при ненаступлении события. Для такой случайной величины математическое ожидание также равно $\text{[math]}$ $\text{[math]}$ $p$ . Тогда среднее значение такой случайной величины — это фактически частота наступления события $\text{[math]}$ $\text{[math]}$ $A$ . Согласно вышеуказанной теореме это среднее (частота) должно стремиться к истинному математическому ожиданию этой случайной величины, то есть к неизвестной вероятности $\text{[math]}$ $\text{[math]}$ $p$ . Таким образом, с увеличением количества наблюдений частоту наступления события можно использовать в качестве хорошей оценки неизвестной вероятности. Это так называемый закон больших чисел Бернулли. Это закон был исторически первым законом больших чисел. Более строго можно как минимум утверждать, что вероятность того, что частота будет отклоняться от $\text{[math]}$ $\text{[math]}$ $p$ на некоторую величину $\text{[math]}$ $\text{[math]}$ $\varepsilon$ , стремится к нулю для любых значений $\text{[math]}$ $\text{[math]}$ $\varepsilon$ . Более общий результат (теорема Гливенко — Кантелли) заключается в том, что эмпирическое распределение в целом стремится к истинному распределению вероятностей с ростом количества наблюдений.

Наряду с указанными теоремами существует так называемая центральная предельная теорема, которая даёт предельное распределение вероятностей для средней, а именно, при определённых слабых условиях среднее значение наблюдений случайной величины при достаточно большом количестве наблюдений имеют нормальное распределение (независимо от исходного распределения самой случайной величины). Например, такое имеет место для среднего значения независимых одинаково распределенных случайных величин. В частности эта теорема применима и к схеме Бернулли. Вообще количество появлений события A в n испытаниях имеет биномиальное распределение, однако при достаточно большом количестве наблюдений это распределение согласно указанной теореме стремится к нормальному распределению в данном случае с математическим ожиданием $\text{[math]}$ $\text{[math]}$ $n p$ и дисперсией $\text{[math]}$ $\text{[math]}$ $np(1-p)$ , где $\text{[math]}$ $\text{[math]}$ $p$ — вероятность появления события А в каждом испытании. Это утверждается в локальной и интегральной теоремах Муавра-Лапласа. Отсюда же следует и указанный выше вывод, а именно: среднее значение случайной величины-индикатора события — то есть частота появления события в испытаниях — будет иметь в пределе математическое ожидание $\text{[math]}$ $\text{[math]}$ $p$ и дисперсию $\text{[math]}$ $\text{[math]}$ $p(1-p)/n$ , которая стремится к нулю с ростом количества испытаний. Таким образом, частота стремится к истинной вероятности наступления события при увеличении количества независимых испытаний, причем мы знаем распределение частоты при достаточно большом количестве наблюдений (строго говоря в пределе частота $\text{[math]}$ $\text{[math]}$ ${\hat {p}}$ перестает быть случайной величиной, поэтому корректней говорить о распределении не частоты, а величины $\text{[math]}$ $\text{[math]}$ ${\sqrt {n}}\cdot ({\hat {p}}-p)$ — именно она в пределе имеет нормальное распределение с нулевым математическим ожиданием и дисперсией $\text{[math]}$ $\text{[math]}$ $p(1-p)$ ^{[источник не указан 788 дней]}).

Байесовский подход к вероятностиПравить

В основе вышеописанного объективного (частотного) подхода лежит предположение о наличии объективной неопределённости, присущей изучаемым явлениям. В альтернативном байесовском подходе неопределённость трактуется субъективно — как мера нашего незнания. В рамках байесовского подхода под вероятностью понимается степень уверенности в истинности суждения — субъективная вероятность.

Идея байесовского подхода заключается в переходе от априорных знаний к апостерирорным с учётом наблюдаемых явлений. Суть байесовского подхода следует из описанной выше формулы Байеса. Пусть имеются полный набор гипотез $\text{[math]}$ $\text{[math]}$ $A_{i}$ , причем из априорных соображений оценены вероятности справедливости этих гипотез (степень уверенности в них). Полнота набора означает, что хотя бы одна из этих гипотез верна и сумма априорных вероятностей $\text{[math]}$ $\text{[math]}$ $\Pr(A_{i})$ равна 1. Также для изучаемого события $\text{[math]}$ $\text{[math]}$ $B$ из априорных соображений известны вероятности $\text{[math]}$ $\text{[math]}$ $\Pr(B\mid A_{i})$ — вероятности наступления события $\text{[math]}$ $\text{[math]}$ $B$ , при условии справедливости гипотезы $\text{[math]}$ $\text{[math]}$ $A_{i}$ . Тогда с помощью формулы Байеса можно определить апостериорные вероятности $\text{[math]}$ $\text{[math]}$ $\Pr(A_{j}\mid B)$ — то есть степень уверенности в справедливости гипотезы $\text{[math]}$ $\text{[math]}$ $A_{j}$ после того, как событие $\text{[math]}$ $\text{[math]}$ $B$ произошло. Собственно, процедуру можно повторить принимая новые вероятности за априорные и снова делая испытание, тем самым итеративно уточняя апостериорные вероятности гипотез.

В частности в отличие от базового подхода к оценке распределений случайных величин, где предполагается, что на основе наблюдений оцениваются значения неизвестных параметров распределений, в байесовском подходе предполагается что параметры — тоже случайные величины (с точки зрения нашего незнания их значений). В качестве гипотез выступают те или иные возможные значения параметров и предполагаются данными некоторые априорные плотности неизвестных параметров $\text{[math]}$ $\text{[math]}$ $p(\theta )$ . В качестве оценки неизвестных параметров выступает апостериорное распределение. Пусть в результате наблюдений получены некоторые значения $\text{[math]}$ $\text{[math]}$ $x$ изучаемой случайной величины. Тогда для значений данной выборки предполагая известным правдоподобие — вероятность (плотность) получения данной выборки при данных значениях параметров $\text{[math]}$ $\text{[math]}$ $p(x\mid \theta )$ , по формуле Байеса (в данном случае непрерывный аналог этой формулы, где вместо вероятностей участвуют плотности, а суммирование заменено интегрированием) получим апостериорную вероятность (плотность) $\text{[math]}$ $\text{[math]}$ $p(\theta \mid x)$ параметров при данной выборке.

Вероятность, информация и энтропияПравить

Пусть имеется $\text{[math]}$ $\text{[math]}$ $N$ равновероятных исходов. Степень неопределённости опыта в этой ситуации можно характеризовать числом $\text{[math]}$ $\text{[math]}$ $H=\log _{2}N$ . Этот показатель, введённый инженером-связистом Хартли в 1928 году характеризует информацию, которую необходимо иметь, чтобы знать какой именно из $\text{[math]}$ $\text{[math]}$ $N$ равновозможных вариантов имеет место, то есть свести неопределённость опыта к нулю. Простейший способ выяснить это — задать вопросы типа «номер исхода меньше половины N», если да, то аналогичный вопрос можно задать и для одной из половин (в зависимости от ответа на вопрос) и т. д. Ответ на каждый подобный вопрос сокращает неопределённость. Всего таких вопросов для полного снятия неопределённости понадобится как раз $\text{[math]}$ $\text{[math]}$ $H$ . Более формально, номера исходов можно представить в двоичной системе счисления, тогда $\text{[math]}$ $\text{[math]}$ $H$ — это количество необходимых разрядов для такого представления, то есть количество информации в битах, с помощью которого можно закодировать реализацию равновозможных исходов. В общем случае, единица информации может быть и иной, поэтому логарифм теоретически можно использовать с любым основанием (например, если мы хотим изменять информацию в байтах, то нужно использовать логарифм по основанию 256).

Пусть теперь задана некоторая случайная величина α, распределённая на $\text{[math]}$ $\text{[math]}$ $N$ исходах $\text{[math]}$ $\text{[math]}$ $a_{1},a_{2},\dotsc ,a_{N}$ с вероятностями $\text{[math]}$ $\text{[math]}$ $p_{1},p_{2},\dotsc ,p_{N}$ , $\text{[math]}$ $\text{[math]}$ $\textstyle {\sum _{i}p_{i}=1}$ , тогда количество информации в случайной величине α определяется следующим образом (формула Шеннона):

\text{[math]}

H(\alpha )=\sum _{i}p_{i}\log _{2}{\frac {1}{p_{i}}}=-\sum _{i}p_{i}\log _{2}p_{i}=-\mathop {\mathbb {E} } \limits _{a\gets \alpha }[\log _{2}\Pr(\alpha =a)]

где $\text{[math]}$ $\text{[math]}$ $\mathbb {E}$ — знак математического ожидания.

При равновероятных исходах ( $\text{[math]}$ $\text{[math]}$ $p_{i}=1/N$ ) получаем уже известное соотношение $\text{[math]}$ $\text{[math]}$ $H(\alpha )=\log _{2}N$ . Для непрерывной случайной величины в этой формуле необходимо использовать вместо вероятностей — функцию плотности распределения и вместо суммы — соответствующий интеграл.

Указанную величину называют информацией, информационным количеством, информационной энтропией и т. д. Такое определение информации абстрагируется от какого-либо содержания информации, содержания конкретных исходов. Информационное количество определяется только на основе вероятностей. Величину $\text{[math]}$ $\text{[math]}$ $H$ Шеннон назвал энтропией в связи со схожестью с термодинамической энтропией. Последнее понятие впервые ввёл Рудольф Клаузис в 1865 году, а вероятностное толкование энтропии дал Людвиг Больцман в 1877 году. Энтропия макроскопической системы — это мера числа возможных микросостояний для данного макросостояния (более конкретно она пропорциональна логарифму количества микросостояний — статистическому весу) или мера «внутреннего беспорядка» макросистемы.

Вероятность и квантовая физикаПравить

В квантовой механике состояние системы (частицы) характеризуется волновой функцией (вообще говоря вектором состояния) — комплекснозначной функцией «координат», квадрат модуля которого интерпретируется как плотность вероятности получения заданных значений «координат». Согласно современным представлениям вероятностное определение состояния является полным и причиной вероятностного характера квантовой физики не являются какие-либо «скрытые» факторы — это связано с природой самих процессов. В квантовой физике оказываются возможными любые взаимопревращения различных частиц, не запрещённые теми или иными законами сохранения. И эти взаимопревращения подчиняются закономерностям — вероятностным закономерностям. По современным представлениям принципиально невозможно предсказать ни момент взаимопревращения, ни конкретный результат. Можно лишь говорить о вероятностях тех или иных процессов превращения. Вместо точных классических величин в квантовой физике возможна только оценка средних значений (математических ожиданий) этих величин, например, среднее время жизни частицы.

Вероятность в других сферахПравить

Кроме вопроса о вероятности факта, может возникать, как в области права, так и в области нравственной (при известной этической точке зрения) вопрос о том, насколько вероятно, что данный частный факт составляет нарушение общего закона. Этот вопрос, служащий основным мотивом в религиозной юриспруденции Талмуда, вызвал и в римско-католическом нравственном богословии (особенно с конца XVI века) весьма сложные систематические построения и огромную литературу, догматическую и полемическую (см. Пробабилизм)^[1].

См. такжеПравить

ПримечанияПравить

↑ ¹ ² ³ В. С. Соловьёв Вероятность // Энциклопедический словарь Брокгауза и Ефрона : в 86 т. (82 т. и 4 доп.). — СПб., 1890—1907.
↑ Так, например, в юриспруденции, когда подлежащий суду факт устанавливается на основании свидетельских показаний, он всегда остаётся, строго говоря, лишь вероятным, и необходимо знать, насколько эта вероятность значительна. В римском праве здесь принималось четверное деление: probatio plena (где вероятность практически переходит в достоверность), далее — probatio minus plena, затем — probatio semiplena major и, наконец, probatio semiplena minor. В римском языке слово вероятность этимологически родственно слову честность.
↑ ¹ ² Гнеденко Б. В. Курс теории вероятностей: Учебник — Изд. 6-е, перераб. и доп. — М.: Наука. Гл. ред. физ. мат. лит., 1988 — 448с.- с.386-387
↑ Abrams, William, A Brief History of Probability, Second Moment, <http://www.secondmoment.org/articles/probability.php>. Проверено 10 ноября 2017. Архивная копия от 24 июля 2017 на Wayback Machine
↑ Григорян А. А. Теория вероятностей Р. фон Мизеса: история и философско-методологические основания // Историко-математические исследования. — М.: Янус-К, 1999. — № 38 (4). — С. 198—220.
↑ Математика XIX века. Том I, 1978, с. 238—239.
↑ Гнеденко Б. В., 2005, с. 407—408.
↑ Математика XIX века. Том I, 1978, с. 240.
↑ Алимов Ю. И., Кравцов Ю. А. Является ли вероятность «нормальной» физической величиной? // Успехи физических наук. — М., 1992. — № 162 (7). — С. 149—182. Архивировано 20 октября 2020 года.
↑ Тутубалин В. Н. Вероятность, компьютеры и обработка результатов эксперимента // Успехи физических наук. — М., 1993. — № 163 (7). — С. 93—109. Архивировано 21 января 2021 года.
↑ Точнее предполагается, что мера определена как минимум на некотором полукольце подмножеств и далее доказывается, что она в таком случае определена и на минимальном кольце, содержащем это полукольцо и более того, эту меру можно продолжить на сигма-алгебру подмножеств

ЛитератураПравить

Альфред Реньи. Письма о вероятности / Пер. с венг. Д. Сааса и А. Крамли под ред. Б. В. Гнеденко. — М.: Мир, 1970.
Вероятность в физике // Энциклопедический словарь юного физика / В. А. Чуянов (сост.). — М.: Педагогика, 1984. — С. 39. — 352 с.
Гнеденко Б. В. Курс теории вероятностей. — М., 2007. — 42 с.
Гнеденко Б. В. Очерк по истории теории вероятностей // Курс теории вероятностей. 8-е изд. — Μ.: Едиториал УРСС, 2005. — 448 с. — ISBN 5-354-01091-8. — С. 366—435.
Купцов В. И. Детерминизм и вероятность. — М., 1976. — 256 с.
Математика XIX века. Математическая логика, алгебра, теория чисел, теория вероятностей. Том I / Под ред. А. Н. Колмогорова, А. П. Юшкевича. — М.: Наука, 1978. — 255 с.

[ЭСБЕ-1] ¹ ² ³ В. С. Соловьёв Вероятность // Энциклопедический словарь Брокгауза и Ефрона : в 86 т. (82 т. и 4 доп.). — СПб., 1890—1907.

[2] Так, например, в юриспруденции, когда подлежащий суду факт устанавливается на основании свидетельских показаний, он всегда остаётся, строго говоря, лишь вероятным, и необходимо знать, насколько эта вероятность значительна. В римском праве здесь принималось четверное деление: probatio plena (где вероятность практически переходит в достоверность), далее — probatio minus plena, затем — probatio semiplena major и, наконец, probatio semiplena minor. В римском языке слово вероятность этимологически родственно слову честность.

[Gnedenko-3] ¹ ² Гнеденко Б. В. Курс теории вероятностей: Учебник — Изд. 6-е, перераб. и доп. — М.: Наука. Гл. ред. физ. мат. лит., 1988 — 448с.- с.386-387

[4] Abrams, William, A Brief History of Probability, Second Moment, <http://www.secondmoment.org/articles/probability.php>. Проверено 10 ноября 2017. Архивная копия от 24 июля 2017 на Wayback Machine

[GRIG-5] Григорян А. А. Теория вероятностей Р. фон Мизеса: история и философско-методологические основания // Историко-математические исследования. — М.: Янус-К, 1999. — № 38 (4). — С. 198—220.

[_37436099a347e955-6] Математика XIX века. Том I, 1978, с. 238—239.

[_ce9799fbadd5425d-7] Гнеденко Б. В., 2005, с. 407—408.

[_f7d955659b6157d4-8] Математика XIX века. Том I, 1978, с. 240.

[9] Алимов Ю. И., Кравцов Ю. А. Является ли вероятность «нормальной» физической величиной? // Успехи физических наук. — М., 1992. — № 162 (7). — С. 149—182. Архивировано 20 октября 2020 года.

[10] Тутубалин В. Н. Вероятность, компьютеры и обработка результатов эксперимента // Успехи физических наук. — М., 1993. — № 163 (7). — С. 93—109. Архивировано 21 января 2021 года.

[11] Точнее предполагается, что мера определена как минимум на некотором полукольце подмножеств и далее доказывается, что она в таком случае определена и на минимальном кольце, содержащем это полукольцо и более того, эту меру можно продолжить на сигма-алгебру подмножеств

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]