Основы распределений вероятности

Представьте себе, что вы находитесь на ипподроме и ведете запись мест, на которых лошади финишируют в забегах. Вы записываете, какая лошадь пришла первой, какая второй и т. д. для каждого забега. Учитываются только первые десять мест. Если лошадь пришла после десятой, то вы запишете ее на десятое место. Через несколько дней вы соберете достаточное количество информации и увидите распре- деление финишных мест для каждой лошади.

Теперь вы можете взять полученные данные и нанести на график. По горизонтальной оси будут отмечаться места, на которых лошадь финишировала, слева на оси будет наихудшее место (десятое), а справа — наилучшее (первое).

На вертикальной оси мы будем отмечать, сколь- ко раз беговая лошадь финишировала в позиции, отмеченной на горизонтальной оси. Вы увидите, что построенная кривая будет иметь колоколообразную форму.

При таком сценарии есть десять возможных финишных мест для каждого за- бега. Мы будем говорить, что в этом распределении — десять ячеек (bins). Посмотрим, что произойдет, если вместо десяти мы будем использовать пять ячеек. Первая ячейка будет для первого и второго места, вторая ячейка — для третьего и четвертого места и т. д. Как это отразится на результатах?

Использование меньшего количества ячеек при том же наборе данных в результате дало бы распределение вероятности с тем же профилем, что и при большом количестве ячеек, т. е. графически они бы выглядели примерно одинаково.

Однако использование меньшего количества ячеек уменьшает информационное содержание распределения, и наоборот, использование большего количества ячеек повышает информационное содержание распределения. Если вместо финишных позиций лошадей в каждом забеге мы будем записывать время, за которое пробежала лошадь, округленное до ближайшей секунды, то получим не десять ячеек, а больше, и, таким образом, информационное содержание распределения увеличится.

Если бы мы записали точное время финиша, а не округленное до секунд, то могли бы построить непрерывное распределение. При непрерывном распределении нет ячеек. Представьте непрерывное распределение как серию бесконечно малых ячеек.

Непрерывное распределение отличается от дискретного, которое является ячеистым распределением. Хотя создание ячеек уменьшает информационное содержание распределения, в реальной жизни это единственно возможный подход для обработки ячеистых данных, поэтому на практике приходится жертвовать частью информации, сохраняя при этом профиль распределения.

И наконец, вы должны понимать, что можно взять непрерывное распределение и сделать его дискретным путем создания ячеек, но невозможно дискретное распределение переделать в непрерывное.

Когда мы имеем дело с торговыми прибылями и убытками, то чаще всего рас- сматриваем непрерывное распределение. Сделка может иметь множество исходов (хотя мы можем округлить цены до ближайшего цента). Для того чтобы работать с таким распределением, потребуется разбить данные на ячейки, например шириной 100 долл.

Такое распределение имело бы отдельную ячейку для сделок, прибыли которых оказались ниже 99,99 долл., другую ячейку — для сделок от 100 до 199,99 долл. и т. д. При таком подходе будет определенная потеря информации, но профиль распределения торговых прибылей и убытков не изменится.

Узнай цену консультации

"Да забей ты на эти дипломы и экзамены!” (дворник Кузьмич)