Корреляция регрессионный анализ

При рассмотрении таких методов прогнозирования, как анализ временных рядов и экспоненциальное сглаживание, мы исходили из того, что у нас имеются данные прошлых периодов и мы можем их использовать. Но в случае отсутствия таких данных (открытие нового магазина) для прогнозирования объема продаж нам придется прибегнуть к другим методам.

Таким образом, в подобных ситуациях мы будем использовать подход, целью которого является установление взаимосвязи между уровнем продаж и другими переменными, например, расходами на рекламу нового товара, численностью населения, проживающего в непосредственной близости от магазина и т. д.

Данные о расходах на рекламу нового товара и численности населения, проживающего в непосредственной близости от магазина, являются независимыми переменными. Переменные же, которые мы пытаемся объяснить, в данном случае объем продаж, являются зависимыми переменными.

Схема разработки прогноза в данном случае состоит из следующих этапов:

  • сбор данных о значениях зависимых и независимых переменных;
  • анализ данных на предмет наличия связи;
  • если связь существует, то необходимо оценить, насколько она сильна. Это будет корреляция.

Если будет установлено наличие тесной связи, то необходимо постараться вывести математическое уравнение, описывающее эту связь. Это будет регрессия. Чтобы составить прогноз поведения рассматриваемой переменной в новой ситуации, необходимо знать соответствующие значения независимой переменной, так как только в этом случае мы сможем рассчитать значения зависимой переменной.

Тогегная диаграмма

Первый этап корреляционного анализа — сбор данных о значениях переменных, которые предположительно могут быть взаимосвязаны. Рассмотрим данный метод на примере. В табл. 4.17. приведены показатели среднего еженедельного оборота в отделениях сети магазинов розничной торговли продуктами питания, а также данные о численности населения, проживающего поблизости от магазина.

Чтобы получить четкое представление о возможной взаимосвязи между данными переменными, необходимо составить точечную диаграмму. Значения независимой переменной откладываются по оси абсцисс, а значения зависимой переменной — по оси ординат.

В нашем примере численность населения — независимая переменная, а объем продаж — зависимая переменная. Используя данные табл. 4.17., можем легко построить точечную диаграмму (см. рис. 4.6.).

Точечная диаграмма подтверждает предположение о том, что чем больше численность населения, тем больше объем продаж в магазине. Таким образом, на основании диаграммы можно сделать вывод о том, что объем продаж и численность населения, проживающего поблизости от магазина, имеют положительную корреляцию.

Так как точки на диаграмме образуют область, похожую по форме на прямую линию, можно утверждать, что между рассматриваемыми переменными существует тесная корреляция.
Точечные диаграммы могут иметь различный вид (см. рис. 4.7.).

На рис. (а) приведен пример абсолютной корреляции: точки размещаются прямо на прямой линии, восходящей с наклоном слева направо.

На рис. (б) приведен пример абсолютно отрицательной корреляции: точки размещаются прямо на прямой линии, нисходящей слева направо. То есть чем больше значение независимой переменной, тем меньше значение зависимой переменной.

На рис. (в) приведен пример сильной отрицательной корреляции.

На рис. (г) приведен пример слабой положительной корреляции: наблюдается большой разброс точек, но, тем не менее, прослеживается тенденция к росту значений зависимой переменной при увеличении значения независимой.

На рис. (д) трудно усмотреть наличие корреляции между переменными: с одинаковыми значениями независимой переменной связаны как высокие, так и низкие значения зависимой переменной.

На рис. (е) взаимосвязь между переменными существует, но она не линейная, а параболигеская.

Коэффициент корреляции

Несмотря на то, что в научных исследованиях, откуда заимствован этот метод, линейные корреляционные связи между явлениями распространены, в бизнесе редко можно увидеть пример абсолютно линейной связи.

Таким образом, для того, чтобы предположить наличие линейной зависимости между двумя рассматриваемыми переменными, необходимо убедиться в том, что корреляционная связь достаточна сильна. Для этого нам необходимо рассчитать коэффициент корреляции. Этот коэффициент рассчитывается на основе имеющихся пар значений двух переменных, и его значение колеблется от -1 (в случае абсолютной отрицательной корреляции, как на рис. (б)) до +1 (в случае абсолютной положительной корреляции, как на рис. (а)).

Во всех остальных случаях коэффициент корреляции будет находиться в пределах от -1 до +1. Чем ближе его значение к -1 или +1, тем теснее корреляционная связь. Диаграммы, показанные на рис. (д) и (е), дают коэффициент корреляции, почти равный нулю. Точки на рис. (е) взаимосвязаны, но на нем изображена параболическая зависимость, а коэффициент корреляции измеряет тес- ноту линейной связи.

Используя исходные данные, приведенные в табл. 4.17., можно рассчитать коэффициент корреляции. Подставив суммы в формулу, получим следующие результаты (см. табл. 4.18.).

Интерпретация значения коэффициента корреляции

Если вычисленный коэффициент корреляции по значению близок +1 или -1, это означает, что между двумя рассматриваемыми переменными существует сильная линейная зависимость. В подобных ситуациях вполне оправданно было бы подогнать прямую к исходным данным при помощи методики регрессии (она будет рассмотрена далее) и использовать уравнение прямой для составления прогноза.

Если значение коэффициента корреляции близко к нулю, то зависимость не имеет линейного характера. Для изучения нелинейной взаимосвязи можно применять регрессионный анализ для нелинейных зависимостей. Так как этот анализ требует проведения очень сложных расчетов, здесь мы не будем останавливаться на нем.

Но даже когда выявлена сильная корреляция, нельзя сразу делать вывод о наличии случайной взаимосвязи между двумя переменными. В зависимости от контекста сильная корреляция может просто отражать причинно-следственные связи. Например, в рекламной индустрии принято считать, что увеличение расходов на рекламу ведет к росту объема продаж.

Бывает также, что в случае сильной корреляции между двумя переменными нельзя утверждать, что изменение одной из переменных влечет за собой изменение другой. Например, при изучении данных за прошедшие периоды выясняется, что когда росло количество учителей, увеличивается и число полицейских. Но это вовсе не означает, что увеличение численности учителей приводит к росту количества полицейских.

Причина кроется в другом — при увеличении государственных расходов растет число как учителей, так и полицейских, то есть значения обеих переменных зависят от наличия соответствующих бюджетных фондов. Таким образом, при исследовании и расчете коэффициента корреляции между двумя переменными можно случайно обнаружить сильную корреляционную связь там, где нет никаких причин для наличия взаимосвязи. Корреляция подобного типа называется ложной.

Таким образом, коэффициент корреляции, близкий по значению к +1 или -1, никогда нельзя интерпретировать как наличие тесной связи, пока вы не сможете логически объяснить природу этой связи.

Регрессия

В предыдущем разделе мы говорили о том, что если установлено наличие сильной зависимости между двумя переменными, то можно подогнать прямую к исходным данным и использовать ее для прогнозирования поведения зависимой переменной в будущем. Этот процесс носит название линейной регрессии. Прежде чем изучать линейную регрессию, вспомним математические аспекты уравнения прямой.

Уравнение графика прямой

Как уже было сказано, для обозначения независимой переменной мы используем символ х, а для зависимой — символ у.

Таким образом, если соотношение х и у является линейным, то уравнение, связывающее х и у, имеет следующий вид:

у = а + Ьх,

где а и Ъ представляют собой константы, значения которых определяют положение и направленность прямой на осях координат.
Допустим, у нас есть следующие уравнения прямых:

Х)у = г + 3x, 2)у = 2-3x, 3)у = -1 + 2х.

Конечно, можно построить прямую и через две известные точки, однако для надежности, чтобы застраховаться от ошибок, часто рассчитывают три точки, через которые проходит прямая. Ниже приведены расчеты.
1)у = 2 + 3х
Если х = 0, то у = 2 + (3 % 0) = 2.
Если х = 2, то у = 2 + (3 х 2) = 8.
Еслих = 4, то у = 2 + (3 х 4) = 14.

2)y = 2-3x
Если x; = 0, то y = 2 – (3 х 0) = 2.
Если х = 2, то y = 2 – (3 х 2) = -4.
Если х = 4, то y = 2 – (3 х 4) = -12.

3)у = -1 + 2х
Если х = 0, то y = -1 + (2 х 0) = -1.
Если х = 2, то у = -1 + (2 х 2) = 3.
Если х – 4, то у = -1 + (2 х 4) = 7.

На рис. 4.8. изображены три прямые. Итак, если Ъ — положительное число, то прямая будет восходящей слева направо, а если Ъ —отрицательное число, то прямая будет нисходящей слева направо.

Прямая, описываемая уравнением, где Ь = 3, имеет больший угол наклона, чем прямая, описываемая уравнением, где Ъ = 2. Таким образом, ясно, что константа Ъ задает угол наклона. Величина Ъ показывает, на сколько прирастает значение у при увеличении значения х на 1.

Итак, в случае положительной корреляции линия регрессии будет иметь положи- тельный угол наклона и значение константы Ъ будет положительным. В случае отрицательной корреляции линия регрессии образует отрицательный угол и значение константы Ъ также отрицательно.

Если обратиться к рис. 4.8., то можно увидеть, что прямые (1) и (2) пересекают ось у в точке 2, а прямая (3) пересекает ось у ниже, в точке -1. То есть точка пересечения с этой осью и есть значение константы а. Она называется точкой пересечения прямой с осью ординат, и ее значение представляет собой значение у в случае, когда х = 0. Таким образом, имея уравнение прямой, можно сразу определить значения наклона и точку пересечения с осью ординат.

Прямая регрессия по методу наименьших квадратов

Итак, вернемся к проблеме выведения уравнения прямой, которая наилучшим образом подходит к точкам точечной диаграммы. То есть нужны критерии, которые позволяли бы оценить степень близости прямой к данным точечной диаграммы. Используемый критерий носит название метод наименьших квадратов, он минимизирует сумму квадратов вертикальных отклонений точек от прямой регрессии. Используя этот критерий и исходные данные, можно вычислить значения констант
аиЬ.

Значение Ъ показывает, что на каждую дополнительную тысячу человек, живущих поблизости от магазина, объем продаж увеличивается на 0,07058 тыс. у. е., то есть при- мерно на 70 у. е.
Теперь можно приспособить прямую к точечной диаграмме. Исходные значения х

располагались в интервале от 75 до 450, так что, считая, что х равен 100 и 400, получим удобные значения точек.
Если х = 100, то у = 8,612 + 0,07058 х 100 = 15,670.
Если х = 400, то у = 8,612 + 0,07058 х 400 = 36,844.

На рис. 4.9. показана первоначальная точечная диаграмма с наложенной на нее теоретической прямой регрессии.

Для того, чтобы еще раз убедиться в правильности найденных значений а и Ъ, можно сделать конечную проверку. Любая линия регрессии должна проходить через точку со следующими координатами: среднее значение х, среднее значение у.

Расчет средних значений для примера сети магазинов розничной торговли продуктами питания:

  • среднее значение х = 2407/10 = 240,7;
  • среднее значение у = 256/10 = 25,6.

Как видно на рисунке, линия регрессии действительно проходит через точку с координатами (240,7; 25,6).

Прогнозирование с использованием линии регрессии

Теперь, когда у нас есть уравнение прямой регрессии, с его помощью можно составить прогноз значений у для имеющихся значений х.

В предыдущем разделе мы вывели уравнение линии регрессии. Оно имело следующий вид:

у = 8,612 + 0,07058х, где х — численность населения в тыс. чел.

Допустим, что х = 250 тыс. чел., тогда у = 8,612 + 0,07058 х 250 = 26,257.
Таким образом, ожидаемый объем продаж составит 26,257 у. е. Необходимо округ- лить расчетное значение до тысяч у. е., поскольку такую точность имеют исходные данные.

Конечно, нельзя утверждать, что оборот магазина составит точно 26 тыс. у. е., но если взять несколько магазинов, поблизости от которых проживает 250 тыс. чел., то можно ожидать, что средний объем продаж в них составит около 26 тыс. у. е. Следует отметить, что определить объем продаж можно было и с помощью графика.

Только что выполненная процедура носит название интерполяции. То есть мы дела- ли прогноз для х, находящегося в пределах интервала значений х. При прочих равных условиях, если значение г показывает сильную корреляцию, можно ожидать, что прогноз будет точным.

Если же мы постараемся спрогнозировать интервал, то эта процедура будет называться экстраполяцией. Например, можно попытаться спрогнозировать объем продаж для магазина розничной торговли продуктами питания, если численность населения, проживающего поблизости, составляет 750 тыс. чел.

Если х = 750, то у = 8,612 + 0,07058 х 750 = 61,547.

То есть прогнозируемый объем продаж составит 62 тыс. у. е. Следует подчеркнуть, что, изменяя значение х за пределами первоначального интервала, мы оказываемся на незнакомой территории, поэтому прогноз будет менее надежным, чем предыдущий. То есть нельзя предполагать, что в новых условиях взаимосвязь переменных окажется такой же, как и раньше.

Узнай цену консультации

"Да забей ты на эти дипломы и экзамены!” (дворник Кузьмич)