Файл

Куприенко Н. В. Статистические методы изучения связей. Корреляционно-регрессионный анализ: учеб. пособие

Имя файла
kuprienko-n-v-statisticheskie-metody-izu cheniya-svyazej-korrelyacionno-regressi onnyj-analiz-ucheb-posobie.docx
Дата
2023-04-09 01:46:57
Описание
Куприенко Н. В. Статистические методы изучения связей. Корреляционно-регрессионный анализ: учеб. пособие
Количество скачиваний
85

Предпросмотр:

Куприенко Н. В. Статистические методы изучения связей. Корреляционно-регрессионный анализ: учеб. пособие /
Н. В. Ку-приенко, О. А. Пономарева, Д. В. Тихонов. – СПб. : Изд-во Политехн. ун-та, 2009. – 116 с.

ОГЛАВЛЕНИЕ


Введение
5
1.Вопросы теории корреляционно-регрессионного анализа 7Прикладные цели статистического изучения связей 7Необходимые условия практического использования корреляционно-регрессионного анализа 8Методы выявления корреляционной зависимости 9Изучение парной корреляционной зависимости 10Корреляционный анализ 10Парный регрессионный анализ 21
1.5.Изучение множественной корреляционной зависимости 27Множественный корреляционный анализ 27Множественный регрессионный анализ 30
1.6.Прогнозирование на основе регрессионных моделей 33
2.
Решение задач корреляционно-регрессионногоанализа с использованием ППП STATISTICA 35
2.1.Решение задач изучения парной зависимости. . 35Построение и анализ корреляционных таблиц 35Построение поля корреляции 47Построение уравнений парной регрессии и расчет покзателей корреляции 54Прогнозирование на основе регрессионной модели 79
2.2.
Решение задач изучения множественнойкорреляционной зависимости 80Построение уравнения множественной регрессии и расчет
показателей множественной корреляции…………………...……….80Пошаговый корреляционно-регрессионный анализ 93Заключение 104
3

Библиографический список

105Приложение 1. ……………………………………………….…………106 Приложение 2.
………………………………………………...………..109
Приложение 3Приложение 4. ………………………………………………………….112 Приложение 5. ………………………………………...………….…….113 Приложение 6. ………………………………………………………….114 Приложение 7.
………………………………………………….………115
4

ВВЕДЕНИЕ


Управление социально-экономическими объектами или процессами невозможно без изучения внутренних и внешних связей и зависимостей, без определения факторов, влияющих на состояние и развитие объекта. Методы корреляции и регрессии позволяют описать характер связей, дать количественную оцен
ку тесноты зависимости и силы влияния конкретных факторов, ранжируя их по степени влияния на результат. Следует разли
чать связи функциональные (жёстко детерминированные) и ста
тистические (стохастически детерминированные).Функциональные связи
– это связи, при которых опреде
ленному значению одной переменной (признака-фактора)
1 соот
ветствует однозначно определяемое значение другой перемен
ной (признака-результата). Функциональная зависимость пред
полагает, что уровень признака-результата полностью определя
ется величиной признака-фактора (факторов). Если между при
знаками установлена функциональная зависимость, то она спра
ведлива для каждой единицы статистической совокупности.Статистические связи
характеризуются тем, что опреде
ленному значению одной переменной (признака-фактора) соот-
1 При статистическом изучении зависимостей признаки-факторы – это признаки, описывающие условия изменения показателя, называемого признаком-результатом. В моделях связи признаки-факторы могут
быть названы аргументами, независимыми, объясняющими, экзоген
ными переменными. Признак-результат – это отклик, зависимая, объ
ясняемая, результативная, эндогенная переменная.
5
ветствует распределение (множество) значений другой переменной (признака-результата). Частным случаем статистической
связи является корреляционная зависимость, при которой одно
му значению признака-фактора соответствует множество значе
ний признака-результата, причём закономерным образом изме
няется средняя величина результативного признака. Таким об
разом, при изучении статистической (корреляционной) зави
симости выявляется только тенденция изменения признака-результата под влиянием изменения признака-фактора (факто
ров), статистические связи могут не проявляться на уровне от
дельно взятой единицы изучаемой совокупности. Социально-экономическим явлениям присущи, в основном, статистические связи, поскольку их развитие – это результат одновременного воздействия большого числа причин.
Статистической наукой разработаны разные методы изу
чения связей и зависимостей между явлениями, среди которых центральное место занимают методы корреляции и регрессии. У этих методов много общих вычислительных процедур и они на
правлены на решение одной комплексной задачи. Изучение за
висимостей с использованием этих методов называют корреля
ционно-регрессионным анализом. Пособие продолжает ряд учебных материалов, посвященных использованию пакета прикладных программ STATISTICA
для решения различных стати
стических задач. В отличие от предыдущего [2], в данном пособии уже не приводятся общесистемные приемы работы в среде ППП STATISTICA.
Основное внимание уделено теории и прак
тике статистического изучения связей. На сквозном числовом примере достаточно подробно рассмотрен блок программ, обес
печивающий решение таких популярных и важных в статисти
ческой практике задач, как изучение и анализ парной и множе
ственной зависимости.
6
1. ВОПРОСЫ ТЕОРИИ КОРРЕЛЯЦИОННО-
РЕГРЕССИОННОГО АНАЛИЗА
1.1. Прикладные цели статистического изучения связей
Формулировка цели практического изучения связей опре
деляет программу исследования.
Можно выделить три типа целей статистического изуче
ния зависимостей:
Выявление наличия или отсутствия статистически зна
чимой связи между объектами (признаками). Качественный ана
лиз изучаемого явления на основе положений экономической теории позволяет обосновать те или иные связи. Однако под
твердить их реализацию в конкретных условиях, в интересую
щей исследователя совокупности, позволяют только статистиче
ские методы. Решение данной практической задачи предполага
ет количественную оценку тесноты связи с помощью соответст
вующих статистических характеристик (показателей тесноты корреляционной зависимости) – собственно корреляционный анализ.
Изучение механизма причинно-следственной связи ме
жду признаками-факторами и признаком-результатом. Возник
новение этой цели обусловлено стремлением (необходимостью) управлять результативным признаком, воздействуя на уровень факторных признаков. Решение этой задачи связано с построе
нием модели изучаемой зависимости, т.е. с подбором конкрет
ной математической функции, решение которой позволит коли
чественно оценить эффект влияния каждого анализируемого фактора на изменение результативного признака.
7
III. Прогнозирование возможных значений признака-результата при том или ином уровне признака-фактора (призна
ков-факторов). Безусловно, достижение указанной цели основа
но на использовании модели связи между зависимой и незави
симыми переменными, однако её построение при этом не является самоцелью. Основным содержанием процедуры реализации
сформулированной задачи является получение интервального прогноза для значений зависимой переменной с учетом уровня доверительной вероятности, удовлетворяющего исследователя.1.2. Необходимые условия практического
использования корреляционно-регрессионного анализа
Практическое использование методов корреляции и рег
рессии требует наличия ряда условий, без которых результаты анализа не могут быть признаны надежными, быть базой для принятия управленческих решений. К таким условиям относят
ся:
Однородность изучаемой статистической совокупности.
Достаточно большой объем совокупности (условие дей
ствия закона больших чисел). Число единиц совокупности должно быть в 5 – 6 (идеально в 10) раз больше числа факторов, влияние которых предполагается оценить.
Устойчивость влияния факторов, включаемых в анализ.
Признаки-факторы должны иметь количественную оценку, что необходимо для построения уравнения регрессии.
Отсутствие тесной линейной зависимости между факто
рами (коллинеарности, мультиколлинеарности).
Независимость наблюдений.
Желательно, чтобы распределение единиц изучаемой со
вокупности соответствовало закону нормального распределе
ния.
Прежде, чем воспользоваться сложными вычислительны
ми процедурами корреляционно-регрессионного анализа, полез
но на основе фактических данных убедиться в наличии корре
ляционной связи между интересующими исследователя призна
ками, определить ее характер и направленность.
8
1.3. Методы выявления корреляционной зависимости
Статистическими приемами, позволяющими выявить или опровергнуть наличие корреляционной зависимости между ана
лизируемыми признаками, являются:
Построение и анализ параллельных рядов. При этом строится ранжированный ряд значений факторного признака и параллельно – ряд соответствующих значений признака-результата. По согласованному или несогласованному измене
нию значений фактора и результата судят о наличии либо отсут
ствии зависимости.
Построение и анализ групповых таблиц. Групповая таб
лица строится по правилам аналитической группировки. В каче
стве группировочного признака используется факторный при
знак. По каждой из выделенных групп рассчитывается среднее значение результативного признака. Наличие закономерности в изменении средних величин зависимой переменной будет сви
детельствовать о присутствии корреляционной связи.Построение и анализ корреляционных таблиц. В отличие от групповых, построение корреляционных таблиц предполагает
группировку данных и по признаку-фактору, и по признаку-результату. На пересечении строк и столбцов проставляют час
тоты, т.е. число единиц совокупности с данным сочетанием уровней изучаемых признаков. Характер расположения частот на поле таблицы позволяет выдвинуть предположение о нали
чии и направлении зависимости между признаками.
Графический метод. Этот метод наиболее часто используется на практике. В прямоугольной системе координат по оси абсцисс откладываются значения признака-фактора, а по оси ординат – значения результативного признака. Точки на графике
соответствуют единицам совокупности с конкретными сочета
ниями значений признаков. Получаемый точечный график на
зывают "полем корреляции". По расположению точек на графи
ке судят о наличии или отсутствии зависимости, а также о на
правлении и степени тесноты корреляционной связи.
Перечисленные методы подробно описаны в учебной ли
тературе. 9
Выше были названы практические цели изучения связей. Остановимся на методах их реализации.1.4. Изучение парной корреляционной зависимости
1.4.1. Корреляционный анализПри необходимости определить круг факторов, влияющих на признак-результат (объект управления), оценить степень их
влияния, рассчитывают показатели корреляции и детерминации.
Исторически первой и простейшей характеристикой тес
ноты связи является линейный коэффициент парной корреля
ции. Он используется при изучении парной корреляционной зависимости, т.е. когда оценивается связь между парой признаков.
Безусловно, невозможно назвать социально-экономические яв
ления или процессы, развитие которых обусловлено лишь од
ним фактором. Но на практике часто возникает необходимость оценить тесноту связи результативного признака (объекта управления) с каким-либо конкретным фактором.Показатели корреляции основаны на оценке сопряженной
вариации изучаемых признаков. Парный коэффициент корреляции (r) -
это нормированный коэффициент ковариации. Кова-
риация, являясь мерой взаимосвязи двух переменных, рассчиты
вается как средняя величина произведения отклонений индиви
дуальных значений анализируемых признаков от их средних значений: 1
n
-
-Cov(y,x) = — 2^ ( y
? -
y )(
x-
~
x
)
(1
1)n i =
1
Недостаток этого показателя (числовое значение ковариации зависит от размерности переменных x и y) преодолевается в
парном коэффициенте корреляции путем нормирования абсо
лютных отклонений.
10
(y
i -y)
(
x
i -
x)
и

и
<j
x
xгде
?
y - среднее квадратическое отклонение признака-результата;
?
x -
среднее квадратическое отклонение признака-фактора.
Парный коэффициент корреляции:Z
x
i —
x
y
i —
y(
)(
)
G
y
,
(1.2)
nn
x
i
-x
y
i -
y
i
=1 °'
x
°
"
yr
=где n
– число единиц в статистической совокупности.Можно привести иную транскрипцию формулы линейного
коэффициента корреляции Пирсона, часто встречающуюся в учебной и профессиональной литературе:
n^
(
x
i -
x
)(
y
i -
y
)r
=
i
=1
(1.3)
илиr
=
yКоэффициент корреляции изменяется в пределах
11
(1.4)0 ? |r| ?
1 .
(1.5)Если r = 0, линейная связь между изучаемыми признаками отсутствует. Если |r| = 1, связь функциональная, т.е. значение зависимой переменной полностью определяется независимой
переменной. Положительное значение коэффициента свидетель
ствует о прямой зависимости между признаками, отрицательная – об обратной.
Для доказательства (1.5) приведем неравенство Буняков-ского–Шварца: для всех значений элементов последовательностей
a1 ,
a2
,
.
.
.
,
an
и
b1 , b2 , . . . , bn
выполняется неравенство:
(У]
a
i
b
i
)
2 <
\a
i
2
У
2
i
(1.6)Примем
a
i = x
-
x,
b
i=y
-
y,
тогда
(У(xi -
x
)(yi
-
y
))
2
^
У\( xi
-
x
)
2^(y
-
y
)
2
. (1.7)
Ивлечем корень квадратный из правой и левой частей неравенства и разделим обе части на
n
:
<
n
n
2
;
(1.8)
(1.9)
12Видно, что выражение (1.9.) эквивалентно следующему: ^
(
х - Х~
)(
у - У
)
n
xy<
G G ,
(1.10)
отсюда получаем
Г -^
(
х - х
)(
у - у
)
па а
х у<
1
(1.11)- 1 < г <
1
.
(1.12)
Использование статистических методов анализа часто ба
зируется на данных выборочного наблюдения. Как известно, с уменьшением объема выборки снижается надежность статистических характеристик, в том числе и коэффициента корреляции. Поэтому возникает вопрос, достаточна ли величина
г
, чтобы вы
вод о наличии корреляционной связи между изучаемыми признаками считать обоснованным. Иными словами, необходимо доказать, что значение коэффициента корреляции сформировано под влиянием неслучайных факторов, т.е. значение г
статисти
чески значимо.
С этой целью проверяется нулевая гипотеза о равенстве генерального коэффициента корреляции нулю:
Н
0: р =
0, где р -
генеральный коэффициент корреляции.
(1-г
2)
п
сг
2
г =,
t
-
Исходя из того что дисперсия
13статистика для проверки
H
0
рассчитывается по следующей фор
муле:
\
r
\\
nt
p =
1
.
(113)Расчетное значение
t
-статистики сравнивается с табличным значением. Если
t
p
> t
табл, то нулевая гипотеза отвергается с
вероятностью ошибки ? (в социально-экономических исследованиях чаще всего ? = 0,05 (1-0,95) или ? =
0,01(1-0,99)). Другими словами, признается, что величина r
статистически значи
ма.В условиях малой выборки, при справедливости
H
0,
t-статистика имеет распределение Стьюдента. В данном случае
t-
статистика рассчитывается по формуле:
|
r
|V
n
-
2
p
=
1
2 .
(1.14)
Входными параметрами для отыскания табличного значения являются: ? (0.05; 0.01) и число степеней свободы d.f.
= = n - 2.Следует иметь в виду, что если р =
±1, то частотное рас
пределение оказывается вырожденным, поскольку в этих случаях r не отличается от точного значения р . При р =
0 выборочное распределение r
является симметричным, а статистиче
ский критерий (r -
p)/ S
R хорошо аппроксимируется
t-распределением. Наконец, когда р
имеет значение, близкое к 1, распределение оказывается резко асимметричным (рис. 1.1)
2
.
2
Кейн Э. Экономическая статистика и эконометрия.
Введение
в коли
чественный анализ. М. : Статистика, 1977. С. 46.
14Учитывая сложность распределения
f(r)
, при определении до
верительных интервалов для коэффициента корреляции используют
z
-преобразование Р.Фишера, доказавшего, что распределе
ние логарифмической функции линейного коэффициента корре-
11 +
rляции z — ~
ln
даже в условиях малой выборки соответ-
2
1-r
ствует нормальному закону распределения со средней, равной
11 +
r
r2 _
1
~
ln
1~7и дисперсией
®
z
~
(рис. 1.2.,
2
1-r 2{n-
1
)n —
3
1.3.).Рис. 1.1. Выборочные распределения для различных значений р при N
= 50: а -p =
0; б -p =
0,9; в -p =
-0,9.Таблицы z
-преобразования Фишера
3 (приложение 3) позволяют по величине коэффициента корреляции определить значение z
и наоборот.Доверительные границы для z
рассчитываются так:
3 Фишер Р. А. Статистические методы для исследователей. М. :
Госстатиздат, 1958. С. 159.
15
,
1
1
z —tJ
<z<z+tJ
,
(1.15)V n —
3V n —
3где z' - табличное значение
z,
соответствующее величине выборочного
r
;t -
коэффициент доверия, определяемый по таблице нор
мального распределения и соответствующий уровню довери
тельной вероятности, задаваемому исследователем.
Затем выполняется обратная процедура. Пользуясь табли
цами Р. Фишера, находят доверительные границы для коэффи
циента корреляции.
Парный коэффициент корреляции - это симметричная характеристика, т.е.
r
yx=
r
xy. Значение r отражает только степень тесноты корреляционной связи между изучаемыми признаками, но не свидетельствует о причинно-следственной зависимости
между ними. Обоснование наличия причинно-следственной свя
зи между признаками опирается на положения экономической теории, на анализ природы изучаемого явления.Квадрат коэффициента корреляции r
называется коэффи
циентом детерминации. Его значение изменяется в пределах от 0 до 1 и означает долю вариации результативного признака, обусловленную вариацией признака-фактора.
Парный коэффициент корреляции достаточно точно оценивает тесноту связи в условиях линейной зависимости между изучаемыми признаками. При наличии нелинейной связи он может привести к неверным выводам о степени тесноты связи (его значение занижено), поэтому для нелинейной зависимости корректнее использовать такой универсальный показатель, как корреляционное отношение
?.
16Рис. 1.2. Выборочные распределения для различных значений р
.Рис. 1.3. Выборочные распределения для различных значений р
.
17Корреляционное отношение ?
может быть рассчитано на основе аналитической группировки (так называемое эмпириче
ское корреляционное отношение), а также по результатам рег
рессионного анализа (теоретическое корреляционное отноше
ние).Расчет корреляционного отношения основан на правиле
сложения дисперсий: общая дисперсия результативного призна
ка - это сумма факторной (объясненной) дисперсии и остаточ
ной (необъясненной) дисперсии.
G
2
о =
S
2
+<ТВ терминах аналитической группировки: общая дисперсия
0
2
о признака-результата равна сумме межгрупповой
д
2
исредней из внутригрупповых дисперсий
о
2
.
Общая дисперсия результативного признака формируется под влиянием всех мыслимых и немыслимых (неизвестных ис
следователю) факторов. Среди них, естественно, есть и факто
ры, включенные в регрессионную модель.Межгрупповая дисперсия - это дисперсия результативного признака, обусловленная вариацией группировочного признака,
т.е. признака-фактора (аналог факторной дисперсии). В иных терминах эта составляющая общей дисперсии называется объ
ясненной дисперсией, т.е. это часть общей дисперсии, объяс
ненная воздействием фактора, положенного в основание груп
пировки.
д
2
=
j
=1
Z(y -
y
)
2n
j
,
(1.16)/
t j
j
=1где
8
2 -
межгрупповая дисперсия;
18y -
среднее значение признака-результата в изучаемой сово
купности;y j - среднее значение признака-результата в
j
-й группе;nj- число единиц в
j
-й группе;k -
число выделенных групп.
Внутригрупповая дисперсия - это дисперсия результатив
ного признака, обусловленная вариацией прочих факторов (ана
лог остаточной дисперсии), иными словами это необъясненная группировочным признаком часть общей дисперсии. По сово
купности в целом она определяется как средняя величина из дисперсий признака-результата в каждой выделенной по при
знаку-фактору группе:
nj
k^
(
y
ij
~
y
j
)
2
ill
°
'
j
nj
<j
2
=—
1
—» <т
2
=
j
1 n
,
(117)где
О"
2 - дисперсия результативного признака в
j
-й группе;
y
ij - значение признака у
i-й единицы
j
-й группы;
д
г
2 - среднее значение внутригрупповых дисперсий.
Таким образом,
<7
2
о
= д
2
+ а
2
Эмпирическое корреляционное отношение представляет собой:
Т
] =
S
22
, или
77 =
G
2
о
-G
2
=<
\
<7
22 ,
(118)
19где У] - изменяется от 0 до 1. Следует особо подчеркнуть, что корреляционное отношение знака не имеет. Чем ближе значение
корреляционного отношения к 1, тем теснее связь между признаками, при функциональной связи ц =
1. В отличие от коэф
фициента корреляции, корреляционное отношение не симметрично, т.е. 77 ^ г/
.
В условиях линейной зависимости между анализируемыми переменными, значение г и ц
совпадают. Поэтому разность между данными характеристиками может быть использована для обоснования правомерности описания изучаемой связи ли
нейной регрессией.
Теоретическое корреляционное отношение, определяемое по результатам регрессионного анализа, рассчитывается путем деления факторной дисперсии, т.е. дисперсии результативного признака, объяснённой вариацией признака-фактора, включён
ного в уравнение регрессии, на общую дисперсию признака-результата, обусловленную влиянием всех факторов:
77 =
п^
(
yг ~
y
)
2, или
77 =
п^
(
yг ~
y
)
2
г=
1п
^(
y
г-
y
г
)
21
——
1
,
(1.19)
^(
yг ~
y)
2
г=
1где
y
t - значение результативного признака у
z'
-й единицы сово
купности;
y
t - выравненное, т.е. рассчитанное по уравнению регрессии, значение результативного признака у
z'
-й единицы;Квадрат корреляционного отношения rf
является коэф
фициентом детерминации и определяет долю вариации призна
ка-результата, которая корреляционно связана с вариацией при
знака-фактора (факторов), т.е. характеризует долю объясненной дисперсии в общей дисперсии зависимой переменной. Корреля
ционное отношение и коэффициент детерминации являются
20
универсальными измерителями степени тесноты связи.
1.4.2. Парный регрессионный анализ
Сутью регрессионного анализа является описание "техно
логии" влияния признаков-факторов на признак-результат, ко
торый в конкретных практических задачах выступает объектом управления.
Регрессионный анализ предполагает теоретический анализ природы изучаемого явления с целью определения круга факто
ров, оказывающих влияние на поведение результативного при
знака. На базе корреляционного анализа выявляется наличие статистически значимых связей в конкретных условиях места и времени. Затем строится уравнение регрессии (аналитическая форма изучаемой зависимости), которое при определенных ус
ловиях может быть признано статистической моделью связи между признаками.
Уравнение регрессии – это математическая функция, опи
сывающая зависимость условного среднего значения результа
тивной (зависимой) переменной от заданных значений фактор
ных (независимых) переменных. Таким образом, уравнение рег
рессии отражает основную тенденцию связи, характерную для изучаемой статистической совокупности в целом.
В регрессионном анализе можно выделить три состав
ляющие:
определение типа функции (структуры модели) для опи
сания изучаемой зависимости;
расчет неизвестных параметров уравнения регрессии;
оценку качества модели.
До широкого распространения компьютерных технологий перечисленные элементы являлись последовательными этапами анализа. В современных условиях все процедуры выполняются комплексно. Представленное ниже раздельное их описание не
обходимо для понимания сути каждой процедуры.
Первый этап регрессионного анализа – поиск линии рег
рессии, которая бы лучшим образом аппроксимировала поле корреляции. При этом необходимо учитывать природу изучае-21
мых показателей, специфику их взаимосвязи, свойства матема
тических функций. Однако в настоящее время процедура выбора лучшего уравнения связи формализована. Современные ППП
позволяют одновременно построить несколько видов уравнений, а затем, пользуясь специальными критериями, отобрать лучшую модель. В качестве критерия могут быть использованы:
максимальное значение коэффициента детерминации, максимальное значение
F-критерия Фишера, минимальное значение
остаточной дисперсии, минимальное значение стандартной ошибки уравнения, минимальное значение средней ошибки ап
проксимации.Для аналитического описания связи между признаками могут быть использованы следующие виды уравнений:
1)
y =
a
0 + a
1x -
прямая, линейная функция;
2)
y =
a
0 + a
1
x
2 +a
2x -
парабола;
y
1
3)=
a
0
+a
1
гипербола;
x
y =
a
0
xa
1 -
степенная функция;
y =
exp
(
a
0
+a
1x) -
экспонента и др.
Некоторые задачи корреляционно-регрессионного анали
за, а также возможности ППП, делают необходимым выполне
ние операции линеаризации уравнений, т.е. приведение их к линейному виду путем логарифмирования. Производится замена
признака-фактора и признака-результата их натуральными лога
рифмами. При проведении анализа с использованием линеари
зации необходимо помнить о том, что все показатели и графиче
ские изображения рассчитываются и строятся для логарифмов признаков. Рассмотрим экспоненциальную и степенную функ
ции после линеаризации:
ln
y =
a
0
+a
1
х
x;
ln
y =
a
0 +a
1
xlnx
.
Простейшим видом уравнения регрессии является парная
22
линейная регрессия
y =
a
0
+ а
1x + s
,где
y - расчетное, теоретическое значение признака-результата;
а
0

1 -
параметры уравнения регрессии;? -
случайная величина.Присутствие в уравнении ? связано с рядом причин, среди которых: наличие признаков-факторов, не включенных в данное
уравнение; неправильное описание структуры модели; ошибки измерений и др.
Чтобы воспользоваться уравнением регрессии, необходи
мо рассчитать значения его параметров. Чаще всего расчет осу
ществляется по методу наименьших квадратов (МНК). Суть ме
тода в том, что удается получить такие значения параметров, при которых минимизируется сумма квадратов отклонений эмпирических значений признака-результата от его теоретических
значений, т.е.
nS =
У^(
y
i —
y
i
)
2 =
y][y
i ~(a0

1
x)]
2 —>
min
i
=1
. (1.20)Рассматривая S как функцию параметров a и b,
проводят дифференцирование, приравнивают первые частные производ
ные к нулю:
8
S

n
д
a
0
n
=
0^
-
2> (
y
i
-a
0
—а
1
x
i ) =
0;
(1.21)— = 0 —» - 2 >
(y
i
x
i -
a
0
x
i -
а
1
x
i) =
0. (
1
.22)
23
Решение полученной системы уравнений позволяет полу
чить следующие значения параметров:
n
/
y
i =a
0
n+a
1 ^
x
i
i=
1
i=
1
n
n
n
\\
yix
i =a
0
\\
x
i
+a
1
2_,xi
;
i=
1
i=
1
i=
1
xy -xy xy- xyа
1 = —
_
2
=
2;
(1.23)
x -(
x
)
о
xa0 =
y -
a1
x
.
(1.24)Параметр
а
1
в уравнении регрессии называется коэффи
циентом регрессии. Он оценивает силу связи признака-фактора с результатом, показывая, на сколько единиц своего измерения изменится в среднем результат при изменении фактора на еди
ницу своего измерения. Знак «+» при коэффициенте регрессии означает, что связь между признаками прямая, знак «-» -зависимость обратная. Параметр
а
0
в экономических исследо
ваниях, как правило, содержательно не интерпретируется, а определяет точку пересечения линии регрессии с осью
Y.При интерпретации полученных значений
а
0 и
а
1
следует
помнить, что это лишь оценка «истинных» значений парамет
ров, а уравнение регрессии отражает общую тенденцию зависи
мости для эмпирической совокупности.
Третий этап регрессионного анализа, как отмечалось выше, предполагает оценку качества полученного уравнения связи.
Поскольку уравнение регрессии строится, как правило, на ос-
24
нове выборочных данных, то следует оценить статистическую значимость параметров уравнения и уравнения в целом.
Оценка статистической значимости параметров модели означает проверку нулевых гипотез о равенстве параметров ге
неральной совокупности нулю, т.е. в условиях парной регрес
сии:
Н
0:
A
0 =0,
Н
0:
A
1
=0.Проверка производится с использованием
t-статистики, которая в этом случае представляет собой отношение значения параметра к его стандартной (среднеквадратической) ошибке
S
:
a0
_
S
иa1
~
,
(1.25)
a
S
поскольку
A
0
=
0
и
A
1
=
0,
то
a
0
S;
ta
1

S
,
(1.26) a
1
-r2 где
S
a
0 - стандартная ошибка параметра
а
0:
S
a
0
=
,
;
а
0:
S
a
0
л/
n
-2 о
s1-r
2
S
a
1 - стандартная ошибка параметра а
1:
S
a
1
=
,
.
<J
x
yln-2Фактические значения
t
-критерия сравниваются с табличными (с учетом уровня значимости ? и числа степеней свободы (d.f.=n-k-1)). Параметры признаются статистически значимыми,
т.е. сформированными под воздействием неслучайных факторов, если
t
ф
акт >
t
табл
.Значимость уравнения в целом оценивается на основе
F-
25143891059436000232283062166500
критерия Фишера.
F
-критерий – это отношение объясненной вариации (фак
торной дисперсии) результативного признака, рассчитанной на
одну степень свободы,
nV
(
y
i -
y
)2
k
, к необъясненной вариа-
ции (остаточной дисперсии) признака-результата, рассчитанной155130510350500244729010350500
на одну степень свободы,
n
^(
y
i -
y
i
)
2
=2
n
-
k
-1
, таким образомF = i
1
n
y
n:
i
~
1^
(
y
i -
)
2 ^
(
y
i -
y
i
)
2
k
n-k-1
,
(1.27)где k
– число степеней свободы факторной дисперсии, равное числу независимых переменных (признаков-факторов) в уравнении регрессии;
n-k-1 -
число степеней свободы остаточной дисперсии.
Если обе части соотношения разделить на общую дисперсию зависимой переменной (результата), то
F
-критерий может быть представлен следующим образом:F
=
yx
yx
n-k-1 k
(1.28)Расчетное значение критерия сопоставляется с табличным (с учетом числа степеней свободы: d.f. = k и d.f.=n-k-1)
(приложение 3). Если F >
F
табл. , то делается вывод о статистиче-
26ской значимости уравнения в целом. Поскольку
F
-критерий ос
нован на соотношении факторной и остаточной дисперсий результативного признака, то вполне логично его использование
для оценки качества модели. Если объясненная дисперсия суще
ственно больше необъясненной, это означает, что в уравнение связи включены именно те факторы, которые играют опреде
ляющую роль в изменении значения признака-результата. Ста
тистическая значимость уравнения одновременно означает ста
тистическую значимость коэффициента детерминации.
Результаты оценки регрессионного уравнения могут быть разными. Возможен вариант, когда уравнение в целом статисти
чески значимо, а некоторые параметры уравнения незначимы. Это означает, что описанная зависимость результата от аргу
ментов может служить основой для принятия некоторых управленческих решений, но полученное уравнение регрессии нельзя использовать для прогнозирования. Уравнение связи признается моделью и может быть использовано в целях прогнозирования,
если статистически значимы и параметры, и уравнение в целом.1.5. Изучение множественной корреляционной
зависимости
1.5.1. Множественный корреляционный анализИзучение множественной корреляционной зависимости предполагает оценку влияния на результативный признак двух и
более факторов. При этом рассчитываются множественные (со
вокупные) и частные коэффициенты корреляции, которые мож
но
определить
на
основе
парных
коэффициентов
корреляции r
.
Так, при двухфакторной модели связи рекуррентная фор
мула множественного коэффициента корреляции выглядит сле
дующим образом:
27Ry
= x 1 x
2
r
y
x
1
+
r
y
2
x
2
~2ry
x
1
ry
x
2
r
x
1
x
2y
x
У
x
2y
1 y x 2
12
1
2
.
(1.29)1 —
r
x
1
x
2Значения R
изменяются в пределах от 0 до 1. Величина совокупного коэффициента корреляции всегда больше любого из парных коэффициентов и включение в анализ новых факторов не может привести к уменьшению значения
R.Квадрат множественного коэффициента корреляции
R
2
яв
ляется множественным коэффициентом детерминации и харак
теризует долю дисперсии результативного признака, объяснен
ную вариацией всех факторов, включенных в анализ, в общей дисперсии результата.
При небольших объёмах выборки увеличение числа объ
ясняющих переменных приводит к существенному завышению значений совокупных показателей тесноты связи. Поэтому если
n-k< 20 ( k -
число объясняющих переменных), множест-
k
венный коэффициент детерминации необходимо скорректиро
вать на потерю числа степеней свободы вариации:
R
2=
1-(1-R )
.
(1 30)
скорр
\n — k —
1
)
Скорректированный коэффициент детерминации всегда меньше нескорректированного. На основе скорректированного коэффициента проводят сравнение степени объясненности ва
риации результативного признака моделями, содержащими раз
ное число факторов.
При изучении множественной корреляционной зависимо
сти наряду с оценкой совокупного влияния всего набора интере
сующих исследователя факторов возникает необходимость по
лучить количественную характеристику влияния каждой объяс
няющей переменной, «очищенную» от опосредованного воздей
ствия других факторов. Эта задача решается с помощью так на
зываемых частных (парциальных) коэффициентов корреляции. При их построении применяется прием элиминирования влия
ния всех факторов кроме фактора, оцениваемого в данный мо
мент. Элиминирование осуществляется путем закрепления зна-
28
чений признаков-факторов на неизменном (среднем) уровне. Таким образом, частные коэффициенты корреляции позволяют измерить «очищенное» влияние конкретного фактора.
Частные коэффициенты также могут быть рассчитаны по рекуррентной формуле. Если элиминируется влияние одного фактора, то частный коэффициент корреляции называется ко
эффициентом первого порядка и в условиях двухфакторной мо
дели рассчитывается следующим образом:R —
I
,
(1.31)
J(1-r )(1 —
r
xx
)где R -
частный коэффициент корреляции первого порядка;точка между х
1 и
х
2 означает, что элиминируется влияние
х
2
.Если элиминируется влияние фактора
х
1
, то частный ко
эффициент корреляции рассчитывается следующим образом:
r
y
-
r
y r
x
1
x 2
Л
/(1-
r
y
2
)(1-
r
x
1
x
2
)
V
1R
=
y .
x
,x2.x
1
/
2
2
.
(1.32)
I
На основе частных коэффициентов первого порядка рас
считываются частные коэффициенты второго порядка, которые в свою очередь служат базой для расчета коэффициентов третьего порядка и т.д.Квадрат частного коэффициента корреляции – это частный
коэффициент детерминации. Он характеризует долю дисперсии результативного признака, объясняемую дополнительно при включении в анализ конкретного фактора, в дисперсии резуль
тата, не объясненной ранее включенными в анализ факторами. Значение частных коэффициентов детерминации позволяет от
ветить на вопрос о необходимости дополнительного включения в анализ того или иного фактора.
29
1.5.2. Множественный регрессионный анализ
Модель множественной регрессии в общем виде записы
вается следующим образом:
y = a + а
1
x
1 +
а
2
x
2 +
а
3
x
3
+... +
а
k
x
k +
s
(1.33)
Специфической проблемой, решаемой при построении множественной регрессии, является отбор факторов, включае
мых в уравнение регрессии. Об условиях, которые следует со
блюдать при этом, говорилось ранее. Напомним, что для полу
чения надежных оценок параметров необходимо, чтобы число факторов, включаемых в модель, было по меньшей мере в 5 – 6 раз меньше объема изучаемой совокупности. Из-за ограничен
ности объема совокупности не стоит «засорять» модель факто
рами, связь которых с зависимой переменной слабая (r
< 0,3).
Для получения оценки «очищенного» влияния каждого фактора в уравнение не следует одновременно включать факто
ры, между которыми существует тесная линейная зависимость (коллинеарность). Отбор факторов может быть осуществлен на основе матрицы парных коэффициентов корреляции (табл. 1.1). Поскольку парный коэффициент корреляции – мера симметрич
ная, матрица симметрична относительно единичной диагонали, поэтому достаточно заполнить либо верхний, либо нижний сег
мент корреляционной матрицы.
Анализ первой строки матрицы, содержащей показатели тесноты связи между признаком-результатом и каждым из при
знаков-факторов, позволяет исключить из анализа факторы, практически не влияющие на поведение зависимой переменной (r
< 0,3).
В остальных клетках выделенного сегмента матрицы со
держатся коэффициенты, оценивающие зависимость между факторами. Анализ этих характеристик позволяет выявить на
личие мультиколлинеарности. Из двух коллинеарных факторов (r ? 0,7)
один следует исключить из анализа. Предпочтение от
дается признаку, связь которого с результатом более тесная.
30
Таблица 1.1
Матрица парных коэффициентов корреляции
x
3

… …


1

r
yx
3
r
x
1
x
3
r
x
2
x
3
1

x
1
x
2
r
yx
1
r
yx
2
1
r
x
1
x
2
1


x
k
r
yx
k
r
x
1
x
k
r
x
2
x
k
r
x
3
x
k
1
Признак
y
y
1
x
1
x
2
x
3
x
k

множественной регрессии
Расчет параметров уравнения
осуществляется на основе МНК.
Параметры при факторах в уравнении множественной рег
рессии называются условно-чистыми коэффициентами регрес
сии. Их можно было бы назвать «чистыми», если бы удалось включить в модель все факторы, определяющие значение при
знака-результата, что на практике не может быть реализовано.Условно-чистые коэффициенты регрессии оценивают силу
влияния каждой независимой переменной при условии элими
нирования других факторов, включенных в модель. Интерпре
тация значений коэффициентов аналогична интерпретации ко
эффициентов в уравнении парной регрессии.Независимые переменные могут иметь разные единицы измерения, поэтому получаемые коэффициенты регрессии не сопоставимы и не позволяют ранжировать аргументы по силе их
влияния на зависимую переменную.
31Для сравнения роли отдельных факторов в формировании
уровня признака-результата рассчитываются относительные характеристики, такие, как коэффициенты эластичности Э и
/?
-
коэффициенты.
Частные коэффициенты эластичности рассчитываются по формуле
Эi =
а
i
X
i=
,
(1.34)у где аi - коэффициент регрессии при
i
-м факторе;
Xi - среднее значение
i
-
го фактора;у -
среднее значение признака-результата.
Величина Эi
характеризует, на сколько процентов в среднем изменяется значение зависимой переменной при изменении фактора
х
i на 1% от своего среднего значения, в условиях
элиминирования влияния других факторов.Р
-коэффициент характеризует, на какую часть своего среднеквадратического отклонения изменится признак-результат при изменении оцениваемого фактора на величину своего среднеквадратического отклонения, и рассчитывается какв =
^
r*
i аi
(1
.35)Сравнивая значения частных коэффициентов эластичности
или /^-коэффициентов, можно выделить факторы, воздействие на которые более целесообразно с точки зрения управления ре
зультативным признаком.
Оценка качества полученного уравнения множественной регрессии выполняется аналогично оценке уравнения парной
32зависимости: статистическая значимость параметров модели проверяется на основе
t-статистики, статистическая значимость уравнения в целом – на основе
F-
критерия Фишера.1.6. Прогнозирование на основе регрессионных
моделей
Следующая прикладная задача корреляционно-
регрессионного анализа – прогнозирование поведения признака-
результата при том или ином изменении аргументов. Зная ме
ханизм влияния конкретных факторов на результат (имея рег
рессионную модель) и задавая возможные (желаемые) значения этих факторов, можно получить так называемый точечный про
гноз значений исследуемого признака.
Регрессионная модель является в известной мере абстрак
цией, превращающей корреляционную зависимость между при
знаками в функциональную. Ожидаемые средние значения ре
зультативного признака полностью определяются конкретными значениями независимых переменных, при таком условии тео
ретическая линия регрессии должна пройти через все эмпириче
ские точки, этого быть не может. Поэтому точечный прогноз, полученный на основе выбранной модели связи, дополняется расчетом доверительных интервалов для математического ожи
дания отклика.
Величина ошибки прогноза и, следовательно, доверитель
ный интервал зависят от амплитуды колебаний фактических значений вокруг линии регрессии (среднеквадратической ошиб
ки), от объема выборочной совокупности и от значения пере
менной
x
k
,
с
учетом
которого
прогнозируется
значение
призна
ка-результата
y
xk
.
Чем
меньше
x
k
отличается
от
x
,
тем
меньше
ошибка прогноза. Предельная ошибка прогноза рассчитывается следующим образом:
33А =
t
a
S
y
ост
,
(1.36)
n
;
\где
S
y
=
OCT
n-k-1k - число факторов, включенных в уравнение регрессии;
t
a -
коэффициент доверия, значение которого определяется исходя из удовлетворяющего исследователя уровня вероятности, по таблице
t-распределения Стьюдента, при d.f.=n-k-1;
х
k -
заданное значение признака-фактора.
На основании точечного прогноза величины результативного признака
y
xk , с учетом предельной ошибки определяется
доверительный интервал прогноза:
y
xk - А < y <
y
+A
(1.37)
Таким образом, с определенной вероятностью можно ут
верждать, что при заданном значении аргумента, истинное зна
чение признака-результата будет находиться в указанных гра
ницах.
Применяя регрессионную модель для прогнозирования, необходимо учитывать только допустимые значения независи
мой переменной. Диапазон таких значений ограничивается раз
махом вариации признака-фактора. Иными словами, предсказы
вая значения результативного признака, можно выполнить толь
ко интерполяцию в пределах возможных значений аргумента, экстраполяция значений невозможна.
34
2. РЕШЕНИЕ ЗАДАЧ КОРРЕЛЯЦИОННО-РЕГРЕССИОННОГО АНАЛИЗА С ИСПОЛЬЗОВАНИЕМ ППП
STATISTICA2.1. Решение задач изучения парной зависимости
2.1.1. Построение и анализ корреляционных таблицПостроение корреляционных таблиц, как отмечалось выше
один из методов выявления наличия корреляционной зависимо
сти. Поскольку выполнение лабораторной работы предусматри
вает ее построение, рассмотрим пример построения корреляционной таблицы с использованием некоторых вспомогательных модулей ППП
STATISTICA.
Корреляционная таблица – это результат группировки единиц изучаемой совокупности по двум признакам: в подлежащем таблицы выделяются группы по факторному признаку х, в сказуемом – по результативному у или наоборот. В клетках таблицы на пересечении x и у подсчитывается число случаев совпадения каждого значения х с соответствующим значением у
(частоты). Общий вид такой таблицы показан на условном распределении 40 единиц (табл. 2.1). Здесь в качестве х
может рассматриваться, например, стаж работы (число лет), а в качестве у – производительность труда, n = 40
– число рабочих.В первой строке значению факторного признака х =1 один раз соответствует значение у = 5 и три раза у = 10. Аналогично во второй строке, где х =
3, два раза этому значению соответствует у = 5, три раза у = 10 и семь раз
у =
15 и т.д.
35
Таблица 2.1
Пример корреляционной таблицыЗначение признака
x
jЗначение
приз
нака
y
iИтого
(число еди
ниц)Среднее
значение погруппам
y j
5
10
15
20
1
1
3


4
8,75
3
2
3
7

12
12,08
5

3
9
4
16
15,31
7


5
3
8
16,87Итого
(число еди
ниц)
3
9
21
7?f =
40
13,997
В итоговой строке - распределение всех 40 единиц совокупности по результативному признаку у (частоты обозначены
f
y), в итоговом столбце - распределение тех же 40 единиц, но по признаку-фактору х (обозначение частот
f
x). В последней графе представлено среднее значение признака-результата, т.е.
y
j:
yj
=^^
/ 1
fij
Например, для первой строки:
(2.1)
y
1
-5-1 +
10-3 4=
8,75.
36
Эти значения могут быть использованы для построения эмпирической
линии
регрессии
для
y
j
и
х
i
.Как видно их таблицы, по мере увеличения значений х (см.
табл.
2.1)
групповые
средние
значения
y
j
тоже
увеличиваются
от группы к группе, что позволяет сделать вывод о том, что ме
жду признаками существует прямая корреляционная зависи
мость.
О наличии и направлении связи можно судить и по «внешнему виду» таблицы, т.е. по расположению в ней частот. Так, если частоты разбросаны в клетках таблицы беспорядочно, то это чаще всего свидетельствует либо об отсутствии связи ме
жду группировочными признаками, либо об их незначительной зависимости.
Если же частоты сконцентрированы ближе к одной из диа
гоналей таблицы, образуя своего рода эллипс, то это почти все
гда свидетельствует о наличии зависимости, близкой к линей
ной. Расположение по диагонали из верхнего левого угла в ниж
ний правый свидетельствует о прямой линейной зависимости между показателями, наоборот – об обратной.Рассмотрим пример. Менеджер по маркетингу в компании,
владеющей сетью супермаркетов, хочет оценить, влияет ли рас
стояние между полками на объем продаж корма для домашних животных. Для анализа сформирована случайная выборка из 12 магазинов [3] (табл. 2.2).
Для определения числа интервалов и величины интервала для построения корреляционной таблицы можно воспользоваться меню
Statistics/Basic Statistics/Tables
(рис. 2.1).
37
Таблица 2.2Соотношение расстояний между полками в сети супермаркетов
и еженедельного объема продаж
МагазинРасстояние между полками
Х
, мЕженедельный объем продаж
Y,
тыс. дол
1
1,52
0,16
2
1,52
0,22
3
1,52
0,14
4
3,05
0,19
5
3,05
0,24
6
3,05
0,26
7
4,57
0,23
8
4,57
0,27
9
4,57
0,28
10
6,10
0,26
11
6,10
0,29
12
6,10
0,31
38Рис. 2.1. Выбор меню Basic Statistics/Tables в ППП
STATISTICAВ появившемся окне выбираем пункт
Frequency tables.
(рис. 2.2).С помощью кнопки
Variables
выбираем переменную, соответствующую зависимой (результативной) переменной, т.е.
у; переходим на закладку
Advanced,
на которой задаем необходи
мые опции построения таблицы частот. Напомним, что необходимо воспользоваться закладкой
Options и убрать метку с поля
Count and report missing data (MD),
чтобы исключить подсчет незаполненных ячеек (рис. 2.3, 2.4, 2.5).
39Рис. 2.2. Выбор меню
Frequency tables
40Рис. 2.3. Вид закладки Advanced функции
Frequency tables
41Рис. 2.4. Вид закладки Options функции
Frequency tablesРис. 2.5. Распределение еженедельного объема продаж кормов для животных в супермаркетах с числом интервалов k =
3
Требования, предъявляемые к построению таблиц частот, а также подробное описание данного меню и содержания табли-42
цы приведены в первой части учебного пособия по статистике, посвященной анализу распределений.
В данном примере подобрано число интервалов, равное трем. При этом можно воспользоваться результатами, предложенными системой как для определения числа интервалов, так и для определения величины интервала. Возможен второй вариант - расчет величины интервала h
вручную:h
= T,
(2.2)
kгде R - размах вариации; k -
число интервалов.
В рамках данной работы строится корреляционная таблица с нанесенными на нее линиями эмпирических регрессий
y = f(x) и
x = f(y).
Обращаем внимание на то, что собствен
но корреляционная таблица в настоящее время не используется как практический инструмент анализа корреляций. Мы ее ис
пользуем исключительно в учебных целях как средство нагляд
ного представления механизма проявления парной корреляци
онной зависимости. Структура корреляционной таблицы и ее заполнение очевидно из рис. 2.6 (утолщенными линиями выде
лено рабочее поле корреляционной таблицы). Как известно, эм
пирическая регрессия - ломаная, проходящая через точки ус
ловных средних (в корреляционной таблице выделены заливкой), нанесенных на поле корреляционной таблицы:
y =
f(x)
,
проходит через точки
yi
xi ,
x = f(y) – через
x
j
y
'
j
.
1xi
'
j fij
Ц
yi
'уУу
=
y
i
' =
^ ^—;
x
j '

х' Z Z
f
yj Z Z
f
.
43
Расчет условных средних:
_0,130 • 2 + 0,215 •
1
У
1
==
0,158 ;
X
1'
3
_0,215-4 +
0,305-2У 2 '
=
=
0,245 ;
_0,215-1 +
0,305-2Уз
=
=
0,275 ;
Х
3'
3_
1,54-2
х
1 '
==
1,54;1,54-1 +
3,86-4 +
6,18-1
х
2
==
3,86;
У
2'
6
_3,86-2 +
6,18-2
х
3
==
5,02;
у
3'
4
Среднее значение признака-результата по всей совокупно
сти
1 0,130-2 + 0,215-6 +
0,305-4
2-
У
//
_ ,0,130-2 + 0,215-6 +
0,305-4У =
^==
==
0,2308,
ггде _у,
-середины интервалов.
44
x
Факторная переменная
x
i
(i
=1, 2, 3)
f
y
4 6 2
x
y
j
5,02 3,86 1,54
y
0.38–2,70
2,70–5,02
5,02–7,34
1,54
3,86
6,18
**
J
**
*
****
*
**
f
x
3
6
3
Z
fx
=12
y
x
i
0,158
0,245
0,275
Tjfy
=
12Рис. 2.6. Корреляционная таблица с наложенными
линиями эмпирических регрессий
Для оценки тесноты связи между изучаемыми признаками (расчета эмпирического корреляционного отношения) необхо
димо определить значения дисперсий: общей и межгрупповой. Межгрупповая дисперсия
45
Х]
(^' ~
у)
2
fx
5
2
=—

^
=
(0,158-
0,2308)
2 • 3 + (0,245 -
0,2308)
2 • 6 + (0,275 -
0,2308)
2 •
3
=
=
12=
0,001914.
Общая дисперсия
^(j/.

)
2
f
а
2
=<т
2
=—=
=
J(0,130 -
0,2308)
2 • 2 + (0,215 -
0,2308)
2 • 6 + (0,305 -
0,2308)
2 •
4
=
=
12= 0,003653.
Эмпирическое корреляционное отношение
S
2
— =
2
0,001914
/
ц
== д/0,523938 =
0,723836
0,003653
Коэффициент детерминации:
77
э
м
п =0,523938.
Полученное значение корреляционного отношения свиде
тельствует о наличии тесной корреляционной зависимости меж
ду изучаемыми характеристиками.
46
2.1.2. Построение поля корреляции
Исходные данные к анализу представлены ранее (см. табл. 2.1). В первую очередь необходимо выявить наличие или отсут
ствие связи между признаками. Наряду с построением корреля
ционной таблицы можно воспользоваться и построением корре
ляционного поля.Для построения поля корреляции в среде STATISTICA
используем меню
Graphs/Scatterplots
(рис. 2.7).Рис. 2.7. Запуск меню
Graphs/Scatterplots
47На закладке
Quick
(рис. 2.8) данного диалогового окна выбираем переменные х и у в соответствующие поля c помощью кнопки
Variables
(рис. 2.9).Рис. 2.8. Внешний вид закладки Quick процедуры
ScatterplotsВ поле
Graph Type
возможно задать тип графика. Можно изобразить несколько зависимостей в одной системе координат (
Multiple)
или представить их разными графическими изображе
ниями (
Regular
).Метка в поле
Fit type (Linear)
означает, что на корреляци
онное поле будет наложена линия линейной регрессии.В поле
Regression Bands
возможно задать построение до
верительных интервалов для линии регрессии (
Confidence)
с ус
тановленной доверительной вероятностью или построение толь
ко прогнозных значений (
Prediction
).
48
Рис. 2.9. Окно выбора переменных 1На закладке
Advanced
представлены только что описанные функции, но более широко: можно выбрать большее количество типов графиков и наложить на поле несколько видов кривых (рис. 2.10).В поле
Statistics ставим метки на
R square,
Correlation and p,
Regression equation:
это означает, что вместе с графиком бу
дут выведены соответственно: коэффициент детерминации, теоретическое корреляционное отношение и расчетный уровень значимости, уравнение регрессии (все показатели выводятся для
линейной зависимости).В поле
Ellipse выделяем меткой либо
Normal (наложение на корреляционное поле эллипса с параметрами нормального распределения), либо
Range
(означает сужение эллипса на заданный в поле
Coefficient
диапазон).Поле
Regression bands
позволяет задавать вывод доверительных интервалов (метка в поле
Confidence level, числа в поле ниже этой метки обозначают доверительную вероятность) или только построение линии регрессии (метка в поле
Prediction) (cм.
рис. 2.10.)
Как и во всех других графических процедурах можно задать название графика - на закладке
Option 1 в поле
Custom Title. Далее нажимаем
ОК.
49Рис. 2.10. Внешний вид закладки Advanced процедуры
Scatterplots
50Рис. 2.11. Корреляционное поле и основные (первичные) результаты
корреляционно-регрессионного анализаПолучаем корреляционное поле (рис. 2.11.) и показатели: r - теоретическое корреляционное отношение;
r
2 - коэффициент детерминации; р - расчетный уровень значимости;
y
i = 0,145 + 0,024 x
– уравнение линейной регрессии.
По расположению точек на поле корреляции можно гово
рить о наличии тесной прямой зависимости между изучаемыми признаками. Этот вывод подтверждается полученными значениями показателей корреляции:
r
2 =
0,6839
, r=
0,8270
.
51Рис. 2.12. Выбор меню
Point labelsРис. 2.13. Меню
Point labels
52
Рис. 2.14. Отображение координат точек корреляционного поля
53
Необходимо отметить, что при построении корреляцион
ного поля возможно выявление «аномальных» точек. Для того чтобы быстро определить их координаты, необходимо выполнить следующие операции. На корреляционном поле щелкнуть правой кнопкой мыши по любой из точек и выбрать пункт меню
Point labels (рис. 2.12). В появившемся окне нужно поставить метку в поле
Display point labels
(отображать метки точек), затем снять метку с поля
Text labels (текстовые подписи точек) и поставить метки в поля X
coordinate и
Y coordinate
для отображения координат точек по соответствующим осям (рис. 2.13) Далее нажимаем
ОК
и получаем корреляционное поле с указан
ными координатами его точек (рис. 2.14).2.1.3. Построение уравнений парной регрессии и расчет
показателей корреляции
При построении поля корреляции программа строит и ли
нейное уравнение регрессии. Однако на практике мы не всегда имеем дело с линейной зависимостью и на основе поля корреля
ции не всегда очевиден вид связи между анализируемыми переменными. Поэтому, как правило, строят несколько уравнений регрессии и на основе описанных выше критериев выбирают модель, наилучшим образом отражающую корреляционную связь х и
у
.
Построим и сравним, например, линейную, степенную и экспоненциальные регрессионные модели.Рис. 2.15. Запуск процедуры
Statistics/Multiple Regression
54
Для построения моделей линейного типа (парных, множественных или линеаризованных) удобно воспользоваться меню
Statistics/Multiple Regression
(рис. 2.15).
В появившемся окне нажимаем на кнопку выбора переменных
Variables
(рис. 2.16). В левое поле (
Dependent variable)
выбираем «

(зависимая переменная, результат), а в правом поле (
Independent variable)
выбираем соответственно «
Х
» (неза
висимая переменная, фактор) (рис. 2.17).Далее нажимаем
ОК
. Появляется диалоговое окно, в верх
нем поле которого даны основные показатели уравнения, такиеРис. 2.16. Внешний вид процедуры
Statistics/Multiple Regression
55
как
R
2

коэффициент
детерминации,
F

критерий Фишера (рис. 2.18). Переходим на закладку
Advanced (рис. 2.19). Вверху нижней части модуля в поле
Alpha for highlighting effects
задает
ся теоретический уровень значимости (0,05). Далее расположе
ны закладки и кнопки с различными функциями.Рис. 2.17. Окно выбора переменных 2
—?Рис. 2.18. Закладка Quick процедуры
Multiple Regression ResultsВ первую очередь нас интересует кнопка
Summary: Regres
sion results.
При нажатии на нее получаем две таблицы с резуль-56
татами анализа. В первой (рис. 2.20) – основные оценочные по
казатели уравнения и показатели корреляции, во второй (рис. 2.21) –результаты расчета параметров уравнения регрессии и оценка их значимости.Рис. 2.19. Закладка Advanced процедуры
Multiple Regression Results
57
Statistic
Summary Statistics
DV:
у
(Spread
;heet3 in
парная
)
Vnlue
?1
Multiple RD
,82700]
Multiple R?
0,68393
Adjusted R?
0,652321
F(1,10)
21,63857
1
Std.Err. of Estimate
0.03081
1
Рис. 2.20. Показатели корреляции и оценка линейного
уравнения регрессии
4
N=12Regression Summary for Dependent Variable:
у (Spreadsheets in
парная) R= ,82700064 R?= ,68393006 Adjusted R?= ,65232306
F(1,10)=21,639
p<,00091 Std.Error of estimate:
,03081
Beta
Std.Err. of Beta
ВStd.Err. of
В
t(10)p-level
1
Intercept
0,145000
0,021783 6,6565611
0,000057
1
X
0,82700110,177784
0,024278
0,005219
4,651727
0,0009061
Рис. 2.21. Результаты расчета параметров уравнения
линейной регрессии
N = 12 – объем изучаемой совокупности. В верхнем поле расположены показатели
R, R
2
, Adjusted R, F, p, Std. Error of еs-
timate,
означающие соответственно: теоретическое корреляци
онное отношение, коэффициент детерминации, скорректиро
ванный коэффициент детерминации, расчетное значение крите
рия Фишера (в скобках приведено число степеней свободы фак
торной и остаточной дисперсий), уровень значимости, стандартная ошибка уравнения (эти же показатели см. на рис. 2.20). В самой таблице нас интересуют столбцы:
В
– параметры уравнения;
t и
p-level, содержащие расчетные значения
t
-критерия и уровня значимости, необходимые для оценки статистической значимости параметров уравнения. При этом система помогает
4 Обращаем внимание читателя на то, что здесь и далее Multiple R?, Adjusted R? и R? cледует понимать:
Multiple R
2
, Adjusted R
2 и
R2
(небрежность разработчиков системы).
58
пользователю: когда процедура предполагает проверку на значимость, STATISTICA
выделяет значимые элементы красным цветом (т.е. отвергается нулевая гипотеза о равенстве парамет
ров нулю). В нашем случае |
t
ф
акт| >
t
т
абл (2,228) для обоих пара
метров, следовательно, они значимы.
Соответственно уравнение линейной регрессии выглядит следующим образом
5
:
y
i = 0,145000 +
0,024278
x
.Кнопка
ANOVA (Overall goodness of fit) которая находится на той же закладке
Advanced
(см. рис. 2.19) позволяет получить резуль
таты дисперсионного анализа (рис. 2.22).Рис. 2.22. Результаты дисперсионного анализа линейного
уравнения регрессии
В верхней заголовочной строке таблицы выдаются пять оценок:
Sums of Squares – сумма квадратов отклонений;
df – число степеней свободы;
Mean Squares – средний квадрат;
F – критерий Фишера;
p-level – расчетный уровень значимости
F
– критерия.
В левом столбце указывается источник вариации:
5
Во избежание разночтений в тексте параметры регрессионных моде
лей приводятся с той точностью, которую обеспечивает вычислитель
ный алгоритм. В реальных задачах обычно проводится округление.
59
Regression
– отклонения теоретических (полученных по уравнению регрессии) значений признака от средней величины;
Residual
– отклонения фактических значений от теоретических (полученных по уравнению регрессии);
Total

отклонения
фактических
значений y
от
их
средней
вели
чины.На пересечении столбцов и строк получаем однозначно
определенные показатели:
Regression / Sums of Squares
– сумма квадратов отклонений тео
ретических (полученных по уравнению регрессии) значений признака от средней величины; эта сумма квадратов использу
ется для расчета факторной, объясненной дисперсии зависимой переменной;
Residual / Sums of Squares
– сумма квадратов отклонений теоре
тических
и
фактических
значений y
(для
расчета
остаточной,
необъясненной дисперсии);
Total /
Sums of Squares
– сумма квадратов отклонений фактиче
ских
значений y
от
средней
величины
(для
расчета
общей
дис
персии);
Regression / Mean Squares – факторная, объясненная дисперсия;
Residual / Mean Squares
– остаточная, необъясненная дисперсия.
Фактическая величина F-критерия сравнивается с его тео
ретическим (табличным) значением исходя из соответствующего числа степеней свободы и заданного уровня значимости. Если
F
факт>
F
теор
, то можно считать, что уравнение в целом значимо.В нашем случае теоретическое значение критерия Фишера
равно 4,96, следовательно, уравнение в целом и коэффициент детерминации статистически значимы.
Далее построим графическое изображение линии регрес
сии, наложенное на корреляционное поле, с 95%-ными доверительными интервалами. Для этого переходим на закладку
Re
siduals/assumptions/prediction и нажимаем кнопку
Perform resid
ual analysis (рис. 2.23). В появившемся окне анализа остатков
Residual Analysis переходим на закладку
Scatterplots (рис. 2.24). Находясь на закладке
Scatterplots, нажимаем на кнопку Predicted
vs. observed
(рис. 2.25). Это означает, что линия регрессии
60
(сплошная) наносится на корреляционное поле, полученное с помощью фактических значений с 95%-ными доверительными интервалами (пунктирные линии) (рис. 2.26).Рис. 2.23. Закладка Residuals/assumptions/prediction процедуры
Multiple Regression Results
61Рис. 2.24. Закладка Quick процедуры
Residual AnalysisРис. 2.25. Закладка Scatterplots процедуры
Residual Analysis
62
Рис. 2.26. Корреляционное поле и линия регрессии
с 95%-ными доверительными интервалами для линейной модели
Далее рассмотрим процедуру, позволяющую строить регрессионные модели как линейного, так и нелинейного типа. Для этого выбираем:
Statistics/Advanced Linear/Nonlinear Mod
els/Nonlinear Estimation (рис. 2.27). В появившемся окне (рис. 2.28) выбираем функцию User-specified Regression, Least Squares
(построение моделей регрессии пользователем вручную, пара
метры уравнения находятся по М. Н. К.).В следующем диалоговом окне (рис. 2.29) нажимаем на кнопку
Function to be estimated,
чтобы попасть на экран для за
дания модели вручную (рис. 2.30).
63Рис. 2.27. Запуск процедуры
Statistics/Advanced Linear/Nonlinear
Models/Nonlinear EstimationРис. 2.28. Окно процедуры
Nonlinear Estimation
64
Ш Use
г-Specified Regression
p
Least Squares: Spreac
»
-w
Quick |
ц|
Function to be estimated
Ш
idki
Cancel
Function: none
?3Options
т 1
Ж i\ &
ш
|?
MD deletion P Casewise
(~ Mean substitutionРис. 2.29. Окно процедуры
User-Specified Regression, Least SquaresРис. 2.30. Окно для реализации процедуры
задания уравнения регрессии вручную
65
В верхней части экрана находится поле для ввода функции, в нижней части располагаются примеры ввода функций для
различных ситуаций.
Прежде чем сформировать интересующие нас модели, не
обходимо пояснить некоторые условные обозначения. Перемен
ные уравнений задаются в формате «
v
№», где «
v
» обозначает переменную (от англ.
«
variable»),
а «№» – номер столбца, в ко
тором она расположена в таблице на рабочем листе с исходны
ми данными. Если переменных очень много, то справа находится кнопка
Variables,
позволяющая выбирать их из списка по названиям и просматривать их параметры (рис.2.31, кнопка
Zoom
).
Рис. 2.31. Окно ввода переменной 3Параметры уравнений обозначаются любыми латинскими
буквами, не обозначающими какое-либо математическое дейст
вие. Для упрощения работы предлагается обозначать параметры уравнения так, как в теоретическом разделе данного пособия – латинской буквой «
а
», последовательно присваивая им порядковые номера. Знаки математических действий (вычитания, сложения, умножения и пр.) задаются в обычном для
Windows
-приложений формате. Пробелы между элементами уравнения не
требуются.
66Рис. 2.32. Окно процедуры задания уравнения
степенной модели регрессииИтак, построим степенную функцию для нашего примера. Степенная функция имеет вид
y =
a
0
x
a1, следовательно, после
набора она будет выглядеть следующим образом:
v2 =
a0*
v
1^
a
1,где v2 - это столбец на листе с исходными данными, в котором находятся значения признака-результата;
а0 и а1 -
параметры уравнения;
67
v
1 – столбец на листе с исходными данными, в котором находятся значения признака-фактора (рис. 2.32). После этого дважды нажимаем кнопку
ОК
(рис. 2.33).Рис. 2.33. Окно процедуры User-Specified Regression
с выбранной степенной функцией
В появившемся окне (рис. 2.34) можно выбрать метод оценки параметров уравнения регрессии (
Estimation method), если это необходимо. В нашем случае нужно перейти к закладке
Advanced и нажать на кнопку
Start values
(рис. 2.35). В этом диа
логе задаются стартовые значения параметров уравнения для их нахождения по МНК., т.е. их минимальные значения. Изначаль
но они заданы как 0,1 для всех параметров. В нашем случае поставим стартовые значения, равные одной тысячной для обоих параметров, так как значения в наших исходных данных меньше единицы (рис. 2.36). Нажимаем кнопку
ОК
.
68Рис. 2.34. Закладка Quick
процедуры оценки уравнения регрессии
69Рис. 2.35. Закладка Advanced
процедуры оценки уравнения регрессии
Рис. 2.36. Окно задания стартовых значений параметров уравнения
70Рис. 2.37. Закладка Quick
окна результатов регрессионного анализаНа закладке
Quick
(рис. 2.37) очень важным является значение строчки
Proportion of variance accounted for,
которое соот
ветствует коэффициенту детерминации; это значение лучше за
писать отдельно, так как в дальнейшем оно выводиться не бу
дет, и пользователю придется рассчитывать коэффициент вручную. Далее нажимаем кнопку
Summary: Parameter estimates
для построения степенной модели регрессии.
Рис. 2.38. Результаты расчета параметров степенной модели
71Соответственно уравнение степенной модели регрессии имеет вид
y =
0,151718
x
0
,
355097 .В таблице (рис. 2.38) столбец
Estimate -
числовые значения параметров уравнения;
Standard еrror - стандартная ошибка параметра;
t-value - расчетное значение
t-критерия;
df - число степеней свободы (n-2);
p-level - расчетный уровень значимости;
Lo. Conf. Limit и
Up. Conf Limit - соответственно нижняя и верхняя граница доверительных интервалов для параметров уравнения с установленной вероятностью (указана как
Level of Confidence
в верхнем поле таблицы).После этого нажимаем на кнопку Analysis of Variance (дисперсионный анализ) на той же закладке
Quick
(см. рис. 2.37). В основном содержание появившейся таблицы (рис. 2.39) аналогично описанной выше (см. комментарии к рис. 2.22), од
нако имеются некоторые различия.
Рис. 2.39. Результаты дисперсионного анализа степенной модели
В верхней заголовочной строке таблицы выдаются пять оценок:
Sum of Squares – сумма квадратов отклонений;
df – число степеней свободы;
Mean Squares – средний квадрат;
F-value – критерий Фишера;
p-value – расчетный уровень значимости
F
-критерия.В левом столбце указывается источник вариации:
Regression
– квадраты теоретических (полученных по уравне
нию регрессии) значений признака;
72
Residual – отклонения фактических значений от теоретических
(полученных по уравнению регрессии);
Total

отклонения
фактических
значений y
от
их
средней
вели
чины.На пересечении столбцов и строк получаем однозначно
определенные показатели:
Regression / Sum of Squares
– сумма квадратов прогнозных зна
чений;
Residual / Sum of Squares
– сумма квадратов отклонений теоре
тических
и
фактических
значений y
(для
расчета
остаточной, необъясненной дисперсии);
Total /
Sum of Squares
– сумма первой и второй строчки (сумма квадратов фактических значений);
Corrected Total /
Sum of Squares
– сумма квадратов отклонений фактических
значений y
от
средней
величины
(для
расчета
об
щей дисперсии;
Regression vs. Corrected Total / Sum of Squares
– повторение пер
вой строчки;
Regression / Mean Squares
– сумма квадратов прогнозных значе
ний, деленная на число степеней свободы;
Residual / Mean Squares – остаточная, необъясненная дисперсия;
Regression vs. Corrected Total / Mean Squares
– повторение первой строчки;
Regression / F-value – расчетное значение
F
-критерия..Далее переходим к закладке
Advanced
(рис. 2.40). Здесь имеется возможность задавать уровень значимости (
p-level for highlighting)
и вероятность расчета доверительных интервалов для параметров уравнения (
Confidence intervals for parameter estimates
).Кнопка Fitted 2D function &
observed vals.
позволяет вы
вести графическое изображение линии регрессии на корреляционном поле, правда, без отображения доверительных интервалов
(рис. 2.41).На закладке
Residuals можно воспользоваться кнопкой
Predicted vs. observed,
которая позволит построить поле корре-
73
ляции, полученное с помощью фактических и прогнозных зна
чений, но без линии регрессии.Рис. 2.40. Закладка Advanced
результатов регрессионного анализа
74
Рис. 2.41. Корреляционное поле
с наложением линии степенной регрессии.
Теперь сделаем то же самое для экспоненциальной модели (рис. 2.42 – 2.45).
75Рис. 2.42. Окно процедуры задания уравнения
экспоненциальной модели регрессии
Рис. 2.43. Результаты расчета параметров экспоненциальной модели
76
EffectModel is: v2=exp(a0+a1*v1) (Spreadsheets in
парная) Dep. Var. :
у1 2 3
Sum of Sqaresl DF | Mean Squares
F-value
p-value
Regression0,B9E I
0000
0,348489
345,6867
0,888880
Residual
0,010081 10,00000
8,881888
Total
0,706900 12,00000
Corrected Total
0,030025 11,00000
Regression vs.Corrected Total
0,696819 2,00000
8,348489
127,6438
0,888880Рис. 2.44. Результаты дисперсионного анализа
экспоненциальной модели
Соответственно уравнение экспоненциальной модели регрессии имеет вид: у =
exp(-1,83029 +
0,09944х).
Рис. 2.45. Корреляционное поле и кривая экспоненциальной регрессионной модели
77
Выбор лучшей модели можно осуществить исходя из зна
чений коэффициента детерминации, либо остаточной диспер
сии. Процедуру можно представить в виде таблицы (табл. 2.3).
Таблица 2.3
Итоговая таблица уравнений и показателей№
п/п
1 2
3
Модель
Уравнение
R
2
(
г\
2),
%2
ост
Линейная
y = 0,145000 + 0,024278
x
68,4%
0,000949
Степенная
y =
0
,1
51718
x
0
,
355097
70,6%
0,000883
Экспонен
циальная
y =
exp(-1,83029 +
0,09944
x
)
66,4%
0,001008Таким образом, лучшей регрессионной моделью можно
считать степенную, так как ей соответствует максимальное зна
чение коэффициента детерминации, а остаточная дисперсия минимальна. Уравнение в целом по
F-критерию Фишера значимо. Параметры уравнения также статистически значимы, поскольку
t
-статистика по модулю превышает 2, 228 (табличное значение).
Для расчета доверительных интервалов параметров уравнения используются значения среднеквадратических ошибок параметров - S (графа Std. Error of
В
в таблице уравнения регрессии линейной модели;
Standard Error
для степенной и экспоненциальной моделей). Значение коэффициента доверия t
определяется по таблице распределения Стьюдента (приложение 4) исходя из доверительной вероятности (95 %) и числа степеней свободы n-k-1, где n - число наблюдений, k - число признаков-факторов в уравнении. Результаты отображены в столбцах
Lo. Conf. Limit и
Up. Conf. Limit
(см. рис. 2.38):
a
0-t-s

0
<a
0
+t-s,
780,151718-0,017245-2,228 < А
0 < 0,151718 + 0,017245 -2,228, 0,113293 <
А
0 <
0,190143
a
1
-s • t < А
1
<a
1 +
s-t
,0,355097 - 0,077802 • 2,228 < А
1 < 0,355097 + 0,077802 • 2,228, 0,181744 < А
1 <
0,528540 .
2.1.4. Прогнозирование на основе регрессионной модели
Полученная модель корреляционной зависимости может быть использована для прогнозирования. Необходимо напомнить, что задаваемое значение признака-фактора
х
k не должно выходить за пределы 1,52-6,10, т.е. находиться в диапазоне тех
значений аргумента, с учетом которых построена модель.На основании точечного прогноза результативного признака
y
xk
и величины предельной ошибки рассчитывается довери-тельный интервал прогноза:
y
xk - А < y
<
y
xk
+A
.
Допустим, мы хотим узнать с вероятностью 95 %, каков бу
дет еженедельный объем продаж, если расстояние между пол
ками будет составлять ровно 5 м. Сачала получаем точечный прогноз по уравнению регрессии, признанному лучшим, а именно по степенной модели:
y
xk
=0,151718 .5
0
,
355097 =0,266 ,затем рассчитываем доверительный интервал, при этом А
рас
считывается по формуле (1.37):
790,266 - 0,0297 • 2,228 < y < 0,266 + 0,0297 •
2,228 ,0,1997 < y <
0,3322 .Следовательно, с вероятностью 95 % можно утверждать, что средний еженедельный объем продаж корма при расстоянии
между полками 5 м будет находиться в интервале 0,1997-0,3322 тысяч долларов США (от 199,7 до 332,2 долларов США).2.2. Решение задач изучения множественной
корреляционной зависимости2.2.1. Построение уравнения множественной регрессии
и расчет показателей множественной корреляции
Изучение множественной корреляционной зависимости предполагает оценку влияния двух и более факторов на интересующий исследователя признак-результат. В качестве примера
оценим влияние ряда факторов на формирование цен на первич
ном рынке жилья в Санкт-Петербурге.
Принятые в таблице обозначения: признак-результат (зависимая переменная) у - цена квартиры, тыс. дол. В качестве признаков-факторов выбраны: х 1 - число комнат в квартире;
х2 -
район города (1 - Приморский; Шувалово - Озерки; 2 - Гражданка; 3 - Юго-Запад; 4 - Красносельский);
х
3 - общая площадь квартиры, м
2;
х
4 - жилая площадь квартиры, м
2;
х
5 - площадь кухни, м
2;
х6 - тип дома (1 - кирпичный, 0 - другой);
х
7 - наличие балкона (1 - есть, 0 - нет);
х
8 - число месяцев до окончания срока строительства. Данные табл. 2.4 получены выборочным методом на основе открытых публикаций прессы Санкт-Петербурга.
80
Таблица 2.4 Данные о рынке строящегося жилья в Санкт-Петербурге
x
1
x
2
x
3
x4
20,0 40,5 16,0 20,0 28,0 46,3 45,9 47,5 87,2 17,7 31,1 48,7 65,8 21,4 20,6 29,7 17,8 43,5 17,8 42,4 20,0 41,3 35,4 41,4 48,5 22,3 18,0 35,5 20,0 31,0 56,0 30,7 36,2 41,0
x5 8,2 10,7 10,7 8,5 10,7 10,7 10,7 10,4 14,6 11,0 10,0 14,0 13,0 11,0 10,4 9,4 8,3 8,3 8,3 8,3 8,3 8,3 13,0 12,1 12,1 12,4 8,1 17,0 9,2 8,0 22,0 8,3 13,3
8,0
x
6
x
7
x
8y
15,9 27,0 13,5 15,1 21,1 28,7 27,2 28,3 52,3 22,0 28,0 45,0 51,0 34,4 24,7 30,8 15,9 29,0 15,4 28,6 15,6 27,7 34,1 37,7 41,9 24,4 21,3 36,7 21,5 26,4 53,9 34,2 35,6 34,0
1
1
1
39,0
0
1
0
2
3
1
68,4
0
1
0
3
1
1
34,8
0
1
12
4
1
1
39,0
0
1
12
5
2
1
54,7
0
1
12
6
3
1
74,7
0
1
12
7
3
1
71,7
0
0
0
8
3
1
74,5
0
0
0
9
4
1
137,7
0
1
0
10
1
1
40,0
1
1
8
11
2
1
53,0
1
1
8
12
3
1
86,0
1
1
8
13
4
1
98,0
1
1
8
14
2
1
62,6
1
1
0
15
1
1
45,3
1
1
8
16
2
1
56,4
1
1
8
17
1
1
37,0
0
1
0
18
3
1
67,5
0
1
0
19
1
1
37,0
0
1
3
20
3
1
69,0
0
1
3
21
1
1
40,0
0
0
0
22
3
1
69,1
0
1
0
23
2
1
68,1
1
1
20
24
2
1
75,3
1
1
20
25
3
1
83,7
1
1
20
26
1
1
48,7
1
1
20
27
1
1
39,9
1
0
0
28
2
1
68,6
1
1
12
29
1
1
39,0
1
0
0
30
2
1
48,6
1
0
0
31
3
1
98,0
1
0
0
32
2
1
68,5
1
1
6
33
2
1
71,1
1
1
6
34
3
1
68,0
1
1
12
81
x
1
x
2
35
1
1
36
2
1
37
3
1
38
1
2
39
2
2
40
3
2
41
4
2
42
1
2
43
2
2
44
3
2
45
2
2
46
3
2
47
3
2
48
3
3
49
1
3
50
2
3
51
3
3
52
1
3
53
1
3
54
2
3
55
2
3
56
3
3
57
1
4
58
2
4
59
3
4
60
1
4
61
2
4
62
3
4
63
1
3
64
2
3
65
3
3
66
1
4
67
2
4
68
3
4
69
4
4
x
6
x
7
x
8
1
1
12
1
1
12
1
1
12
1
0
12
1
0
12
1
1
12
1
1
12
1
1
6
1
1
6
1
1
6
1
1
12
1
1
12
1
1
12
1
1
0
1
1
6
1
1
6
1
1
6
1
0
0
1
1
0
1
0
0
1
1
0
1
1
0
0
1
7
0
1
7
0
1
7
0
1
3
0
1
3
0
1
3
1
1
18
1
1
18
1
0
18
0
1
6
0
1
6
0
1
6
0
1
6
О
к
онча
н
ие табл 2. 4
y
19,0
46,6
58,5
24,2
35,7
51,2
75,9
21,2
30,8
34,0
31,9
43,6
52,2
43,1
25,0
35,2
40,8
18,2
20,1
22,7
27,6
36,0
17,8
25,9
32,6
19,8
29,9
39,2
22,4
35,2
41,2
17,8
25,0
35,2
40,8
x
3
x4 19,0 49,5 55,2 21,0 35,0 52,3 89,6 19,2 31,9 38,9 36,3 49,7 52,3 44,7 20,0 32,7 44,7 20,0 20,0 28,5 33,5 44,7
17,5 30,5 42,5 16,0 31,0 45,6 21,2 40,0 53,8 19,3 31,4 42,4 55,2
x5 7,4 14,0 25,0 10,2 11,0 11,5 11,0 10,1 11,2 9,3 10,9 13,8 15,3 8,0 10,2 10,1 8,0 10,2 10,2 8,0 10,1 8,0 8,3 8,3 8,3 11,0 11,0 11,0 11,2 11,6 16,0 8,4 11,1 15,5
9,4
38,0
93,2
117,0
42,0
62,0
89,0
132,0
40,8
59,2
65,4
60,2
82,2
98,4
76,7
38,7
56,4
76,7
38,7
41,5
48,8
57,4
76,7
37,0
54,0
68,0
40,5
61,0
80,0
52,0
78,1
91,6
39,9
56,2
79,1
91,6
82
Начнем анализ с построения уравнения регрессии, включив в него все имеющиеся факторы. Для этого воспользуемся уже известным меню
Statistics/Multiple Regression. С помощью кнопки
Variables
задаем переменные. В левом поле (
Dependent var. (or list for batch)) выбираем зависимую переменную
у
, т.е. стоимость квартир. В правом поле (
Independent variable list)
независимые переменные, т.е. признаки-факторы (в нашем случае
x
1-
x8), нажимаем
ОК
(рис. 2.46).
Рис. 2.46. Окно выбора переменных 4Переходим на закладку
Advanced
(рис. 2.47). На закладке расположено несколько полей, позволяющих на
строить процедуру решения задачи и форму выводов результатов.
Advanced options (stepwise or ridge regression)
– опция дает возможность либо реализовать процедуру пошагового регрес
сионного анализа (
stepwise)
(см. рис. 2.47), либо выбрать проце
дуру так называемой гребневой регрессии (
ridge regression
).
83Рис. 2.47. Закладка Advanced диалогового окна
Multiple Regression
Гребневая регрессия (ридж-регрессия) — регрессия, па
раметры которой получены на основе гребневых (ридж-) оце
нок. В условиях мультиколлинеарности обычные оценки метода наименьших квадратов имеют большие значения стандартных ошибок (оценки неустойчивы). Гребневые оценки параметров регрессии хотя и смещены, но имеют лучшие статистические характеристики точности. Они рассчитываются по формуле:
(X
TX + kD)
1
X
T
y,
(2.3)
84
где X

матрица
независимых
переменных;
D

диагональная
матрица
X
T X ; у – вектор зависимой переменной; Т
– знак транспонирования;
k>0 – параметр регуляризации (при k = 0
гребневые оценки пре
вращаются в оценки метода наименьших квадратов).В ППП STATGRAPHICS
аналогичный параметр обозначен «theta» и задается граничными значениями «Minimum for theta» и «Maximum for theta», в ППП STATISTICA – «lambda» с заданием нижней границы, причем предустановлено lambda = 0,10.
(см. рис. 2.61). Проблема использования гребневой регрессии на практике сводится к выбору подходящего значения
k. Гребневая регрессия используется в регрессионном анализе при
мультиколлинеарности исходных показателей
6
.
В выполняемой студентами работе используется классиче
ский метод наименьших квадратов.
Review descriptive statistics, correlation matrix
позволяет получить основные показатели регрессионной модели и постро
ить упрощенную корреляционную матрицу. В нашем случае не используется, поскольку показатели модели автоматически бу
дут рассчитаны при ее построении, а для построения матрицы будет использована другая опция.
Extended precision computations – вычисления повышенной
точности (используется при необходимости сравнения двух очень похожих моделей, увеличивает количество знаков деся
тичных дробей).
Batch processing/reporting
– опция, которой в данном случае мы воспользуемся. Ставим метку в этом поле и нажимаем
ОК
. Система формирует отчет, содержащий несколько уже зна
комых таблиц (рис. 2.48, 2.49).
6
Статистический словарь 2-е изд. перераб. и доп. М.: Финансы и ста
тистика, 1989. С. 623.
85
Statistic Multiple R
Multiple R?Summary Statistics; DV:
у
(Spreadsheet2 in mnozhcor)
Value
Adjusted R? F(8,60)
0,0000
1
Std.Err. of Estimate
3,06181
Рис. 2.48. Основные показатели модели множественной регрессии
Рис. 2.49. Таблица параметровуравнения множественной
регрессии и их оценок
y =
-6,10491-0,16426
х1 +
0,74417
х2 +
0,36827
х3 + +
0,14787
х4 +
0,177721
х5 +
6,93635
х6 + +
1,77765
х7 -
0,04802
х8;
R
2 =
0,94259943.
Представленные таблицы (см. рис. 2.48, 2.49) были описаны в разделе, посвященном анализу парной зависимости. Всего
в отчете строятся три таблицы, в третьей представлены характе
ристики только признаков-факторов. Из представленной табли
цы (см. рис. 2.49.) видно, что часть коэффициентов в уравнении множественной регрессии статистически не значима(
расчтабл.
).
86Рис. 2.50. Выбор процедуры
Correlation matrices
Поэтому следующим этапом анализа будет построение корреляционной матрицы с целью обоснованного отбора факто
ров для включения в уравнение: выявления факторов, которые незначительно влияют на результат, а также коллинеарных факторов. Для этого воспользуемся меню
Statistics/Basic Statis
tics/Tables и выберем опцию
Correlation matrices
(рис. 2.50).В появившемся окне (рис. 2.51) нажимаем кнопку
One variable list,
так как необходимо получить корреляционную матрицу с включением всех элементов, и выделяем переменные (рис. 2.52). Затем переходим на закладку
Options и ставим метку в поле
Display r, p-levels and N’s, что означает отображение в матрице соответственно парных коэффициентов корреляции, расчетных уровней значимости и объемов переменных (рис. 2.53). После этого нажимаем кнопку
Summary.
Остальные поля закладки известны нам по предыдущим работам и в данном за
дании не используются.
87Рис. 2.51. Закладка Quick процедуры
Correlation matrices
Рис. 2.52. Окно выбора переменных 5
88Рис. 2.53. Закладка Options процедуры
Correlation matrices
89
Рис. 2.54. Корреляционная матрица
В полученной матрице (рис. 2.54) содержатся парные ко
эффициенты корреляции стоимости квартир и каждого из ана
лизируемых факторов, а также коэффициенты, оценивающие степени тесноты связи между факторами. Система помогает пользователю, выделяя красным цветом значения в тех клетках, где пересекаются элементы, связь между которыми значима. В каждой клетке расположены два числа: верхнее – коэффициент корреляции, нижнее – уровень значимости.Как видно из данных матрицы, практически не влияют на признак-результат (стоимость квартир) факторы
х2 и
х
7, т.е. район города и наличие балкона. Значение коэффициента парной корреляции между фактором
х
8 и результатом статистиче
ски значимо, однако, указывает на очень слабую связь. Следова
тельно, нет необходимости включать эти три фактора в модель.
90
Далее необходимо рассмотреть корреляционную матрицу на предмет обнаружения коллинеарных факторов, т.е. тех, между которыми существует тесная линейная зависимость. Такими факторами являются
х1,
х3,
х4, поскольку коэффициенты парной
корреляции между ними близки к единице (все больше 0,85). Это означает, что данные факторы опосредуют влияние друг друга, и в модели достаточно оставить лишь один из них. В уравнение включается тот фактор, у которого коэффициент корреляции с результатом выше (в данном случае – фактор
х
3).
Рис. 2.55. Основные показатели модели множественной
регрессии с отобранными факторами
Строим новое уравнение с отобранными факторами и не забываем следить за значением коэффициента детерминации (рис. 2.55, 2.56).
Рис. 2.56. Таблица параметров уравнения множественной
регрессии с отобранными факторами
y = -3,04326 +
0,47660
x3 -
0,01505
х5 +
6,23266
х6;
R
2 =
0,93469660.
91Рис. 2.57. Основные показатели модели
множественной регрессии с двумя факторамиНесмотря на проведенный отбор факторов, в уравнении регрессии статистически незначим параметр при факторе
х
5. Если исключение такого фактора из уравнения не приводит к значительному снижению коэффициента детерминации, то ре
комендуется реализовать эту процедуру. Строим новое уравнение, включая только факторы
х3 и
х
6 (рис. 2.57, 2.58).Рис. 2.58. Таблица параметров уравнения
множественной регрессии с двумя факторами
Таким образом, получаем двухфакторную модель с незна
чительно изменившимся относительно начального уровня ко
эффициентом детерминации и отсутствием незначимых пара
метров. Уравнение в целом также статистически значимо. В данном случае можно сделать вывод о том, что вариация стои
мости квартир в основном (93,42 %) объясняется вариацией об
щей площади квартир (
х
3) и типом дома (
х
6). Стоимость квар
тиры с учетом ограничений значений аргументов может быть рассчитана по уравнению регрессии
92
y = -3,12214 +
0,47545
x3 +
6,21557
х
6;
R
2 =
0,93468695 .
Доверительные интервалы прогнозов могут быть рассчи
таны по аналогии с расчетами, представленными в разделе ана
лиза парной корреляционной зависимости.
2.2.2. Пошаговый корреляционно-регрессионный анализОдним из приемов построения уравнения регрессии при условии множественной зависимости является пошаговый (stepwise)
анализ, который предполагает последовательное включение или исключение факторов из модели, руководствуясь определенными критериями. ППП STATISTICA также предполагает проведение такого анализа. Для этого необходимо запустить меню
Statistics/Multiple Regression,
выбрать интересующие нас переменные, перейти на закладку
Advanced
и поставить метку в поле Advanced options (stepwise or ridge regression) (см. рис. 2.59), поменять набор переменных (кнопка
Variables) и выбрать метод анализа (всплывающее меню
Method
).Если выбран метод
Standard -
система построит обычную регрессионную модель со всеми выбранными факторами и за
данными по умолчанию условиями.Если выбран метод
Forward stepwise - можно построить
уравнение регрессии, последовательно включая значимые фак
торы в модель.Если выбран метод
Backward stepwise - модель строится
на основе последовательного исключения факторов. Воспользу
емся этой процедурой, поскольку при ручном анализе мы тоже последовательно исключали факторы. Полезно будет сравнить, полученный ранее результат (рис. 2.60).
93
Рис. 2.59. Выбор процедуры пошагового анализаПосле этого переходим на закладку
Advanced и в подменю
Intercept
задаем характеристики, касающиеся свободного члена уравнения регрессии. Мы можем либо включить его в модель (
Include in model),
либо поставить равным нулю (
Set to zero).
По вышеизложенным причинам нас интересует первый вариант (рис. 2.61).
94
Рис. 2.60. Выбор метода пошагового анализаРис. 2.61. Выбор характеристик
свободного члена уравнения
95Далее на закладке
Stepwise (рис. 2.62) в подменю
Display results можно выбрать вариант представления результатов:
Summary only
– система представит только окончательный вариант модели;
At each step
– мы можем отслеживать каждый шаг построения модели и остановить анализ в любой момент.Нас интересует второй вариант. Поле
Number of steps
задает количество возможных шагов для построения модели. Поля F
to enter и
F to remove
задают параметры для ввода/вывода фак
торов из модели. Поскольку мы не меняли теоретический уро
вень значимости, то их задавать не надо.
Рис. 2.62. Выбор способа представления пошагового анализаДалее нажимаем кнопку
ОК
. В появившемся окне нас прежде всего будет интересовать верхнее поле, в одной части
96
которого расположены характеристики текущей модели, во вто
рой – параметры, на данный момент включенные в модель и значения коэффициентов уравнения при них (рис. 2.63). В ниж
ней части окна расположены стандартные кнопки для построе
ния таблиц с характеристиками уравнения.Справа находится кнопка
Next,
нажимая которую, мы переходим к следующему шагу анализа. Как только вместо кнопки
Next появится кнопка
ОК
, анализ будет завершен и система вы
даст соответствующее сообщение.
Рис. 2.63. Меню начала пошагового анализа (нулевой шаг)Далее, пользуясь кнопкой
Next,
пройдем все шаги, предлагаемые системой. Система последовательно убирает из модели факторы
х1,
х8,
х5,
х4,
х7,
х2. Результат получается такой же, как
и при традиционном анализе, хотя алгоритм исключения факто
ров несколько другой, так как система рассматривает факторы по порядку и удаляет фактор, исключение которого даст мини
мальное снижение коэффициента детерминации (рис. 2.64–2.75).
97
Рис. 2.64. Первый шаг пошагового анализа
Дальше можно с помощью нажатия уже известных нам кнопок получить таблицы с характеристиками модели или пе
рейти к анализу остатков.Рис.2.65. Параметры уравнения множественной
регрессии с семью факторамиНа первом шаге сепарации факторов получена модель множественной регрессии с исключенным фактором
х
1:
98
Рис. 2.66. Второй шаг пошагового анализа
у = -6,16372 +
0,74040
x2 +
0,36715
x3 +
0,13991
x4 +
0,18261
x5 + +
6,95121
x6 +
1,76246
x
7-0,04385
x
8;
R
2 =
0,94257796.Рис. 2.67. Таблица параметров уравнения
множественной регрессии с шестью факторами
На втором шаге пошаговой регрессии выведен из модели фактор
х
8:
99
y = -5,97393 +
0,74676
x2 +
0,36998
x3 +
0,13704
x4 + +
0,15565
x5 +
6,77374
x6 +
1,52603
x7;
R
2 =
0,94217865.
Рис. 2.68. Третий шаг пошагового анализа
Рис. 2.69. Таблица параметров уравнениямножественной регрессии с пятью факторами На третьем шаге решения выведен из модели фактор
х
5:
100
Рис. 2.70. Четвертый шаг пошагового анализа
y = -5,28410 +
0,72122
x2 +
0,42219
x3 +
0,07731
x4 +
6,79779
x6 + +
1,29545
x7;
R
2
=0,94151908.
Рис. 2.71. Таблица параметров уравнения
множественной регрессии с четырьмя факторамиНа четвертом шаге решения выведен из модели фактор
х
4:
y =
-5,61325+0,72417
x2 +
0,47415
x3 +
6,62641
x6 +
1,11061
x7;
R
2
=0,94092133.
101
Рис. 2.72. Пятый шаг пошагового анализа
Рис. 2.73. Таблица параметров уравнения множественной регрессии с тремя факторамиНа пятом шаге решения выведен из модели фактор
х
7:
y = -4,88780 +
0,75964
x2 +
0,47700
x3 +
6,53119
x6;
R
2 =
0,93972649.
102Рис. 2.74. Шестой шаг пошагового анализа, завершение решения
(final solution)
Рис. 2.75. Таблица параметров уравнения
множественной регрессии с двумя факторамиНа шестом шаге решения выведен фактор х2 и получена
окончательная модель множественной регрессии:
y = -3,12214
+
0,47545
x
3+
6,21557
x
6;
R
2 =
0,93468695.
Полученную модель полезно сравнить с решением, при
веденным на стр.93.
103
ЗАКЛЮЧЕНИЕ
В учебном пособии были подробно рассмотрены теорети
ческие вопросы статистического изучения связей, а также приведено решение задач с использованием ППП
STATISTICA.
В рамках решения данных задач затрагиваются вопросы изучения парной и множественной корреляции различными ме
тодами; построения уравнений парной и множественной регрес
сии, а также рассмотрены варианты применения гребневой и множественной регрессии.
Следующие пособия будут посвящены возможностям реализации в рамках ППП STATISTICA
анализа временных рядов и прогнозирования, а также изучению и анализу сезонности.
104
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1.Айвазян С. А.
Прикладная статистика. Основы эконометри
ки: учебник для вузов / С. А. Айвазян, В. С. Мхитарян. – М. : ЮНИТИ-
ДАНА, 2001. – 656 с.Куприенко Н. В.
Статистика. Методы анализа распределений. Выборочное наблюдение (с использованием ППП STATISTICA):
учеб. пособие / Н. В. Куприенко, О. А. Пономарева, Д. В. Тихонов. – СПб. : Изд-во Политехн. ун-та, 2008. – 133 с.Сигел Э.
Практическая бизнес-статистика : Пер. с англ / Э. Сигел. – М. : Изд. дом «Вильямс», 2002. – 1056 с.
Статистика для менеджеров. 4-е изд.: Пер. с англ / Д. Левин и др. – М. : Изд. дом «Вильямс», 2004. – 1312 с.
Теория статистики. : учеб. / Под ред. Р. А. Шмойловой. – М. : Финансы и статистика, 2005. – 560 с.
Теория статистики: учеб. / Под ред. проф. Г. Л. Громыко. – 2-е изд., перераб. и доп. – М. : ИНФРА-М, 2006. – 476 с.
www.statsoft.ru (сайт компании StatSoft Russia – документация по ППП
STATISTICA).
8.
www.exponenta.ru
(примеры решения практических задач вППП
STATISTICA).
105
Приложение 1Лабораторная работа 3
КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ
Общие сведения
Целью данной лабораторной работы является освоение теоретических основ корреляционно-регрессионного анализа (КРА) – важнейшего статистического метода изучения стохас
тических связей и зависимостей, получение опыта практическо
го его применения с использованием ППП.
Лабораторная работа может быть выполнена на основе фактических данных, публикуемых официальной статистикой, или размещенных на сайтах информационных и маркетинговых агентств. Исходные данные могут быть предложены преподава
телем или выбраны студентом исходя из области его профес
сиональных интересов.
Требования, предъявляемые к работе
В каждом разделе лабораторной работы должны быть кратко изложены основные теоретические положения по соот
ветствующим проблемам. В разделах, предполагающих расчет и анализ статистических показателей, необходимо привести фор
мулы. Основное внимание в работе следует уделить содержательной интерпретации полученных результатов. Работа должна
быть оформлена в соответствии с требованиями ГОСТа.
106Структура работы

Введение

Во введении целесообразно раскрыть ключевые понятия КРА (корреляционная зависимость, парная и множественная корреляция и регрессия, цели и задачи КРА, условия его приме
нения); описать исходные данные для анализа.
1. Изучение парной корреляционной зависимости.
Построить уравнение парной регрессии, используя не
сколько типов математических функций; оценить статистическую значимость параметров (на основе
t
-статистики), уравнения в целом (на основе
F
-критерия Фишера); прокомментиро
вать полученные значения коэффициентов корреляции, детер
минации; представить графики корреляционного поля с наложе
нием соответствующих линий регрессии; выбрать лучшее урав
нение регрессии, используя необходимые критерии; дать содер
жательную интерпретацию коэффициента регрессии выбранно
го уравнения (при условии его статистической значимости).
2.Изучение множественной корреляционной зависимости.
2.1.
Построение и оценка уравнения множественной рег
рессии.
Построить уравнение множественной регрессии; проком
ментировать смысл и значения множественных коэффициентов корреляции и детерминации; оценить статистическую значи
мость параметров уравнения регрессии и уравнения в целом; прокомментировать значения условно-чистых коэффициентов регрессии.
2.2.
Анализ матрицы парных коэффициентов корреляции и
отбор факторов.
Построить матрицу парных коэффициентов корреляции, провести оценку тесноты связи между признаком-результатом и каждым из признаков-факторов; выявить наличие коллинеарно
сти; провести отбор факторов для включения в уравнение рег
рессии.
107
2.3.Построение и анализ уравнения регрессии с отобран
ными факторами.
Построить уравнение регрессии с отобранными на основе матрицы факторами; прокомментировать значения коэффициен
тов корреляции и детерминации; оценить статистическую зна
чимость параметров и уравнения в целом, сделать выводы. Если какой-либо из параметров окажется статистически незначим, то следует построить новое уравнение, исключив соответствую
щий фактор (факторы). Оценить параметры нового уравнения и сравнить значения скорректированных коэффициентов детер
минации, полученных с учетом и без учета влияния данного фактора (факторов); прокомментировать значения коэффициен
тов корреляции и регрессии. Сделать выводы и дать рекоменда
ции по использованию полученного уравнения регрессии.
108
Приложение 2
Образец титульного листа
Федеральное агентство по образованию
Государственное образовательное учреждение
высшего профессионального образования
«Санкт-Петербургский государственный
политехнический университет»
ФАКУЛЬТЕТ ЭКОНОМИКИ И МЕНЕДЖМЕНТА
Кафедра «Предпринимательство и коммерция»
Лабораторная работа № 3по дисциплине «СТАТИСТИКА» на тему
«Корреляционно-регрессионный анализ»Выполнил: студент группы
(подпись)
(Фамилия И.О.)Принял:
(должность, ученая степень)
(подпись)
(Фамилия И.О.)
(Дата)
Приложение 3
Таблица значений ^-распределения
7,

= 0,05)
Число
степеней
свободы
1
2
3
4
5
6
7
8
9
1
161.4
199.5
215.7
224.6
230.2
234.0
236.8
238.9
240.5
2
18.51
19.00
19.16
19.25
19.30
19.33
19.35
19.37
19.38
3
10.13
9.55
9.28
9.12
9.01
8.94
8.89
8.85
8.81
4
7.71
6.94
6.59
6.39
6.26
6.16
6.09
6.04
6.00
5
6.61
5.79
5.41
5.19
5.05
4.95
4.88
4.82
4.77
6
5.99
5.14
4.76
4.53
4.39
4.28
4.21
4.15
4.10
7
5.59
4.74
4.35
4.12
3.97.
3.87
3.79
3.73
3.68
8
5.32
4.46
4.07
3.84
3.69
3.58
3.50
3.44
3.39
9
5.12
4.26
3.86
3.63
3.48
3.37
3.29
3.23
3.18
10
4.96
4.10
3.71
3.48
3.33.
3.22
3.14
3.07
3.02
11
4.84
3.98
3.59
3.36
3.20
3.09
3.01
2.95
2.90
12
4.75
3.89
3.49
3.26
3.11
3.00
2.91
2.85
2.80
13
4.67
3.81
3.41
3.18
3.03
2.92
2.83
2.77
2.71
14
4.60
3.74
3.34
3.11
2.96
2.85
2.76
2.70
2.65
15
4.54
3.68
3.29
3.06
2.90
2.79
2.71
2.64
2.59
16
4.49
3.63
3.24
3.01
2.85
2.74
2.66
2.59
2.54
17
4.45
3.59
3.20
2.96
2.81
2.70
2.61
2.55
2.49
18
4.41
3.55
3.16
2.93
2.77
2.66
2.58
2.51
2.46
19
4.38
3.52
3.13
2.90
2.74
2.63
2.54
2.48
2.42
20
4.35
3.49
3.10
2.87
2.71
2.60
2.51
2.45
2:39
21
4.32
3.47
3.07
2.84
2.68
2.57
2.49
2.42
2.37
22
4.30
3.44
3.05
2.82
2.66
2.55
2.46
2.40
2.34
23
4.28
3.42
3.03
2.80
2.64
2.53
2.44
2.37
2.32
24
4.26
3.40
3.01
2.78
2.62
2.51
2.42
2.36
2.30
25
4.24
3.39
2.99
2.76
2.60
2.49
2.40
2.34
2.28
26
4.23
3.37
2.98
2.74
2.59
2.47
2.39
2.32
2.27
27
4.21
3.35
2.96
2.73
2.57
2.46
2.37
2.31
2.25
28
4.20
3.34
2.95
2.71
2.56
2.45
2.36
2.29
2.24
29
4.18
3.33
2.93
2.70
2.55
2.43
2.35
2.28
2.22
30
4.17
3.32
2.92
2.69
2.53
2.42
2.33
2.27
2.21
40
4.08
3.23
2.84
2.61
2.45
2.34
2.25
2.18
2.12
60
4.00
3.15
2.76
2.53
2.37
2.25
2.17
2.10
2.04
120
3.92
3.07
2.68
2.45
2.29
2.17
2.09
2.02
1.96
00
3.84
3.00
2.60
2.37
2.21
2.10
2.01
1.94
1.88
7Источник: Merrington M. , Thompson С. M.
– Tables of PercentagePoints of the Inverted Beta (D-Distribution// Biometrika. 1943. 33. Р 73-8 Reproduced by permission of the Biometrika Trustees. Приложения 3, 4,
приведены с сохранением знаков источников.
110
Окончание
Число
степеней
свободы
10
12
15
20
24
30
40
60
120
00
1
241.9
243.9
245.9
248.0
249.1
250.1
251.1
252.2
253.3
254.3
2
19.40
19.41
19.43
19.45
19.45
19.46
19.47
19.48
19.49
19.50
3
8.79
8.74
8.70
8.66
8.64
8.62
8.59
8.57
8.55
8.53
4
5.96
5.91
5.86
5.80
5.77
5.75
5.72
5.69
5.66
5.63
5
4.74
4.68
4.62
4.56
4.53
4.50
4.46
4.43
4.40
4.36
6
4.06
4.00
3.94
3.87
3.84
3.81
3.77
3.74
3.70
3.67
7
3.64
3.57
3.51
3.44
3.41
3.38
3.34
3.30
3.27
3.23
8
3.35
3.28
3.22
3.15
3.12
3.08
3.04
3.01
2.97
2.93
9
3.14
3.07
3.01
2.94
2.90
2.86
2.83
2.79
2.75
2.71
10
2.98
2.91
2.85
2.77
2.74
2.70
2.66
2.62
2.58
2.54
11
2.85
2.79
2.72
2.65
2.61
2.57
2.53
2.49
2.45
2.40
12
2.75
2.69
2.62
2.54
2.51
2.47
2.43
2.38
2.34
2.30
13
2.67
2.60
2.53
2.46
2.42
2.38
2.34
2.30
2.25
2.21
14
2.60
2.53
2.46
2.39
2.35
2.31
2.27
2.22
2.18
2.13
15
2.54
2.48
2.40
2.33
2.29
2.25
2.20
2.16
2.11
2.07
16
2.49
2.42
2.35
2.28
2.24
2.19
2.15
2.11
2.06
2.01
17
2.45
2.38
2.31
2.23
2.19
2.15
2.10
2.06
2.01
1.96
18
2.41
2.34
2.27
2.19
2.15
2.11
2.06
2.02
1.97
1.92
19
2.38
2.31
2.23
2.16
2.11
2.07
2.03
1.98
1.93
1.88
20
2.35
2.28
2.20
2.12
2.08
2.04
1.99
1.95
1.90
1.84
21
2.32
2.25
2.18
2.10
2.05
2.01
1.96
1.92
1.87
1.81
22
2.30
2.23
2.15
2.07
2.03
1.98
1.94
1.89
1.84
1.78
23
2.27
2.20
2.13
2.05.
2.01
1.96
1.91
1.86
1.81
1.76
24
2.25
2.18
2.11
2.03
1.98
1.94
1.89
1.84
1.79
1.73
25
2.24
2.16
2.09
2.01
1.96
1.92
1.87
1.82
1.77
1.71
26
2.22
2.15
2.07
1.99
1.95
1.90
1.85
1.80
1.75
1.69
27
2.20
2.13
2.06
1.97
1.93
1.88
1.84
1.79
1.73
1.67
28
2.19
2.12
2.04
1.96
1.91
1.87
1.82
1.77
1.71
1.65
29
2.18
2.10
2.03
1.94
1.90
1.85
1.81
1.75
1.70
1.64
30
2.16
2.09
2.01
1.93
1.89
1.84
1.79
1.74
1.68
1.62
40
2.08
2.00
1.92
1.84
1.79
1.74
1.69
1.64
1.58
1.51
60
1.99
1.92
1.84
1.75
1.70
1.65
1.59
1.53
1.47
1.39
120
1.91
1.83
1.75
1.66
1.61
1.55
1.50
1.43
1.35
1.25
00
1.83
1.75
1.67
1.57
1.52
1.46
1.39
1.32
1.22
1.00
111
Приложение 4Таблица критических значений
t-критерия
Стьюдента
8
.(1 –
односторонний критерий,2 –
двусторонний критерий)
0
с
-
с
0
с
1
.50
.20
.10
.05
.02
.01
.005
.002
.001
2
.25
.10
.05
.025
.01
.005
.0025
.001
.00051
1.
000
3.078
6.314
12.70
31.82
63.63
127.3
318.3
636.6
2
.816
1.866
2.920
4.303
6.965
9.925
14.08
22.32
31.59
3
.765
1.638
2.353
3.182
4.541
5.841
7.453
10.21
12.92
4
.741
1.533
2.132
2.776
3.747
4.604
5.598
7.173
8.610
5
.727
1.440
1.943
2.447
3.143
3.707
4.317
5.208
5.959
6
.718
1.440
1.943
2.447
3.143
3.707
4.317
5.208
5.959
7
.711
1.415
1.895
2.365
2.998
3.499
4.020
4.785
5.408
8
.706
1.397
1.860
2.306
2.896
3.355
3.833
4.501
5.041
9
.703
1.383
1.833
2.262
2.821
3.250
3.690
4.297
4.781
10
.700
1.372
1.812
2.228
2.764
3.169
3.581
4.144
4.537
11
.697
1.363
1.796
2.201
2.718
3.106
3.497
4.025
4.437
12
.695
1.356
1.782
2.179
2.681
3.055
3.428
3.930
4.318
13
.694
1.350
1.771
2.160
2.650
3.012
3.372
3.852
4.221
14
.692
1.345
1.761
2.145
2.624
2.977
3.326
3.787
4.140
15
.691
1.341
1.753
2.131
2.602
2.947
3.286
3.733
4.073
16
.690
1.337
1.746
2.120
2.583
2.921
3.252
3.686
4.015
17
.689
1.333
1.740
2.110
2.576
2.898
3.222
3.646
3.965
18
.688
1.330
1.734
2.101
2.552
2.878
3.197
3.610
3.922
19
.688
1.328
1.729
2.093
2.539
2.861
3.174
3.579
3.883
20
.687
1.325
1.725
2.086
2.528
2.845
3.153
3.552
3.850
21
.686
1.323
1.721
2.080
2.518
2.831
3.135
3.257
3.189
22
.686
1.321
1.717
2.074
2.508
2.819
3.119
3.505
3.792
23
.685
1.319
1.714
2.069
2.500
2.807
3.104
3.485
3.767
24
.685
1.318
1.711
2.064
2.492
2.797
3.091
3.467
3.745
25
.684
1.316
1.708
2.060
2.485
2.787
3.078
3.450
3.725
26
.684
1.315
1.706
2.056
2.479
2.779
3.067
3.435
3.707
27
.684
1.314
1.703
2.052
2.473
2.771
3.057
3.421
3.690
28
.683
1.313
1.701
2.048
2.467
2.763
3.047
3.408
3.674
29
.683
1.311
1.699
2.045
2.462
2.756
3.038
3.396
3.659
30
.683
1.310
1.697
2.042
2.457
2.750
3.030
3.385
3.646
40
.681
1.303
1.684
2.021
2.423
2.704
2.971
3.307
3.551
60
.679
1.296
1.671
2.000
2.390
2.660
2.915
3.232
3.460
120
.677
1.289
1.658
1.980
2.358
2.617
2.860
3.160
3.373
OO
.674
1.282
1.645
1.960
2.326
2.576
2.807
3.090
3.291
8Источник: Abridged from Table 12 // Biometrika Tables for Statisticians
1962. Vol. 1 / Ed. E.S. Pearson, H.O. Hartley. London: Cambridge University Press, 1962.
112
Приложение 5
101

i=e 2
л]2я
Таблица значений функции
9 f(t)
=
(плотность нормального распределения)
t
0
1
2
3
4
5
6
7
8
9
0.0
3989
3989
3989
3988
3986
3984
3982
3980
3977
3973
0.1
3970
3965
3961
3956
3951
3945
3939
3932
3925
3918
0.2
3910
3902
3894
3885
3876
3867
3857
3847
3836
3825
0.3
3814
3802
3790
3778
3765
3752
3739
3725
3712
3697
0.4
3683
3668
3653
3637
3621
3605
3589
3572
3555
3538
0.5
3521
3503
3485
3467
3448
3429
3410
3391
3372
3352
0.6
3332
3312
3292
3271
3251
3230
3209
3187
3166
3144
0.7
3123
3101
3079
3056
3034
3011
2989
2966
2943
2920
0.8
2897
2874
2850
2827
2803
2780
2756
2732
2709
2685
0.9
2661
2637
2613
2589
2565
2541
2516
2492
2468
2444
1.0
2420
2396
2371
2347
2323
2299
2275
2251
2227
2203
1.1
2179
2155
2131
2107
2083
2059
2036
2012
1989
1965
1.2
1942
1919
1895
1872
1849
1826
1804
1781
1758
1736
1.3
1714
1691
1669
1647
1626
1604
1582
1561
1539
1518
1.4
1497
1476
1456
1435
1415
1394
1374
1354
1334
1315
1.5
1295
1276
1257
1238
1219
1200
1182
1163
1145
1127
1.6
1109
1092
1074
1057
1040
1023
1006
0989
0973
0957
1.7
0940
0925
0909
0893
0878
0863
0848
0833
0818
0804
1.8
0790
0775
0761
0748
0734
0721
0707
0694
0681
0669
1.9
0656
0644
0632
0620
0608
0596
0596
0584
0573
0562
2.0
0540
0529
0519
0508
0498
0488
0478
0468
0449
0449
2.1
0440
0431
0422
0413
0404
0396
0387
0379
0371
0363
2.2
0355
0347
0339
0332
0325
0317
0310
0303
0297
0290
2.3
0283
0277
0270
0264
0258
0252
0246
0241
0235
0229
2.4
0224
0219
0213
0203
0203
0198
0194
0189
0184
0180
2.5
0175
0171
0167
0163
0158
0154
0151
0143
0139
0147
2.6
0136
0132
0129
0126
0122
0119
0116
0113
0110
0107
2.7
0104
0101
0099
0096
0093
0091
0088
0086
0084
0081
2.8
0079
0077
0075
0073
0071
0069
0067
0065
0063
0061
2.9
0060
0058
0056
0055
0053
0051
0050
0048
0047
0046
3.0
0044
0043
0042
0040
0039
0038
0037
0036
0035
0034
4.0
0001
0001
0001
0000
0000
0000
0000
0000
0000
0000
9
Все значения функции умножены на 10 000.
10
Источник: Венецкий И.Г., Венецкая В.И. Основные математико-статистические понятия и формулы в экономическом анализе : справ. –
2-е изд., перераб. и доп. – М. : Статистика, 1979. – 447 с.
113
Приложение 6
114
Приложение 7
Таблицы для самостоятельного заполнения
Таблица П. 1
Итоговая таблица уравнений и показателей
№ п/п
Модель
Уравнение
R
2
(77
2
)
2
ост
1.
2
3
Таблица П. 2
Характеристики параметров уравнения парной регрессии
Параметр
Значение
t
-статистика
Нижняя граница
Верхняя граница
Таблица П. 3
Характеристики параметров уравнения множественной регрессии
Параметр
Значение
t
-статистика
Нижняя граница
Верхняя граница
Таблица П. 4Доверительные интервалы прогноза результативного признака
для моделей парной и множественной регрессий
Регрессия
Нижняя граница
Прогнозируемая величина
Верхняя граница
Парная
<Y
<
Множественная
<Y
<
115