<<

стр. 6
(всего 28)

СОДЕРЖАНИЕ

>>

s2 | ?i2 = e21 ? | ?i2 ?i1 ? | ?i2 = s2 | ?i2 = min
1
e1 i c


Общая дисперсия связана с условными дисперсиями более сложно:

s2 = x21 ? ?i1 ? = x21 ? ?i1 i2 =
?i ?i
1
i1 i2
2
xi1 ? ? x1 | ?i2 + x1 | ?i2 ? x1
= ? ? ? ?i1 i2 =
i1 i2
2
xi1 ? ? x1 | ?i2 xi1 ? ? x1 | ?i2 x1 | ?i2 ? x1 ?i1 i2 +
= ? ?i1 i2 + 2 ? ? ?
i1 i2 i1 i2
2
x1 | ?i2 ? x1
+ ? ? ?i1 i2 =
i1 i2
144 Глава 4. Введение в анализ связей
?i ?|?i
< 1? >
? ?2
2 ?i1 i2
xi1 ? ? x1 | ?i2
= ??i2 ? +
??i2
i2 i1
<?????????>
??????????
s2 |? i
e1 2
=0
<? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ?>
??i2 x1 | ?i2 ? x1 xi1 ? ? x1 | ?i2 ?i1 ? | ?i2 +
+2 ? ? ?
i i
< ? ? ? ? ? ? ? ? ? 1? ? ? ? ? ? ? ? ? >
?2 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
=0
2
?i1 i2 = s2 + s2 .
x1 | ?i2 ? x1
+ ? ? e1 q1
i2 i
<? ?
? ?>
1
??i2


Равенство нулю среднего слагаемого в этой сумме означает, что отклонения
фактических значений 1-го признака от условных средних не коррелированы (ли-
нейно не связаны) с самими условными средними.
В терминах регрессионного анализа
s2 — объясненная дисперсия, т.е. та дисперсия 1-го признака, которая
q1
объясняется вариацией 2-го признака (в частности, когда признаки независимы
и условные распределения 1-го признака одинаковы при всех уровнях 2-го призна-
ка, то условные средние не варьируют и объясненная дисперсия равна нулю);
s2 — остаточная дисперсия.
e1
Чем выше объясненная дисперсия по сравнению с остаточной, тем вероятнее,
что 2-й признак влияет на 1-й. Количественную меру того, насколько объяснен-
ная дисперсия должна быть больше остаточной, чтобы это влияние можно было
признать существенным (значимым), дает критерий Фишера, или F-критерий.
Статистика этого критерия F c рассчитывается следующим образом:

s2 k2 (k1 ? 1)
q1c
F= 2 .
se1 (k2 ? 1)

В случае если влияние 2-го признака на 1-й не существенно, эта величи-
на имеет F-распределение (см. Приложение A.3.2). Такое распределение имеет
случайная величина, полученная отношением двух случайных величин, имеющих
?2 -распределение, деленных на количество своих степеней свободы:

?2 1 df2
= df
Fdf1, df2 .
?2 2 df1
df

Количество степеней свободы в числителе (df1 ) и знаменателе (df2 ) относится
к параметрам F -распределения.
145
4.2. Регрессионный анализ

Рассуждая аналогично тому, как это сделано в конце предыдущего пункта, мож-
но установить, что объясненная дисперсия (в числителе F -статистики) имеет k2 ?1
степеней свободы, а остаточная дисперсия (в знаменателе) — k2 (k1 ? 1) степеней
свободы. Это объясняет указанный способ расчета данной статистики.
Чтобы проверить гипотезу о наличии влияния 2-го признака на 1-й, необходимо
сравнить расчетное значение статистики F c с теоретическим — взятым из соот-
ветствующей статистической таблицы 95-процентным квантилем (односторонним)
F -распределения с k2 ?1 и k2 (k1 ?1) степенями свободы Fk2 ?1,k2 (k1 ?1), 0.95 . Если
расчетное значение не превышает теоретическое, то нулевая гипотеза не отвер-
гается, и влияние считается не существенным. В противном случае (объясненная
дисперсия достаточно велика по сравнению с остаточной) нулевая гипотеза от-
вергается и данное влияние принимается значимым. Современные статистические
пакеты прикладных программ дают уровень значимости расчетной статистики, на-
зываемый в данном случае значением вероятности pv:

F c = Fk2 ?1, k2 (k1 ?1), 1?pv .

Если pv < 0.05, то нулевая гипотеза отвергается с вероятностью ошибки 5%.
Линия, соединяющая точки x?i2 , x1 | ?i2 в пространстве значений признаков
?
(абсцисса — 2-й признак, ордината — 1-й) называется линией регрессии, она по-
казывает зависимость 1-го признака от 2-го. Условные средние, образующие эту
линию, являются расчетными (модельными) или объясненными этой зависимостью
значениями 1-го признака. Объясненная дисперсия показывает вариацию значе-
ний 1-го признака, которые расположены на этой линии, остаточная дисперсия —
вариацию фактических значений признака вокруг этой линии.
Линию регрессии можно провести непосредственно в таблице сопряженности.
Это линия, которая соединяет клетки с максимальными в столбцах плотностями
относительных частот. Понятно, что о такой линии имеет смысл говорить, если име-
ются явные концентрации плотностей относительных частот в отдельных клетках
таблицы сопряженности. Критерием наличия таких концентраций как раз и явля-
ется F -критерий.
В непрерывном случае уравнение

x1 = E (x1 |x2 )

называют уравнением регрессии x1 по x2 , т.е. уравнением статистической зави-
симости 1-го признака от 2-го (о свойствах условного математического ожидания
см. Приложение A.3.1). Это уравнение выражает статистическую зависимость, по-
скольку показывает наиболее вероятное значение, которое принимает 1-й признак
при том или ином уровне 2-го признака. В случае если 2-й признак является един-
ственным существенно влияющим на 1-й признак, т.е. это уравнение выражает
146 Глава 4. Введение в анализ связей

теоретическую, истинную зависимость, эти наиболее вероятные значения назы-
вают теоретическими, а отклонения от них фактических значений — случайными
ошибками измерения. Для фактических значений x1 это уравнение записывают
со стохастическим членом, т.е. со случайной ошибкой, остатками, отклонением
фактических значений от теоретических:

x1 = E (x1 |x2 ) + ?1 .


Случайные ошибки по построению уравнения регрессии имеют нулевое ма-
тематическое ожидание и минимальную дисперсию при любом значении x2 , они
взаимно независимы со значениями x2 . Эти факты обсуждались выше для эмпи-
рического распределения.
В рассмотренной схеме регрессионного анализа уравнение регрессии можно
построить лишь теоретически. На практике получают линию регрессии, по виду
которой можно лишь делать предположения о форме и, тем более, о параметрах
зависимости.
В эконометрии обычно используется другая схема регрессионного анализа.
В этой схеме используют исходные значения признаков xi1 , xi2 , i = 1, . . . , N без
предварительной группировки и построения таблицы сопряженности, выдвигают
гипотезу о форме зависимости f : x1 = f (x2 , A), где A — параметры зависимо-
сти, и находят эти параметры так, чтобы была минимальной остаточная дисперсия
1
(xi1 ? f (xi2 , A))2 .
s2 =
e1
Ni
Такой метод называется методом наименьших квадратов (МНК).
Ковариация и коэффициент корреляции непосредственно по данным выборки
рассчитываются следующим образом:

mjj
1
(xij ? xj ) xij ? xj , rjj =
mjj = ? ? , j, j = 1, 2.
N mjj mj j


Далее в этом пункте рассматривается случай линейной регрессии, т.е. случай,
когда

(4.18)
x1 = ?12 x2 + ?1 + ?1 ,


где ?12 , ?1 , ?1 — истинные значения параметров регрессии и остатков.
Следует иметь в виду, что регрессия линейна, если форма зависимости при-
знаков линейна относительно оцениваемых параметров, а не самих признаков,
147
4.2. Регрессионный анализ

и уравнения
v
x1 = ?12 x2 + ?1 + ?1 ,
1
x1 = ?12 + ?1 + ?1 ,
x2
(x1 = x?12 ?1 ?1 ) ,
ln x1 = ?12 ln x2 + ln ?1 + ln ?1 2

и т.д. также относятся к линейной регрессии. Во всех этих случаях метод наи-
меньших квадратов применяется одинаковым образом. Поэтому можно считать,
что в записи (4.18) x1 и x2 являются результатом какого-либо функционального
преобразования исходных значений.
Оценки параметров регрессии и остатков обозначаются соответствующими
буквами латинского алфавита, и уравнение регрессии, записанное по наблюде-
ниям i, имеет следующий вид:
(4.19)
xi1 = a12 xi2 + b1 + ei1 , i = 1, . . . , N,
а в матричной форме:
(4.20)
X1 = X2 a12 + 1N b1 + e1 ,
где X1 , X2 — вектор-столбцы наблюдений размерности N , соответственно,
за 1-м и 2-м признаками, e1 — вектор-столбец остатков; 1N — вектор-столбец
размерности N , состоящий из единиц.


Прежде чем переходить к оценке параметров
регрессии (применению метода наименьших x1
квадратов), имеет смысл объяснить проис-
хождение термина «регрессия». Этот термин
введен английским статистиком Ф. Гальтоном <45°
в последней четверти XIX века при изучении
зависимости роста сыновей от роста отцов.
Оказалось, что если по оси абсцисс распо-
ложить рост отцов (x2 ), а по оси ординат — x2
рост сыновей (x1 ), то точки, соответствую-
щие проведенным наблюдениям (облако то-
Рис. 4.1
чек наблюдений), расположатся вокруг неко-
торой прямой (рис. 4.1).
Это означает, что зависимость между ростом сыновей и отцов существует, и эта
зависимость близка к линейной. Но угол наклона соответствующей прямой мень-
ше 45? . Другими словами, имеет место «возврат» — регрессия — роста сыновей
к некоторому среднему росту. Для этой зависимости и был предложен термин «ре-
грессия». Со временем он закрепился за любыми зависимостями статистического
характера, т.е. такими, которые выполняются «по математическому ожиданию»,
с погрешностью.
148 Глава 4. Введение в анализ связей

Остаточная дисперсия из (4.19) получает следующее выражение:
1
(xi1 ? a12 xi2 ? b1 )2 ,
s2 =
e1
N i

или в матричной форме:
1
s2 = e e1 ,
N1
e1

где
e1 = X1 ? X2 a12 ? 1N b1 , — остатки регрессии,
штрих — знак транспонирования. Величина e1 e1 называется суммой квадратов
остатков.
Для минимизации этой дисперсии ее производные по искомым параметрам
(сначала по b1 , потом по a12 ) приравниваются к нулю.
?s2 2
=? (xi1 ? a12 xi2 ? b1 ) = 0,
e1
откуда:
?b1 N
ei1 = 0,

b1 = x1 ? a12 x2 . (4.21)
? ?

Это означает, что e1 = 0, т.е. сумма остатков равна нулю, а также, что линия
?
регрессии проходит через точку средних.
После подстановки полученной оценки свободного члена форма уравнения ре-
грессии и остаточной дисперсии упрощается:
(4.22)
xi1 = a12 xi2 + ei1 ,
? ? i = 1, . . . , N ,
? ?
X1 = X2 a12 + e1 , — сокращенная запись уравнения регрессии, (4.23)
1
(?i1 ? a12 xi2 )2 .
s2 = (4.24)
x ?
e1
N
Далее:
e
<? ? ? ?
? ? i1 ? >
?
?s2 2
=? xi2 (?i1 ? a12 xi2 ) = 0.
e1
(4.25)
?x ?
?a12 N
Отсюда следует, во-первых, то, что вектора e1 и X2 ортогональны, т.к. ковари-
ация между ними равна нулю ( xi2 ei1 = 0); во-вторых — выражение для оценки
?
углового коэффициента:
m12
(4.26)
a12 = .
m22
149
4.2. Регрессионный анализ

Матрица вторых производных остаточной дисперсии в найденной точке равна
? ?
?1 x2 ?
?
2? ?,
0
x2 m22
?

где m0 — 2-й начальный (а не центральный, как m22 ) момент для x2 . Тот же
22
результат можно получить, если не переходить к сокращенной записи уравнения
регрессии перед дифференцированием остаточной дисперсии по a12 .
Эта матрица положительно определена (ее определитель равен 2m22 , то есть
всегда неотрицателен), поэтому найденная точка является действительно точкой
минимума остаточной дисперсии.
Таким образом, построен оператор МНК-оценивания (4.21, 4.26) и выявлены
свойства МНК-остатков: они ортогональны факторной переменной x2 , стоящей
в правой части уравнения регрессии, и их среднее по наблюдениям равно нулю.
«Теоретические» значения моделируемой переменной x1 , лежащие на линии
оцененной регрессии:

xc = a12 xi2 + b1 , (4.27)
i1
xc = a12 xi2 ,
?i1 ?

где « c » — calculated, часто называют расчетными, или объясненными. Это —
математические ожидания моделируемой переменной.
Вторую часть оператора МНК-оценивания (4.26) можно получить, используя
другую логику рассуждений, часто применяемую в регрессионном анализе.
Обе части уравнения регрессии, записанного в сокращенной матричной форме
(4.23) умножаются слева на транспонированный вектор X2 и делятся на N :
1 1 1
X2 X1 = X2 X2 a12 + X2 e1 .
N N N
Второе слагаемое правой части полученного уравнения отбрасывается, так как
в силу отмеченных свойств МНК-остатков оно равно нулю, и получается искомое
выражение: m12 = m22 a12 .
Пользуясь этой логикой, оператор МНК-оценивания можно получить и в пол-
ном формате. Для этого используют запись регрессионного уравнения в форме
без свободного члена (со скрытым свободным членом):

(4.28)
X1 = X2 a12 + e1 ,

a12
где X2 — матрица [X2 , 1N ] размерности N ? 2, a12 — вектор .
?
b1
150 Глава 4. Введение в анализ связей

Как и прежде, обе части этого уравнения умножаются слева на транспониро-
ванную матрицу X2 и делятся на N , второе слагаемое правой части отбрасывается
по тем же причинам. Получается выражение для оператора МНК-оценивания:
?1
т.е. (4.29)
m12 = M22 a12 , a12 = M22 m12 ,
1 1
где m12 = X2 X1 , M22 = X2 X2 .
N N
Это выражение эквивалентно полученному выше. Действительно, учитывая,
? ?
что Xj = Xj + 1N xj , 1N Xj = 0, j = 1, 2,
?
? ? ? ?
1 ? X2 X1 ? ? m12 + x1 x2 ?
??
? ?=? ?,
m12 =
?
N
1N X1 x1
?
m0
? ?
? < ?22 > ?
?? ?
X2 1N ? ? m22 + x2
1 ? X2 X2 ?2 x2 ?
?
? ? ?=? ?.
M22 =
N
1N X2 1N 1N x2
? 1

Тогда матричное уравнение (4.29) переписывается следующим образом:

m12 + x1 x2 = m22 a12 + x2 a12 + x2 b1 ,
?? ?2 ?
x1 = x2 a12 + b1 .
? ?

Из 2-го уравнения сразу следует (4.21), а после подстановки b12 в 1-е уравне-
ние оно преобразуется к (4.26). Что и требовалось доказать.
Таким образом, выражение (4.29) представляет собой компактную запись опе-
ратора МНК-оценивания.
Из проведенных рассуждений полезно, в частности, запомнить, что уравнение
регрессии может быть представлено в трех формах: в исходной — (4.19, 4.20),
сокращенной — (4.22, 4.23) и со скрытым свободным членом — (4.28). Третья
форма имеет только матричное выражение.
Оцененное уравнение линейной регрессии «наследует» в определенном смысле
свойства линии регрессии, введенной в начале этого пункта по данным совместного
распределения двух признаков: минимальность остаточной дисперсии, равенство
нулю средних остатков и ортогональность остатков к объясняющей переменной —
в данном случае к значениям второго признака. (Последнее для регрессии, постро-
енной по данным совместного распределения, звучало как линейная независимость
отклонений от условных средних и самих условных средних.) Отличие в том, что
теперь линия регрессии является прямой, условными средними являются расчет-
ные значения моделируемой переменной, а условными дисперсиями — остаточная
151
4.2. Регрессионный анализ

дисперсия, которая принимается при таком методе оценивания одинаковой для всех
наблюдений.
Теперь рассматривается остаточная дисперсия (4.24) в точке минимума:

m2
1 (4.26)
s2 x2 x2 a2 m11 ? 12 .
? 2?i1 xi2 a12 + (4.30)
= ?i1 x? ?i2 12 =
e1
N m22

Поскольку остаточная дисперсия неотрицательна,

m2
12 2
т.е. r12
m11 , 1.
m22

Это доказывает ранее сделанное утверждение о том, что коэффициент корре-
ляции по абсолютной величине не превышает единицу.
Второе слагаемое (взятое с плюсом) правой части соотношения (4.30) является
дисперсией расчетных значений моделируемой переменной (var — обозначение
дисперсии):

1 1 (4.27)
e=0
?
(xc ? xc )2 (xc ? x1 )2
var (xc ) = ?1 = ? =
1 i1 i1
N N
m2
1 (4.26)
2 12
a2 m22 = . (4.31)
= (a12 xi2 ) =
? 12
N m22

Эту дисперсию, как и в регрессии, построенной по данным совместного рас-
пределения признаков, естественно назвать объясненной и обозначить s2 . Тогда
q1
из (4.30) следует, что общая дисперсия моделируемого признака, как и прежде,
распадается на две части — объясненную и остаточную дисперсии:

s2 = m11 = s2 + s2 .
1 q1 e1


Доля объясненной дисперсии в общей называется коэффициентом детерми-
нации, который обозначается R2 . Такое обозначение не случайно, поскольку этот
коэффициент равен квадрату коэффициента корреляции:

s2 m2 12
2 q1
R= 2= .
m11 m22
s1

Коэффициент детерминации является показателем точности аппроксимации
фактических значений признаков линией регрессии: чем ближе он к единице, тем
точнее аппроксимация. При прочих равных его значение будет расти с уменьшением
числа наблюдений. Так, если наблюдений всего два, этот коэффициент всегда будет
равен единице, т.к. через две точки можно провести единственную прямую. Поэтому
152 Глава 4. Введение в анализ связей

данный коэффициент выражает скорее «алгебраическое» качество построенного
уравнения регрессии.
Показатель статистической значимости оцененного уравнения дает статистика
Фишера — как и для регрессии, построенной по данным совместного распреде-
ления признаков. В данном случае остаточная дисперсия имеет N ? 2 степени
свободы, а объясненная — одну степень свободы (доказательство этого факта да-
ется во II части книги):
s2 (N ? 2) R2 (N ? 2)
q1
c
F= = .
s2 (1 ? R2 )
e1

Если переменные не зависят друг от друга, т.е. ?12 = 0 (нулевая гипотеза),
то эта статистика имеет распределение Фишера с одной степенью свободы в чис-
лителе и N ?2 степенями свободы в знаменателе. Логика использования этой ста-
тистики описана выше. Статистическая значимость (качество) полученного урав-
нения тем выше, чем ниже значение показателя pv для расчетного значения данной
статистики F c .
Оценки параметров ?12 , ?1 и остатков ?i1 можно получить иначе, из регрессии
x2 по x1 :
xi2 = a21 xi1 + ei2 ,
? ? i = 1, . . . , N .

В соответствии с (4.26) оценка углового коэффициента получается делением
ковариации переменных, стоящих в левой и правой частях уравнения, на дисперсию
факторной переменной, стоящей в правой части уравнения:
m21
a21 = .
m11
1 1
xi2 ?
Поскольку xi1 = ei2 ,
? ?
a21 a21
1 m11
(4.32)
a12 (2) = = ,
a21 m21
b1 (2) = x1 ? a12 (2) x2 ,
? ?
ei1 (2) = a12 (2) ei2 , i = 1, . . . , N.

Это — новые оценки параметров. Легко убедиться в том, что a12 (2) совпадает
с a12 (а вслед за ним b1 (2) совпадает с b1 и ei1 (2) — с ei1 ) тогда и только
тогда, когда коэффициент корреляции r12 равен единице, т.е. зависимость имеет
функциональный характер и все остатки равны нулю.
При оценке параметров ?12 , ?1 и остатков ei1 регрессия x1 по x2 иногда
называется прямой, регрессия x1 по x2 — обратной.
153
4.2. Регрессионный анализ

На рисунке 4.2 в плоскости (в про-
A r
x1
странстве) переменных x1 , x2 при-
C
E менение прямой регрессии означает
D
минимизацию суммы квадратов рас-
B
F стояний от точек облака наблюдений
до линии регрессии, измеренных па-
0
x2
раллельно оси x1 . При применении
обратной регрессии эти расстояния
1 измеряются параллельно оси x2 .
lr — линия регрессии,
OA — вектор-строка i-го на-
Рис. 4.2
блюдения xi = (?i1 , xi2 ),
? x?
AB — расстояние до линии ре-
грессии, измеренное параллельно оси x1 , равное величине ei1 ,
?
AC — расстояние, измеренное параллельно оси x2 , равное величине ei2 ,
?
AD — расстояние, измеренное перпендикулярно линии регрессии, равное ei ,
OE — вектор-строка a параметров ортогональной регрессии.
Очевидно, что оценить параметры регрессии можно, измеряя расстояния до ли-
нии регрессии перпендикулярно самой этой линии (на рисунке — отрезок AD).
Такая регрессия называется ортогональной. В уравнении такой регрессии обе пе-
ременные остаются в левой части с коэффициентами, сумма квадратов которых
должна равняться единице (длина вектора параметров регрессии должна равнять-
ся единице):

(4.33)
a1 xi1 + a2 xi2 = ei ,
? ? i = 1, . . . , N
a2 + a2 = 1.
1 2

В матричной форме:
? (4.34)
Xa = e,
a a = 1,

где X — матрица наблюдений за переменными, размерности N ? 2, a — вектор-
?
столбец параметров регрессии.
Само уравнение регрессии можно записать еще и так:

(4.35)
xi a = ei ,
? i = 1, . . . , N.

Чтобы убедиться в том, что такая регрессия является ортогональной, достаточ-
но вспомнить из линейной алгебры, что скалярное произведение вектора на вектор
154 Глава 4. Введение в анализ связей

единичной длины равно длине проекции этого вектора на единичный вектор. В ле-
вой части (4.35) как раз и фигурирует такое скалярное произведение. На рисунке
вектором параметров a является OE, проекцией вектора наблюдений OA(?i ) x
на этот вектор — отрезок OF , длина которого (?i a) в точности равна расстоянию
x
от точки облака наблюдений до линии регрессии, измеренному перпендикулярно
этой линии (ei ).
Следует иметь в виду, что и в «обычной» регрессии, в левой части которой
остается одна переменная, коэффициент при этой переменной принимается рав-
ным единице, т.е. фактически используется аналогичное ортогональной регрессии
требование: вектор параметров при переменных в левой части уравнения должен
иметь единичную длину.
В противоположность ортогональной «обычные» регрессии называют просты-
ми. В отечественной литературе простой часто называют «обычную» регрессию
с одной факторной переменной. А регрессию с несколькими факторными перемен-
ными называют множественной.
Теперь остаточную дисперсию в матричной форме можно записать следующим
образом:
1 1 ??
s2 = e e = a X Xa = a M a,
e
N N
? ?
? m11 m12 ?
1??
X X — матрица ковариации переменных, равная ? ?.
где M =
N
m21 m22
Для минимизации остаточной дисперсии при ограничении на длину вектора
параметров регрессии строится функция Лагранжа:
L (a, ?) = a M a ? ?a a,
где ? — множитель Лагранжа (оценка ограничения).
Далее находятся производные этой функции по параметрам регрессии, и эти
производные приравниваются к нулю. Результат таких операций в матричной фор-
ме представляется следующим образом (поскольку M — симметричная матрица:
M = M ):
(M ? ?I) a = 0. (4.36)

Таким образом, множитель Лагранжа есть собственное число матрицы кова-
риации M , а вектор оценок параметров регрессии — соответствующий правый
собственный вектор этой матрицы (см. Приложение A.1.2).
Матрица M является вещественной, симметричной и положительно полу-
определенной (см. Приложение A.1.2).
155
4.2. Регрессионный анализ

Последнее справедливо, т.к. квадратичная форма µ M µ при любом векторе µ неот-
рицательна. Действительно, эту квадратичную форму всегда можно представить как
1?
сумму квадратов компонент вектора ? = v Xµ:
N
1 ??
µ Mµ = µ X Xµ = ? ? 0.
N

Из линейной алгебры известно, что все собственные числа такой матрицы ве-
щественны и неотрицательны, следовательно ? неотрицательно.
После умножения обеих частей уравнения (4.36) слева на a из него следует,
что
s2 = a M a = ?a a
a a=1
= ?,
e

т.е. минимизации остаточной дисперсии соответствует поиск минимального соб-
ственного числа матрицы ковариации переменных M . Соответствующий этому
собственному числу правый собственный вектор этой матрицы есть вектор оце-
нок параметров ортогональной регрессии a (см. Приложение A.1.2). Кроме того,
в соответствии со свойствами матрицы M , сумма ее собственных чисел равна
сумме ее диагональных элементов (следу матрицы), и, т.к. ? — меньшее из двух
собственных чисел, то ? < 1 (m11 + m12 ) (случай двух одинаковых собственных
2
чисел не рассматривается, т.к. он имеет место, когда связь между переменными
отсутствует, и m12 = 0).
Оценка свободного члена b, как и прежде, получается из условия прохождения
линии регрессии через точку средних: b = xa, где x — вектор-строка средних
? ?
значений переменных.
Расчетное значение xi дает вектор OD (см. рис. 4.2), который равен разности
?
векторов OA и OF , т.е. (в матричной форме):
X c = X ? ea .
? ?

Теперь можно дать еще одну оценку параметров уравнения (4.18):
a2
a12 (?) = ? ,
a1
b1 (?) = x1 ? a12 (?) x2 ,
? ?
1
ei1 (?) = ei .
a1
Полученная оценка углового коэффициента a12 (?) лежит между его оценками
по прямой и обратной регрессиям. Действительно, из (4.36) следует, что
m11 ? ?
a2 m12
a12 (?) = ? = = .
m22 ? ?
a1 m12
156 Глава 4. Введение в анализ связей

90°

x1
x1

>90°

x2

kx2




Рис. 4.3



Отсюда, в частности, следует, что величины m11 ? ? и m22 ? ? имеют один
знак, и, т.к. ? < 1 (m11 + m12 ), то обе эти величины положительны.
2
Поэтому, если m12 0, то
m11 m12
(4.32) (4.26)
= a12 (2) > a12 (?) > a12 = ,
m12 m22
а если m12 0, то a12 (2) < a12 (?) < a12 .
Понятно, что эти 3 оценки совпадают тогда и только тогда, когда ? = s2 = 0,
e
т.е. зависимость функциональна.
В действительности любое число, лежащее на отрезке с концами a12 , a12 (2)
(т.е. либо [a12 , a12 (2)], если m12 0, либо [a12 (2) , a12 ], если m12 0), может
являться МНК-оценкой параметра ?12 , т.е. оценкой этого параметра является
?1 a12 + ?2 a12 (2) при любых ?1 и ?2 , таких что ?1 0, ?2 0, ?1 + ?2 = 1.
Каждая из этих оценок может быть получена, если расстояния от точек облака
наблюдения до линии регрессии измерять под определенным углом, что достигается
с помощью предварительного преобразования в пространстве переменных.

Убедиться в этом можно, рассуждая следующим образом.
Пусть получена оценка углового коэффициента по ортогональной регрессии
(рис. 4.3, слева). Теперь проводится преобразование в пространстве переменных: x2
?
умножается на некоторое число k > 1, и снова дается оценка этого коэффициента
по ортогональной регрессии (рис. 4.3, справа). После возвращения в исходное про-
странство получается новая оценка углового коэффициента, сопоставимая со старой
(возвращение в исходное пространство осуществляется умножением оценки коэф-
фициента, полученной в преобразованном пространстве, на число k).
Этот рисунок не вполне корректен, т.к. переход в новое пространство переменных
и возвращение в исходное пространство ведет к смещению линии регрессии. Однако
157
4.2. Регрессионный анализ

смысл происходящего он поясняет достаточно наглядно: новая оценка получена так,
как будто расстояния от точек облака наблюдений до линии регрессии измеряются
под углом, не равным 90? . Должно быть понятно, что в пределе, при k > ?,
расстояния до линии регрессии будут измеряться параллельно оси x1 и полученная
?
оценка углового коэффициента совпадет с a12 . Наоборот, в пределе при k > 0 эта
оценка совпадет с a12 (2).

Выбор оценок параметров регрессии на имеющемся множестве зависит от ха-
рактера распределения ошибок измерения переменных. Это — предмет изучения
во II части книги. Пока можно предложить некоторые эмпирические критерии.
Например, следующий.
Общая совокупность (множество наблюдений) делится на две части: обуча-
ющую и контрольную. Оценка параметров производится по обучающей совокуп-
ности. На контрольной совокупности определяется сумма квадратов отклонений
фактических значений переменных от расчетных. Выбирается та оценка, которая
дает минимум этой суммы. В заключение выбранную оценку можно дать по всей
совокупности.
Рассмотренный случай двух переменных легко обобщить на n переменных (без
доказательств: они даются во II части книги). Основное уравнение регрессии запи-
сывается следующим образом: x1 = x?1 ??1 + ?1 + ?1 , где x?1 = [x2 , . . . , xn ] —
вектор-строка всех переменных кроме первой, вектор факторных переменных,
? ?
? ?12 ?
? ?
? ?
??1 = ? . ?
.
?. ?
? ?
?1n

— вектор-столбец параметров регрессии при факторных переменных, а в матрич-
ной форме: X1 = X?1 a?1 + e1 , где X?1 — матрица размерности N ? (n ? 1)
? ? ?
наблюдений за факторными переменными.
По аналогии с (4.21, 4.26):

?1
(4.37)
a?1 = M?1 m?1 ,
b1 = x1 ? x?1 a?1 ,
? ?

1? ?
где M?1 = — матрица ковариации факторных переменных между со-
N X?1 X?1
бой,
1? ?
m?1 = N X?1 X1 — вектор-столбец ковариации факторных переменных с мо-
делируемой переменной,
158 Глава 4. Введение в анализ связей

1 ? — вектор-строка средних значений факторных переменных.
x?1 =
? N 1N X?1
Расчетные значения моделируемой переменной, т.е. ее математические ожида-
ния, есть
?c ?
X1 = X?1 a?1 .

Как и в случае двух переменных объясненной дисперсией является дисперсия
расчетных значений моделируемой переменной:

1 (4.37) (4.37) ?1
s2 = ??
a X X?1 a?1 = a?1 M?1 a?1 = a?1 m?1 = m?1 M?1 m?1 .
N ?1 ?1
q1
(4.38)

Коэффициент множественной корреляции r1,?1 есть коэффициент корреляции
между моделируемой переменной и ее расчетным значением (cov — обозначение
ковариации):
1 (4.38)
a?1 X?1 X1 = a?1 m?1 = s2 ,
??
cov (xc , x1 ) =
1 q1
N
s2
cov (xc , x1 ) sq1
1 q1
r1,?1 = = = ,
sq1 s1 s1
c ) var (x )
var (x1 1


Коэффициент детерминации, равный квадрату коэффициента множественной
корреляции:

s2
2 q1
R = 2,
s1

показывает долю объясненной дисперсии в общей.
Если связь отсутствует и ??1 = 0 (нулевая гипотеза), то расчетная статистика
Фишера

R2 (N ? n)
c
F=
(1 ? R2 ) (n ? 1)

имеет F -распределение с n ? 1 степенями свободы в числителе и N ? n степе-
нями свободы в знаменателе — Fn?1,N ?n . Логика использования этой статистики
сохраняется прежней.
При использовании в общем случае записи уравнения регрессии в форме со скры-
тым свободным членом
??
X1 = X?1 a?1 + e,
159
4.2. Регрессионный анализ
? ?
? a?1 ?
где X?1 — матрица [X?1 , 1N ] размерности N ?(n+1), a?1 — вектор ?
? ?,
?
b1
оператор МНК-оценивания записывается как

? ?1 ? (4.39)
a?1 = M?1 m?1 ,
?

1? 1?
? ?
где m?1 = N X?1 X1 , N X?1 X?1 .
? M?1 =
Достаточно простые алгебраические преобразования показывают, что этот опе-
ратор эквивалентен (4.37).
Полезной является еще одна геометрическая
A иллюстрация регрессии — в пространстве наблю-
дений (см. рис. 4.4 и 4.5).
При n = 2 (n — количество переменных),
OA — вектор x1 , OB — вектор x2 , OC —
? ?
вектор проекции x1 на x2 , равный расчетному
? ?
O C B
значению xc , CA — вектор остатков e1 , так что:
?1
x1 = a12 x2 + e1 . Косинус угла между OA и OB
? ?
Рис. 4.4
равен коэффициенту корреляции.
При n = 3, OA — вектор x1 , OB — вектор
?
A
x2 , OC — вектор x3 , OD — вектор проекции
? ?
x1 на плоскость, определяемую x2 и x3 , равный
? ? ?
c , DA — вектор остатков
расчетному значению x1 ? F
C
e1 , OE — вектор проекции xc на x2 , равный
?1 ?
c на x , равный
a12 x2 , OF — вектор проекции x1
? ? ?3 O
a13 x3 , так что x1 = a12 x2 + a13 x3 + e1 . Косинус
? ? ? ?
угла между OA и плоскостью, определенной x2 ? D
E
и x3 , (т.е. между OA и OD) равен коэффициенту
?
множественной корреляции.
B
Кроме оценки a?1 можно получить оценки
a?1 (j) , j = 2, . . . , n, последовательно переводя Рис. 4.5
в левую часть уравнения переменные xj , приме-
?
няя МНК и алгебраически возвращаясь к оценкам исходной формы уравнения.
Для представления ортогональной регрессии в общем случае подходят формулы
(4.34, 4.36) и другие матричные выражения, приведенные выше при описании
ортогональной регрессии. Необходимо только при определении векторов и матриц,
входящих в эти выражения, заменить «2» на «n».
С помощью преобразований в пространстве переменных перед использованием
ортогональной регрессии и последующего возвращения в исходное пространство
160 Глава 4. Введение в анализ связей

в качестве оценок a?1 можно получить любой вектор из множества (симплекса)

n n
?1 a?1 + ?j a?1 (j) , ?j 0, j = 1, . . . , n, ?j = 1.
j=2 j=1



Это — подмножество всех возможных МНК-оценок истинных параметров ??1 .



4.3. Дисперсионный анализ

Дисперсионный анализ заключается в представлении (разложении) дисперсии
изучаемых признаков по факторам и использовании F -критерия для сопоставле-
ния факторных «частей» общей дисперсии с целью определения степени влияния
факторов на изучаемые признаки. Примеры использования дисперсионного ана-
лиза даны в предыдущем пункте при рассмотрении общей дисперсии моделируемой
переменной как суммы объясненной и остаточной дисперсии.
Дисперсионный анализ может быть одномерным или многомерным. В первом
случае имеется только один изучаемый (моделируемый) признак, во втором случае
их несколько. В данном курсе рассматривается только первый случай. Примене-
ние методов этого анализа основывается на определенной группировке исходной
совокупности (см. п. 1.9). В качестве факторных выступают группирующие при-
знаки. То есть изучается влияние группирующих признаков на моделируемый. Если
группирующий (факторный) признак один, то речь идет об однофакторном дис-
персионном анализе, если этих признаков несколько — о многофакторном ана-
лизе. Если в группировке для каждого сочетания уровней факторов имеется строго
одно наблюдение (численность всех конечных групп в точности равна единице),
говорят о дисперсионном анализе без повторений; если конечные группы могут
иметь любые численности — с повторениями. Многофакторный дисперсионный
анализ может быть полным или частичным. В первом случае исследуется вли-
яние всех возможных сочетаний факторов (смысл этой фразы станет понятным
ниже). Во втором случае принимаются во внимание лишь некоторые сочетания
факторов.
В этом пункте рассматриваются две модели: однофакторный дисперсионный
анализ с повторениями и полный многофакторный анализ без повторений.
Пусть исходная совокупность xi , i = 1, . . . , N сгруппирована по одному фак-
тору, т.е. она разделена на k групп:
xil l — значение изучаемого признака в il -м наблюдении (il = 1, . . . , Nl )
в l-й группе (l = 1, . . . , k); Nl = N .
161
4.3. Дисперсионный анализ

Рассчитываются общая средняя и средние по группам:
Nl
k k
1 1
x=
? xil l = Nl xl ,
?
N N
l=1 il =1 l=1
Nl
1
xl =
? xil l ,
Nl il =1

общая дисперсия, дисперсии по группам и межгрупповая дисперсия (s2 ):
q
Nl
k
1
(xil l ? x)2 ,
2
s= ?
N l=1 il =1
Nl
1
(xil l ? xl )2 ,
s2 = ?
l
Nl il =1
k
1
Nl (?l ? x)2 .
s2 = x ?
q
N l=1

Общую дисперсию можно разложить на групповые и межгрупповую дисперсии:
Nl
k
1
((xil l ? xl ) + (?l ? x))2 =
2
s= ? x ?
N l=1 il =1
Nl Nl Nl
k k k
1 2 1
2
(?l ? x)2 =
(xil l ? xl ) + (xil l ? xl ) (?l ? x) +
= ? ?x ? x ?
N N N
l=1 i =1 l=1 i =1 l=1 il =1
l l
N Nl
1k k k
1l 2 1
(xil l ? xl )2 + Nl (?l ? x)2 =
(?l ? x) (xil l ? xl ) +
= Nl ? x ? ? x ?
N l=1 Nl i =1 N N
il =1
l=1 l=1
l
<? ? ? ?
? ? ? ?>
<? ? ? ? ? ? ? =0 ? >
????????? ?
=0

1k
Nl s2 + s2 = s2 + s2 .
= l q e q
N l=1

Данное представление общей дисперсии изучаемого признака аналогично полу-
ченному в начале предыдущего пункта при рассмотрении регрессии, построенной
по данным совместного эмпирического распределения признаков. В том случае
«группами» выступали значения первого признака при тех или иных значениях
второго признака. В данном случае (в терминах дисперсионного анализа)
s2 — внутригрупповая дисперсия;
e
s2 — межгрупповая дисперсия.
q
162 Глава 4. Введение в анализ связей

Тот факт, что среднее слагаемое в вышеприведенном выражении равно нулю,
означает линейную независимость внутригрупповой и межгрупповой дисперсий.
Чем выше межгрупповая дисперсия по сравнению с внутригрупповой, тем ве-
роятнее, что группирующий (факторный) признак влияет на изучаемый признак.
Степень возможного влияния оценивается с помощью F -статистики:
s2 (N ? k)
q
c
F= 2 .
se (k ? 1)

В случае если влияние отсутствует (нулевая гипотеза), эта статистика име-
ет распределение Fk?1,N ?k (межгрупповая дисперсия имеет k ? 1 степеней
свободы, внутригрупповая — N ? k), что объясняет указанный способ расчета
F -статистики. Логика проверки нулевой гипотезы та же, что и в предыдущих слу-
чаях.
Рассмотрение модели однофакторного дисперсионного анализа с повторениями
завершено.
Пусть теперь имеется группировка исходной совокупности xi , i = 1, . . . , N
по n факторам; j-й фактор может принимать kj уровней, j = 1, . . . , n. Все
численности конечных групп равны единице: NI = 1, для любого I. Такая сово-
купность может быть получена по результатам проведения управляемого экспе-
римента. В экономических исследованиях она может быть образована в расчетах
по математической модели изучаемой переменной: для каждого сочетания уровней
факторов проводится один расчет по модели.
В этом случае
n
N= kj = kj ,
j=1 G

где через G, как и в пункте 1.9, обозначено полное множество факторов
J = {12 . . . n}, xI — значение изучаемого признака при сочетании уровней фак-
торов I = {i1 i2 . . . in }.
Общая средняя изучаемого признака:
1
b0 = x =
? xI .
N I

Каждый j-й фактор делит исходную совокупность на kj групп по N k эле-
j
ментов. Для каждого из уровней ij j-го фактора (для каждой из таких групп)
рассчитывается среднее значение изучаемого признака:
kj
xij (j) = xI ,
N I?ij (j)
163
4.3. Дисперсионный анализ

где означает суммирование по всем наблюдениям, в которых j-й фактор
I?ij (j)
находится на уровне ij .
Если бы тот факт, что j-й фактор находится на уровне ij , не влиял на изучаемый
признак, означало бы, что

xij (j) = b0 .

Потому bij (j) = xij (j) ? b0 — коэффициент влияния на изучаемый признак то-
го, что j-й фактор находится на уровне ij . Это — главные эффекты, или эффекты
1-го порядка.
Очевидно, что
kj
bij (j) = 0
ij =1


и дисперсия, определенная влиянием j-го фактора, равна

kj
2
1
s2 = bij (j) .
j
kj ij =1


N
Каждые два фактора j и j делят совокупность на K jj = kj kj групп по jj
K
элементов. Для каждой из таких групп рассчитывается среднее изучаемого приз-
нака:

K jj
xij ij = xI ,
(jj )
N I?ij ij (jj )


где означает суммирование по всем наблюдениям, в которых j-й фактор
I?ij ij (jj )
находится на уровне ij , а j -й фактор — на уровне ij .
Если бы тот факт, что одновременно j-й фактор находится на уровне ij , а j -й
фактор — на уровне ij , не влиял на изучаемый признак, то это означало бы, что

xjji = b0 + bij (j) + bij (j ) .
(jj )
ij j


Поэтому

? b0 + bij (j) + bij
bij ij = xij ij
(jj ) (jj ) (j )
164 Глава 4. Введение в анализ связей

— коэффициент влияния на изучаемый признак того, что одновременно j-й фактор
находится на уровне ij , а j -й фактор — на уровне ij . Это эффекты взаимодей-
ствия (или сочетания) факторов j и j , парные эффекты, или эффекты 2-го
порядка.
Легко убедиться в том, что
kj
kj
bij ij = bij ij = 0,
(jj ) (jj )
ij =1 ij =1

и тогда
2
1
s2 = bij ij (jj )
jj
K jj ij ,ij

— дисперсия, определенная совместным влиянием факторов j и j .
Рассмотрим общий случай.
Факторы J = {j1 j2 . . . jn }, n n делят совокупность на K J = kj групп
J
N
по элементов (выделяют группы класса J порядка n ). Мультииндексом таких
KJ
групп является I (J) = i1 i2 . . . in = ij1 ij2 . . . ijn ; конкретно
j1 j2 . . . jn
данный мультииндекс именует группу, в которой фактор j1 находится на уровне ij1
и т.д. По каждой такой группе рассчитывается среднее изучаемого признака:
KJ
xI(J) = xI ,
N I?I(J)

где — означает суммирование по всем наблюдениям, в которых фактор j1
I?I(J)
находится на уровне ij1 и т.д.
Как и в двух предыдущих случаях:
? ?

bI(J) = xI(J) ? ?b0 + bI (J ) ? (4.40)
?
?
J?J ?

— эффекты взаимодействия (или сочетания) факторов J, эффекты порядка n .
Здесь — суммирование по всем подмножествам множества J без самого
?
J?J ?
множества J .
Суммирование этих коэффициентов по всем значениям любого индекса, входя-
щего в мультииндекс I(J) дает нуль.
1
s2 = b2
J I(J)
KJ I(J)
165
4.3. Дисперсионный анализ

— дисперсия, определенная совместным влиянием факторов J .
При определении эффектов наивысшего порядка
J = G, xI(G) = xI , K G = N.

Из способа получения коэффициентов эффектов должно быть понятно, что
G
xI = b0 + bI(J) .
J=1

Все факторные дисперсии взаимно независимы и общая дисперсия изучаемого
признака в точности раскладывается по всем возможным сочетаниям факторов:
G
2
s2 . (4.41)
s= J
J=1

Данное выражение называют дисперсионным представлением, или тожде-
ством.
Этот факт доказывается в IV части книги.
Пока можно его только проверить, например, при n = 2.
Используя 1-й способ обозначений (см. п. 4.1):
1
b0 = xi1 i2 ,
k1 k2 i1 ,i2
1 1
s2 = b21 ? ,
bi1 ? = xi1 ? ? b0 ,
xi1 ? = xi1 i2 , 1 i
k2 k1
i2 i1
1 1
s2 = b2 2 ,
b?i2 = x?i2 ? b0 ,
x?i2 = xi1 i2 , 2 ?i
k1 k2
i1 i2
1
s2 = b21 i2 .
bi1 i2 = xi1 i2 ? b0 ? bi1 ? ? b?i2 , 12 i
k1 k2 i1 ,i2

Теперь, раскрывая скобки в выражении для s2 и учитывая, что xi1 i2 = xi1 i2 ? b0 ,
?
12
получаем:
1 1 1 2
s2 = x21 i2 + b21 ? + b2 2 ? xi1 i2 ?
?i bi1 ? ?
12 ?i
i
k1 k2 k1 k2 k1 k2
i1 ,i2 i1 i2 i1 i2
<? ?
? ?>
=k2 bi1 ?
2 2
b?i2 = s2 ? s2 ? s2 .
? b?i2 xi1 i2 +
? bi1 ? 1 2
k1 k2 k1 k2
i2 i1 i1 i2
<? ?
? ?> < ? >< ? >
?? ??
< ? ? =0 ? ? =0 >
=k1 b?i2
???????
? ?
=0

Т.е. s2 = s2 + s2 + s2 , что и требовалось показать.
1 2 12
166 Глава 4. Введение в анализ связей

В силу взаимной независимости эффектов оценки коэффициентов и дисперсий
эффектов остаются одинаковыми в любой модели частичного анализа (в котором
рассматривается лишь часть всех возможных сочетаний факторов) и совпадают
с оценками полного анализа.
Дисперсия s2 имеет K? J степеней свободы:
J

(kj ? 1) .
K? J =
J

Сумма этих величин по всем J от 1 до G равна N ? 1. В этом легко убедиться,
если раскрыть скобки в следующем тождестве:
((kj ? 1) + 1).
N=
G

Процедура определения степени влияния факторов на изучаемый признак мо-
жет быть следующей.
На 1-м шаге выбирается сочетание факторов J1 , оказывающих наибольшее
влияние на изучаемый признак. Этими факторами будут такие, для которых мини-
мума достигает показатель pv статистики Фишера

s2 1 N ? K?1 ? 1
J
J
c
F1 = .
s2 ? s2 1 K?1
J
J

На 2-м шаге выбирается сочетание факторов J2 , для которого минимума до-
стигает показатель pv статистики Фишера

s2 1 + s2 2 N ? K?1 ? K?2 ? 1
J J
J J
c
F2 = .
s2 ? s2 1 ? s2 2 J J
K?1 + K?2
J J

И так далее. Процесс прекращается, как только показатель pv достигнет за-
данного уровня ошибки, например, 0.05. Пусть этим шагом будет t-й. Оставши-
еся сочетания факторов формируют остаточную дисперсию. Как правило, в таком
процессе сначала выбираются главные эффекты, затем парные и т.д., так что оста-
точную дисперсию образуют эффекты высоких порядков.
Расчетные значения изучаемого признака определяются по следующей
формуле:
t
xc = b0 + bI(Jl ) .
I
l=1

Этим завершается рассмотрение модели полного многофакторного дисперси-
онного анализа без повторений.
167
4.4. Анализ временных рядов

Несколько слов можно сказать о многофакторном дисперсионном анализе с повто-
рениями.
Если все NI 1, можно попытаться свести этот случай к предыдущему.
Для каждой конечной группы рассчитываются среднее xI и дисперсия s2 . Исполь-
? I
зуя приведенные выше формулы можно рассчитать коэффициенты и дисперсии всех
эффектов, заменяя xI на xI . К сожалению, в общем случае эффекты перестают
?
быть взаимно независимыми, и в представлении общей дисперсии (4.41) кроме дис-
персий эффектов различных сочетаний факторов появляются слагаемые с нижним
?
индексом J J . Возникает неопределенность результатов и зависимость их от того
набора сочетаний факторов, которые включены в анализ. Поэтому разные модели
частичного анализа дают разные результаты, отличные от полного анализа.
Имеется несколько частных случаев, в которых «хорошие» свойства оценок сохра-
няются. Один из них — случай, когда все численности конечных групп одинаковы.
Тогда дисперсионное тождество записывается следующим образом:
IK
G
2
s2 s2 ,
s= +
J I
J=1 I=I1
<?>
? 2?
se

причем последнее слагаемое — остаточная, или внутригрупповая дисперсия — име-
ет N ? K? G ? 1 степеней свободы.

<<

стр. 6
(всего 28)

СОДЕРЖАНИЕ

>>