<<

стр. 23
(всего 28)

СОДЕРЖАНИЕ

>>


p(D|Mi ) — правдоподобия, вероятности того, насколько правдоподобен ре-
зультат, если правильна i-я теория изучаемого предмета, считаются извест-
ными.
602 Глава 19. Байесовская регрессия

Тогда в соответствии с (19.1) записывается следующее соотношение:

p(D|Mi )p(Mi )
p(Mi |D) = (19.2)
,
p(D)

где p(D) = p(D|Mi )p(Mi ),
p(Mi |D) — апостериорные (послеопытные) вероятности.
Это соотношение показывает, как априорные знания о предмете меняются в
результате получения опытных данных, т.е. как накапливаются знания.

Пример трансформации представлений преподавателя об уровне знаний студента.
M1 — студент знает предмет,
M2 — студент не знает предмет.
Преподаватель имеет априорные оценки вероятностей этих состояний:
p(M1 ) = 0.2,
p(M2 ) = 0.8.
Наблюдение, опыт — в данном случае это экзамен. Результат опыта:
D1 — студент сдал экзамен,
D2 — студент не сдал экзамен.
Правдоподобия преподавателя:
p(D1 |M1 ) = 0.9
p(D2 |M1 ) = 0.1
p(D1 |M2 ) = 0.4
p(D2 |M1 ) = 0.6
Пусть студент сдал экзамен. Тогда априорные оценки преподавателя корректируются
следующим образом:

0.9 · 0.2
p (M1 |D1 ) = = 0.36,
0.9 · 0.2 + 0.4 · 0.8
0.4 · 0.8
p (M2 |D1 ) = = 0.64 .
0.9 · 0.2 + 0.4 · 0.8

Если студент не сдал экзамен, то апостериорные вероятности будут такими:

p (M1 |D2 ) = 0.04 ,
p (M2 |D2 ) = 0.96 .
603
19.1. Оценка параметров байесовской регрессии

19.1. Оценка параметров байесовской регрессии
Для уравнения регрессии
X = Z? + ?
имеются априорные представления об ? и ?, которые выражаются плотностью
вероятности совместного распределения (?, ?).
После эксперимента, результатами которого является выборка в виде вектора
X и матрицы Z, эти представления корректируются. Аналогом (19.2) в данном
случае выступает следующее выражение:
L (X, Z|?, ?) p (?, ?)
(19.3)
p (?, ?|X, Z) = ,
p (X, Z)
где

p (X, Z) = L (X, Z|?, ?) d? d?.
?,?

Поскольку Z не зависит от ? и ? , его можно «вынести за скобки»:
L (X, Z|?, ?) = PN (X|Z?, ? 2 I)p (Z) ,
p(X, Z) = p(X|Z)p(Z),
и записать (19.3) в следующем виде:
PN (X|Z?, ? 2 I)p (?, ?)
p (?, ?|X, Z) = .
p (X|Z)

Поскольку p(X|Z) не зависит от ? и ? , эту формулу можно записать, исполь-
зуя знак %, который выражает отношение «пропорционально», «равно с точно-
стью до константы»:
p (?, ?|X, Z) ? PN (X|Z?, ? 2 I)p (?, ?) . (19.4)

Пусть выполнены все гипотезы основной модели линейной регрессии, включая
гипотезу о нормальности. Тогда
? 1 (X?Z?) (X?Z?)
2? 2
2 ?N
PN (X|Z?, ? I) ? ? e =
? 1 (??a)??1 (??a)
? 1 [e e+(??a)Z Z(??a)] 2
2? 2
a
?N ?N
??
=? e e ,
где a = (Z Z)?1 Z X — МНК-оценка ? (см. 7.13),
?a = ? 2 (Z Z)?1 — матрица ковариации (см. 7.29).
604 Глава 19. Байесовская регрессия

Действительно,

(X ? Z?) (X ? Z?) = (X ? Za ?Z(? ? a)) (X ? Za ? Z(? ? a)) =
<?>
??
e
= e e ? 2e Z(? ? a) +(? ? a) Z Z(? ? a),
<? ? ?
? ? ?>
=0

т.к. e и Z ортогональны (см. 7.18).

Теперь предполагается, что ? известна. Тогда
? 1 (??a)??1 (??a)
2 2 a
PN (X|Z?, ? I) ? e ,

а соотношение (19.4) записывается в более простой форме:

p (?|X, Z) ? PN (X|Z?, ? 2 I)p(?).

Пусть ? априорно распределен нормально с математическим ожиданием ?
?
и ковариацией ? :
1
??1 ?? ?
p (?) ? e? 2 ?? ?
.

Тогда

??1 ?? ? +(??a) ??1 (??a)
?1 ?? ? a
2
p (?|X, Z) ? e (19.5)
.

Утверждается, что ? апостериорно распределен также нормально с математи-
ческим ожиданием

a = ?(??1 a + ??1 ?)
??a (19.6)
?

и ковариацией
?1
? = ??1 + ??1
? (19.7)
,
a

т.е.
? ?1 (???)]
1
p(?|X, Z) ? e? 2 [(???) ?
a a
(19.8)
.


Для доказательства этого утверждения необходимо и достаточно показать, что раз-
ность показателей экспонент в (19.5) и (19.8) не зависит от ?.
Вводятся новые обозначения: x = ? ? a; y = ? ? ? ; A = ??1 ; B = ??1 .
? a
605
19.1. Оценка параметров байесовской регрессии

В этих обозначениях показатель степени в (19.5) записывается следующим образом
(множитель ?1 2 отбрасывается):

(19.9)
x Ax + y By.

В этих обозначениях
?1
?
? = (A + B) ,
?1
(A (? ? x) + B (? ? y)) =
a = (A + B)
?
= (A + B)?1 ((A + B) ? ? (Ax + By)) = ? ? (A + B)?1 (Ax + By)

и, следовательно, показатель степени в (19.8) выглядит так (множитель ?1 2 также
отбрасывается):
?1
(Ax ? By) (A + B) (Ax ? By) . (19.10)

Искомая разность (19.9) и (19.10) записывается следующим образом:

(1) ? (2) ? (3) + (4),

где

?1
(1) = A ? A (A + B) A,

(2) = A (A + B)?1 B,
?1
(3) = B (A + B) A,
?1
(4) = B ? B(A + B) B.

Легко показать, что все эти матрицы одинаковы и равны некоторой матрице C :

(1) = A (A + B)?1 A A?1 (A + B) A?1 A ? I = A(A + B)?1 B = (2),
?1 ?1
B = AA?1 A?1 + B ?1
(2) = A B A?1 + B ?1 A BB ?1 =
?1
= A?1 + B ?1 = C,
?1
A = BB ?1 A?1 + B ?1 A?1 A = C = (2),
(3) = B A A?1 + B ?1 B
?1 ?1 ?1
B B ?1 (A + B)B B ? I = B(A + B)
(4) = B(A + B) A = (3),

и, следовательно, искомая разность представима в следующей форме:

x Cx ? x Cy ? y Cx + y Cy = (x ? y) C (x ? y) = ? ? a C ? ? a .

Что и требовалось доказать.
606 Глава 19. Байесовская регрессия

?
Как видно из (19.5, 19.6), апостериорная ковариация (?) является результатом
гармонического сложения опытной (?a ) и априорной ( ? ) ковариаций, апосте-
риорные оценки регрессии (?) — средневзвешенными (матричными) опытных (a)
a
и априорных (?) оценок. Если априорные оценки имеют невысокую точность, и ?
?
велика, то влияние их на апостериорные оценки невелико, и последние определя-
ются в большой степени опытными оценками. В предельном случае, когда ? > ?,
т.е. априорная информация совершенно не надежна, a > a, ? > ?a .
?
?


19.2. Объединение двух выборок
В действительности априорная информация может быть также опытной, но по-
лученной в предшествующем опыте. Тогда формулы, полученные в предыдущем
пункте показывают, как информация нового опыта — по новой выборке — кор-
ректирует оценки, полученные в предыдущем опыте — по старой выборке. В дан-
ном пункте показывается, что в результате применения этих формул получаемая
апостериорная оценка в точности равна оценке, которую можно получить по объ-
единенной выборке, включающей старую и новую.
Пусть имеется две выборки:

старая — Z1 , X1 : X1 = Z1 ?1 + ?1 ,

и новая — Z2 , X2 : X2 = Z2 ?2 + ?2 .

Считается, что ?1 и ?2 известны (как и в предыдущем пункте).
Даются оценки параметров по этим двум выборкам:

a1 = (Z 1 Z1 )?1 Z1 X1 , ?a1 = ?1 (Z1 Z1 )?1 ,
2


a2 = (Z2 Z2 )?1 Z2 X2 , ?a2 = ?2 (Z2 Z2 )?1 .
2


В предыдущем пункте первой выборке соответствовала априорная оценка, вто-
рой — опытная.
Теперь дается оценка параметров по объединенной выборке. При этом наблю-
дения должны быть приведены к одинаковой дисперсии:
? ? ? ? ? ?
X Z ?
? 1 ?1 ? ? 1 ?1 ? ? 1 ?1 ?
? ?=? ??+? ?.
X2 ? Z2 ? ?2 ?
2 2 2


В этой объединенной регрессии остатки имеют дисперсию, равную единице.
607
19.3. Упражнения и задачи

Оценки параметров рассчитываются следующим образом:
? ? ???1 ? ?
Z X
? 1 ? ?? Z1 ? Z2 ? ? 1 ? ? =
?
a = ? Z1 ?1 Z2 ?2 ? ?? 2? ?
1
Z2 ?2 X2 ?2
?1
1 1 1 1
= Z1 Z1 + 2 Z2 Z2 Z1 X1 + 2 Z2 X2 =
2 2
?1 ?2 ?1 ?2
?1 1 1
(Z1 Z1 )(Z 1 Z1 )?1 Z1 X1 + 2 (Z2 Z2 )(Z2 Z2 )?1 Z2 X2 =
= ??1 + ??1
1 2 2
?1 ?2
?1
= ??1 + ??1 ?1 ?1
?1 a1 + ?2 a2 .
1 2


Ковариационная матрица (учитывая, что ? 2 = 1):
?1
? = ??1 + ??1 .
1 2


Таким образом, оценки по объединенной выборке в терминах предыдущего
пункта являются апостериорными.


19.3. Упражнения и задачи

Упражнение 1

По данным таблицы 19.1:

1.1. Оцените регрессию X по Z и константе, учитывая априорную информа-
цию, что математические ожидания всех коэффициентов регрессии равны 2,
а их ковариационная матрица — единичная. Считать, что дисперсия ошибки
равна 2.

1.2. Разделите выборку на две части. Одна часть — 20 первых наблюдений,
другая часть — 20 остальных наблюдений. Считать, что дисперсия ошиб-
ки в первой части равна 1, а во второй части — 4.

а) Оцените обычную регрессию, воспользовавшись первой частью выбор-
ки. Найдите матрицу ковариаций полученных оценок.
б) Используя информацию, полученную на шаге (а), как априорную инфор-
мацию о математическом ожидании и ковариационной матрице коэф-
фициентов, оцените байесовскую регрессию для второй части выборки.
608 Глава 19. Байесовская регрессия


Таблица 19.1

№ № № №
X Z X Z X Z X Z

1 6.7 2.2 11 2.4 1.2 21 4.8 1.8 31 –1.4 1.7

2 5.5 1.8 12 5.8 0.8 22 3.3 0.8 32 –0.9 2

3 4.8 1.5 13 5.7 2.5 23 5.2 2.5 33 4.2 0.3

4 3 0.3 14 –0.9 1.7 24 5.4 2.1 34 –1.4 2

5 4.9 1.9 15 9.3 2.7 25 4.5 2.8 35 –2.6 1.3

6 2.8 0.7 16 3 2.2 26 3.8 1 36 3.1 0.1

7 2.7 0.8 17 –2.9 2.8 27 3.9 1.4 37 2.5 1.3

8 7 2.1 18 –1.5 1.8 28 6.4 2.4 38 –0.8 2.4

9 5.8 1.4 19 1.8 0.7 29 2.7 0.8 39 1.7 0.7

10 6.3 2.3 20 8.3 2.9 30 4.2 0.1 40 –0.1 1.6


в) Оцените регрессию, используя все наблюдения. Регрессия должна быть
взвешенной, т.е. наблюдения каждой из частей нужно разделить на ко-
рень из соответствующей дисперсии. Найдите ковариационную матрицу
оценок. Сравните с результатом, полученным на шаге (б). Совпадают
ли коэффициенты и ковариационные матрицы?


Задачи

1. Чем отличается байесовская регрессия от обычной регрессии с точки зрения
информации о коэффициентах? Приведите формулы для оценки параметров
по этим двум регрессиям.

2. Налоговая инспекция считает, что предприятия в среднем недоплачивают
налог на прибыль в 80% случаев. Вероятность того, что в ходе проверки
некоторого предприятия будет выявлено такое нарушение, равна 40% для
предприятия, которое недоплачивает налог, и 10% для предприятия, которое
полностью выплачивает налог (ошибочно). Вычислите апостериорную веро-
ятность того, что данное предприятие недоплачивает налог на прибыль, если
в ходе проверки не было выявлено нарушений.

3. Студент может либо знать, либо не знать предмет и либо сдать, либо не сдать
экзамен по этому предмету. Вероятность того, что студент знает предмет
609
19.3. Упражнения и задачи

равна 0.3. Если студент знает предмет, то вероятность того, что он сдаст
экзамен, равна 0.9, а если не знает, то 0.6. Какова вероятность, что студент
не знает предмет, если он сдал экзамен?

4. Предположим, что исследователь исходит из априорной информации, что
коэффициенты регрессии распределены нормально с некоторым математи-
ческим ожиданием и ковариационной матрицей, а дисперсия ошибки равна
некоторой известной величине. Исследователь получил какие-то данные и
вычислил по ним апостериорное распределение. Затем он получил дополни-
тельные данные и использовал прежнее апостериорное распределение как
априорное. Можно ли утверждать, что новое апостериорное распределение
будет нормальным? Ответ обоснуйте.

5. Случайная величина ? имеет нормальное распределение с математическим
ожиданием µ и дисперсией 16. Априорно известно, что µ имеет распреде-
ление N (2, 9). Выборочное среднее по выборке длиной N равно 1. Найдите
апостериорное распределение µ в зависимости от N .

6. Чему равна апостериорная оценка параметра, если его априорная оценка
имеет нормальное распределение с математическим ожиданием 2 и диспер-
сией 0.25, а выборочная оценка равна 8 по выборке длиной 10?

7. Априорная оценка параметра имеет нормальное распределение с матема-
тическим ожиданием 2 и дисперсией 0.5, а выборочная оценка по выборке
длиной 20 равна 2. Запишите плотность распределения апостериорных оце-
нок.

8. Оценка параметра по первой части выборки равна 0 при дисперсии оценки
1, а по второй части выборки она равна 1 при дисперсии 2. Найдите оценку
параметра по всей выборке.

9. Оценки регрессии по первой выборке совпадают с оценками по объединению
двух выборок. Что можно сказать об оценках по второй выборке? Докажите
свое утверждение.


Рекомендуемая литература
1. Зельнер А. Байесовские методы в эконометрии. — М.: «Статистика», 1980.
(Гл. 2, 3).

2. Лимер Э. Cатистический анализ неэксперементальных данных. — М.: «Фи-
нансы и статистика», 1983.
610 Глава 19. Байесовская регрессия

3. Справочник по прикладной статистике. В 2-х т. Т 2. / Под ред. Э. Ллойда,
У. Ледермана. — М.: «Финансы и статистика», 1990. (Гл. 15).

4. Judge G.G., Griffiths W.E., Hill R.C., Luthepohl H., Lee T. Theory and Practice
of Econometrics. — New York: John Wiley & Sons, 1985. (Ch. 4).
Глава 20

Дисперсионный анализ


В этой главе продолжается рассмотрение темы, начатой в пункте 4.3. Здесь ана-
лизируются модели дисперсионного анализа в общем виде и доказываются некото-
рые из сделанных ранее утверждений.
Как и прежде, исходная совокупность xi , i = 1, . . . , N сгруппирована по n
факторам; j-й фактор может находиться на одном из kj уровней. Регрессионная
модель дисперсионного анализа общего вида получается исключением из модели
регрессии с фиктивными переменными, полученной в конце пункта 9.1, «обычных»
регрессоров:
G
Z J ? J + ?, (20.1)
X=
J=0

где Z J = ? Z j (матрица Z j имеет размерность N ? kj , и в ее ij -м столбце
?
j?J
единицы стоят в строках тех наблюдений, в которых j-й фактор находится на ij -м
уровне, остальные элементы равны 0), или, как это следует из структуры Z и ?,
представленной в пункте 9.1, в покомпонентной записи:
G
J
(20.2)
xI, iI = ?0 + ?I(J) + ?I,iI ,
J=1

где I — мультииндекс конечной группы, I = I1 , . . . , IK (см. обозначения
в п. 1.9);
iI — линейный индекс элемента в конечной группе, iI = 1, . . . , NI , NI —
численность конечной группы;
612 Глава 20. Дисперсионный анализ

J
?I(J) (по сравнению с обозначениями, используемыми в п. 4.3, добавлен верх-
ний индекс J, необходимый в данной главе для более точной идентификации пара-
метра) — параметр эффекта сочетания (совместного влияния) факторов J на дан-
ный элемент совокупности (на значение изучаемой переменной в данном наблюде-
нии).
1,3
Так, например, если n = 3, I = {2, 3, 1}, J = {1, 3}, то ?I(J) = ?2,1 .
J

В пункте 9.1 отмечено, что в модели (20.1) на регрессорах существует много
линейных зависимостей и поэтому непосредственно оценить ее нельзя. Для исклю-
чения линейных зависимостей регрессоров проводится следующее преобразова-
ние. Предполагая, что суммы компонент вектора ? J по всем значениям каждого
элемента нижнего мультииндекса I(J) равны нулю (в принятых ниже обозначени-
ях: Z jJ bJ = 0 для всех j ? J ), переходят к вектору ? J путем исключения из ? J
всех тех его компонент, для которых хотя бы один элемент нижнего мультииндекса
равен единице (благодаря сделанному предположению их всегда можно восстано-
вить, поскольку они линейно выражаются через оставшиеся компоненты). Теперь
модель можно записать в форме без линейных зависимостей регрессоров:
G
Z J ? J + ?, (20.3)
X=
J=0

где Z J = Z J C J , а C J = ? C j , матрица C j имеет следующую структуру:
j?J
? ?
??1kj ?1 ?
? ?.
Ikj ?1

При этом, как и для модели (20.1), остается справедливым соотношение
ZJ = ? Zj.
?
j?J

Эквивалентность моделей (20.1) и (20.3) очевидна, т.к. ? J = C J ? J .
В этой главе сначала рассматривается частный случай, когда численности всех
конечных групп NI равны единице, т.е. для каждого сочетания уровней факторов
имеется строго одно наблюдение.


20.1. Дисперсионный анализ без повторений
n
В этом случае N = K = kj , регрессионные модели (20.1) и (20.3)
kj =
j=1
G
записываются без случайной ошибки, т.к. изучаемая переменная в точности раз-
613
20.1. Дисперсионный анализ без повторений

лагается по эффектам всех возможных взаимодействий факторов (здесь и далее
модели записываются в оценках параметров, т.е. ? меняются на b):

G
Z J bJ , (20.4)
X=
J=0
G
Z J bJ , (20.5)
X=
J=0

а модель в покомпонентном представлении (20.2) еще и без линейного внутригруп-
пового индекса:

G
0
bJ . (20.6)
xI = b + I(J)
J=1

Модель (20.5) можно переписать более компактно:

(20.7)
X = Zb.

Поскольку матрицы Z J имеют размерности N ? K? ( K? = (kj ? 1),
J J
J
G
0 J
K? = 1), а K? = K = N (как это было показано в п. 4.3), то матрица Z
J=0
квадратна, и b = Z ?1 X. Но для получения общих результатов, имеющих значе-
ние и для частных моделей, в которых эффекты высоких порядков принимаются
за случайную ошибку, используется техника регрессионного анализа:

1 1
b = M ?1 m = ( Z Z)?1 Z X.
N N

В этом параграфе сделанные утверждения будут иллюстрироваться примером,
в котором n = 2, k1 = k2 = 2 и модели (20.4) и (20.5) записываются следующим
образом:
? ? ?? ? ? ? ? ? ?? ?
0 0 0??b12 ?
?x11 ? ?1? ?1 0? ?1 0? ?1 11
? ? ?? ? ?? ? ? ?? ? ? ?? ?
? ? ?? ? ? ? ? ? ?? ?
?x ? ?1? ?1 0? b1 ?0 1? b2 ? 0??b12 ?
?? 1 ? ?0 10
? 12 ? ? ? 0 ? ?? 1 ? ? ?? 12 ?
? ? = ? ?b + ? ?? ? + ? ?? ? + ? ?? ?,
? ? ?? ? ?1 ? ? ? ?? ?
?x21 ? ?1? ?0 1? b ?1 0? b2 ?0 0??b12 ?
01
? ? ?? ? ?2 ? ?2 ? ?? 21 ?
? ? ?? ? ? ? ? ? ?? ?
b12
x22 1 01 01 0001 22
614 Глава 20. Дисперсионный анализ
? ? ?? ? ? ? ? ? ?
??1? ??1?
?x11 ? ?1? ? 1?
? ? ?? ?? ?? ??
? ? ?? ?? ?? ??
?x ? ?1? ??1? ? 1? ??
? ? 0 ? ? 1 ? ? 2 ??1? 12
? 12 ?
? ?= ? ?b + ? ?b2 + ? ?b2 + ? ?b22 .
? ? ?? ?? ?? ??
?x21 ? ?1? ? 1? ??1? ??1?
? ? ?? ?? ?? ??
? ? ?? ?? ?? ??
x22 1 1 1 1

Каждая из матриц Z J является прямым произведением ряда матриц и векторов:
? ?
? I , если j ? J ?
? ?
kj
Z =?
J
.
G? ?
? ?
1kj , если j ? J
/

В этом легко убедиться, рассуждая по индукции. Так, в рассматриваемом при-
мере:
?? ?? ? ? ??
?1? ?1? ?1 0? ?1?
Z 0 = ? ? ? ? ?, Z 1 = ? ? ? ? ?,
1 1 01 1

?? ? ? ? ? ? ?
?1? ?1 0? ?1 0? ?1 0?
Z2 = ? ? ? ? 12
???
?, Z = ? ?.
1 01 01 01

Матрицы C J можно представить следующим образом:
? ?
?j ?
? C , если j ? J ?
C = ?C = ?
J j
.
G? ?
? ?
J
1, если j ? J
/

Тогда, используя свойство коммутативности прямого и «обычного» умножения
матриц (см. п. 9.1), можно показать следующее:
? ?? ?
? ?? j ?
? I , если j ? J ?? C , если j ? J ?
kj
Z =Z C =?
J JJ
=
G? ?? ?
? ?? ?
1kj , если j ? J 1, если j ? J
/ /
? ?
? C , если j ? J ?
?j ?
=? (20.8)
.
G? ?
? ?
1kj , если j ? J
/
615
20.1. Дисперсионный анализ без повторений

Теперь можно уточнить структуру матрицы M . Она состоит из блоков
1JJ
? ?
M JJ = Z Z,
N
?
и все внедиагональные блоки (при J = J ), благодаря (20.8), равны 0.
Действительно,
? ?? ?
?j ?? j ?
1 ? C , если j ? J ?? C , если j ? J ?
?
?
M JJ = ?
N G? ?? ?
? ? ?? ?
1kj , если j ? J 1kj , если j ? J
/ /

и, если j ? J, ? J , то в ряду прямых произведений матриц возникает матрица
?/
(точнее, вектор-столбец) C j 1kj ; если j ? J, ? J , то появляется матрица (вектор-
/?
строка) 1kj C j . И та, и другая матрица (вектор-столбец или вектор-строка) по
? ?
построению матриц C j равны нулю. Следовательно, M JJ = 0 при J = J .
Для диагональных блоков выполняются следующие соотношения:
1 1
kj ?C j C j = J ?C j C j = ?M j ,
M JJ = M J =
N G?J J KJ J

1j 1
где M j = Cj =
kj C kj (1kj ?1 1kj ?1 + Ikj ?1 ).
В рассматриваемом примере M = I4 .
Вектор m состоит из блоков mJ :
1J 1 1
mJ = Z X = CJ ZJ X = J CJ XJ ,
N N K
J
где X J = K Z J X — вектор-столбец средних по сочетаниям значений факто-
N
ров J . Его компоненты в пункте 4.3 обозначались xI(J) ( xJ — добавлен верх-
I(J)
ний индекс J — является средним значением x по тем наблюдениям, в которых
1-й фактор из множества J находится на ij1 -м уровне, 2-й — на ij2 -м уровне и
т.д.); X 0 = x, X G = X. Это следует из структуры матрицы Z J .
?
После решения системы нормальных уравнений

mJ = M J bJ , J = 1, . . . , G

и перехода к «полным» векторам параметров эффектов получается следующее:

bJ = C J (C J C J )?1 C J X J = B J X J = ?B j X J ,
J

1 kj
где B j = C j (C j C j )?1 C j = Ikj ? ( 1kj = 1kj 1kj ), B 0 = 1.
kj 1
616 Глава 20. Дисперсионный анализ

В рассматриваемом примере
? ?
? 1 ?1 ?1 1?
? ?
? ?
? ?
??1 1 ?1?
1 ? 1 ?1? 1
? ?
B 0 = 1, B 1 = B 2 = ? 12
?, B = ? ?.
? ?
2 ??1 1 ?1?
?1 1 1
? ?
? ?
1 ?1 ?1 1

В силу блочной диагональности матрицы B, параметры разных эффектов bJ
(разных по J ) не зависят друг от друга, и исключение из уравнения некоторых из
них не повлияет на значения параметров оставшихся эффектов. Кроме того, это
доказывает справедливость приведенного в пункте 4.3 дисперсионного тождества
(4.41).
Действительно, воспользовавшись одной из формул (6.18) для объясненной
дисперсии, которая в данном случае равна полной дисперсии, можно получить
следующее:
G G G G
1 J J JJ 1JJ
2
s2 ,
J JJ
s= bMb= bC Cb = bb= J
J J
K K
J=1 J=1 J=1 J=1

т.е. то, что и требуется.
Введенное в пункте 4.3 рекуррентное правило расчета параметров эффектов,
когда параметры более младших эффектов рассчитываются по значениям парамет-
ров более старших эффектов, действует, поскольку наряду с соотношениями (20.4)
и (20.6) выполняются аналогичные соотношения для всех средних:
? ?
XJ = Z JJ bJ , (20.9)
?
0,J?J

?
где суммирование ведется от нуля и по всем подмножествам J (J ? J ), а Z JJ —
?
?
матрица фиктивных переменных для сочетания факторов J в модели, для которой
полным набором факторов является J , т.е.
? ?
? I , если j ? J ?
? ??
? kj
Z =?
JJ
X G = X, Z JG = Z J ,
J? ?
? ??
1kj , если j ? J
/

?
xJ = b0 + bJ J) . (20.10)
I( ?
I(J)
?
J?J
617
20.1. Дисперсионный анализ без повторений

Для доказательства этого факта обе части соотношения (20.5) умножаются
KJ J ?
слева на Z (текущим множеством в сумме становится J ):
N

G
KJ J KJ J J J
??
(20.11)
Z X= Z Zb,
N N
?
J=0


?
и рассматривается произведение Z J Z J из правой части полученного соотноше-
ния, которое представляется следующим образом:

? ?? ?
?
? I , если j ? J ?? C j , если j ? J ?
?? ?
?
kj
? (20.12)
.
G? ?? ?
? ?? ?
1 , если j ? J 1k , если j ? J
/?
/
kj j




Возможны четыре случая.
1) j ? J, j ? J , тогда в этом произведении возникает сомножитель 1kj C j ,
?
/
который равен нулю, т.е. в правой части соотношения (20.11) остаются только
такие слагаемые, для которых J ? J .
?
2) j ? J, j ? J , тогда возникает сомножитель kj , и, следовательно, каждое
/?
/
N
слагаемое в правой части (20.11) получает сомножитель , который сокраща-
KJ
KJ
ется с уже имеющимся сомножителем .
N
3) j ? J, j ? J , тогда возникает сомножитель C j .
?
4) j ? J, j ? J , тогда возникает сомножитель 1k .
/? j
?
Таким образом, рассматриваемое произведение в точности равно Z JJ . По-
скольку левая часть соотношения есть X J по определению, доказательство за-
вершено.
Соотношение (20.9) дает правило расчета bJ , если все параметры более стар-
ших эффектов известны. При J = 0 это соотношение означает

X 0 = x = b0 .
?

Далее последовательно рассчитываются параметры все более младших эффектов.
Техника применения F -критерия для проверки степени значимости отдельных
факторов и их сочетаний приведена в пункте 4.3. Здесь важно отметить, что она
применима только в рамках гипотезы о нормальности распределения x.
618 Глава 20. Дисперсионный анализ

20.2. Дисперсионный анализ с повторениями
Переходя к более общему и более сложному случаю модели дисперсионного
анализа с повторениями (20.1), полезно воспользоваться следующим подходом.
Если в модели регрессионного анализа
X = Z? + ?
несколько строк матрицы Z одинаковы, то можно перейти к сокращенной моде-
ли, в которой из всех этих строк оставлена одна, а в качестве соответствующей
компоненты вектора X взято среднее по этим наблюдениям с одинаковыми зна-
чениями независимых факторов. Это агрегированное наблюдение в соответствии
с требованием ОМНК должно быть взято с весом Ng , где Ng — количество
одинаковых строк в исходной модели, поскольку, как известно, дисперсия средней
ошибки в этом наблюдении в Ng раз меньше дисперсии исходных ошибок. Зна-
чения оценок параметров в исходной и сокращенной моделях будут одинаковыми,
но полная и остаточная суммы квадратов в исходной модели будут больше, чем
в сокращенной, на сумму квадратов отклонений переменных x по исключенным
наблюдениям от своей средней.
При доказательстве этого утверждения считается, что одинаковы первые N1
строк в матрице Z:
? ? ? ? ??
?x1 ? ?1N1 ? z1 ? ?e1 ?
? ?=? ?a + ? ?.
X Z e

Система нормальных уравнений для оценки a записывается следующим обра-
зом:
? ? ? ?
?1N1 ? z1 ?
?x1 ?
Z ? ? = 1N1 ? z1 Z? ?a
1N1 ? z1
X Z
или, после умножения векторов и матриц,
1N ?z1 x1 =1N ?z1 x1 ?1
1 1
1N1 ? z1 x1 + Z X = (1N1 ? z1 1N1 ? z1 + Z Z)a ?
? N1 z1 x1 + Z X = (N1 z1 z1 + Z Z)a.
?

Сокращенная модель записывается следующим образом:
? ? ? ? ? ?
? N1 x1 ? ? N1 z1 ?
? ? N1 e1 ?
?
? ?=? ?a + ? ?.
X Z e
619
20.2. Дисперсионный анализ с повторениями

Видно, что система нормальных уравнений для оценки параметров этой моде-
ли в точности совпадает с системой нормальных уравнений для исходной модели,
т.е. оценки параметров в исходной и сокращенной моделях одинаковы.
Остаточная сумма квадратов в исходной модели равна
(20.13)
e1 e1 + e e,
в сокращенной модели —
N1 e2 + e e. (20.14)
?1

Пусть первые N1 наблюдений в исходной модели имеют нижний индекс 1i, где
i = 1, . . . , N1 . Тогда
e1i = x1i ? z1 a = x1 + x1i ? x1 ? z1 a = e1 + (x1i ? x1 )
? ? ? ?
и

e2 =
e1 e1 = 1i

(?1 ? (x1i ? x1 ))2 = N1 e2 + 2?1 (x1i ? x1 )2 .
(x1i ? x1 ) +
= e ? ?1 e ? ?
<? ? ? ? ?>
??????
=0

Сравнение (20.13) и (20.14) с учетом полученного результата завершает дока-
зательство.
В исходной модели (20.1) строки матрицы Z, относящиеся к одной конечной
группе, одинаковы, что позволяет в конечном счете перейти к сокращенной модели,
IK
существенно меньшей размерности. В исходной модели N = NI , и пусть
I=I1

xI , s2 — средняя и дисперсия в I-й конечной группе,
I
1
s2 = NI s2 — внутригрупповая дисперсия,
e I
N
1
NI xI — общая средняя,
x=
? N
1
s2 = NI (xI ? x)2 — общая межгрупповая дисперсия.
?
q N

Еще в пункте 4.3 было доказано, что
s2 = s2 + s2 .
e q

На основании этого тождества, учитывая, что количество степеней свободы
внутригрупповой дисперсии равно N ? K ? 1, а межгрупповой — K, можно про-
верить статистическую гипотезу о значимости влияния всех факторов сразу на изу-
чаемую переменную. Но в данном случае можно провести более детальный анализ
620 Глава 20. Дисперсионный анализ

влияния отдельных факторов и их сочетаний, аналогичный тому, который прово-
дился в случае модели без повторений. В таком анализе используется сокращенная
модель, дающая (как это было показано выше) такие же оценки параметров ре-
грессии, что и исходная модель, но представляющая не всю дисперсию, а только
межгрупповую:
G
G
Z J bJ = Z J bJ , (20.15)
NX = N N
J=0

где X G — вектор средних по конечным группам xI , N — диагональная матрица
численностей конечных групп NI .
Эта модель отличается от моделей (20.4) и (20.5) только наличием матричного
множителя N . Но это отличие принципиальное. Оно влечет потерю всех тех
«хороших» свойств, которыми обладала модель без повторений. В частности, мат-
рица M в общем случае перестает быть блочно-диагональной, эффекты разных
сочетаний факторов становятся зависимыми, а дисперсионное тождество теряет
простую структуру.
С моделью (20.15) можно работать как с обычной регрессионной моделью,
используя известные критерии проверки разных статистических гипотез (понимая
при этом, что результаты проверки будут неоднозначны, в силу взаимозависимо-
стей регрессоров). Но следует иметь в виду, что оценки параметров в этой модели
смещены (что, впрочем, не влияет на результаты проверки гипотез). В частно-
сти, b0 = x.
?
Для того чтобы исключить смещенность оценок, необходимо правильно строить
матрицы C, используемые при устранении линейных зависимостей в матрице Z.
Это связано с тем, что теперь должны равняться нулю не простые, а взвешенные
суммы компонент векторов ? J по каждому элементу нижнего мультииндекса I(J).
В частности, если Nijj — численность группы, в которой j-й фактор находится
на ij -м уровне, то
? ?
1
?? N j ( N2 · · · Nkj )?
j j
? ?
j
C =? 1
?
Ikj ?1

(понятно, что когда численности всех конечных групп равны единице, эта матрица
приобретает обычную структуру).
Можно показать, что специальный выбор структуры матриц C J может обес-
печить максимальную «разреженность» матрицы M , т.е. обеспечить равенство
?
нулю блоков M 0G (G = 0), M JJ (J ? J). Работая со структурой матриц C J ,
?
можно обнаружить частный случай, когда модель с повторениями обладает теми
621
20.3. Упражнения и задачи

же свойствами, что и модель без повторений. Этот случай имеет место, если каж-
дый последующий (более младший) фактор делит все полученные ранее группы в
одинаковой пропорции. Однако усилия, которые необходимы для доказательства
этих фактов, далеко не соответствуют их практической значимости. Так, вряд ли
можно ожидать, что ряд групп, имеющих разную численность, можно разбить на
подгруппы в одинаковой пропорции — хотя бы в силу целочисленности образуемых
подгрупп.
В принципе, с моделью межгрупповой дисперсии (20.15) можно работать
и без сомножителя N , т.е. в рамках «хороших» свойств модели без повторе-
ний. Для этого достаточно предположить, что исходная модель (20.1) неоднородна
по дисперсии ошибок в разных наблюдениях. А именно: считать, что дисперсия
ошибки наблюдения обратно пропорциональна численности конечной группы, в
которую оно входит (чем больше наблюдений — повторений — в конечной груп-
пе, тем меньше дисперсия ошибки в отдельном наблюдении). Тогда сокращенная
модель будет однородной по дисперсии и для ее оценки окажется применим про-
стой МНК.


20.3. Упражнения и задачи
Упражнение 1

Провести дисперсионный анализ (без повторений) данных,
приведенных в таблице 20.1:
Таблица 20.1
Имеются 2 фактора по 3 уровня каждый (I, II, III и A, B, C,
соответственно). Рассчитать коэффициенты b, а также Z, Z, ABC
b , C1 , C2 , C12 , B1 , B2 , B12 , M , m.
I 3 0 4

II 0 7 0
Упражнение 2
III 2 8 3
В Таблице 20.2 приведены данные о зарплатах 52-х пре-
подавателей американского колледжа: SX — пол (жен. — 1, муж. – 0); ученое
звание: RK1 — assistant professor, RK2 — associate professor, RK3 — full professor;
DG — ученая степень (доктор — 1, магистр — 0); SL — средний заработок за ака-
демический год, долл.

2.1. Провести дисперсионный анализ с помощью обычной регрессии.
2.2. Провести дисперсионный анализ с помощью взвешенной регрессии, когда
совокупность наблюдений с одинаковыми значениями независимых факторов
заменяется одним групповым наблюдением.
622 Глава 20. Дисперсионный анализ




Таблица 20.2. (Источник: S. Weisberg (1985), Applied Linear Regression,
2nd Ed, New York: Wiley, page 194)

SX RK1 RK2 RK3 DG SL SX RK1 RK2 RK3 DG SL
0 0 0 1 1 36350 0 0 1 0 1 24800
0 0 0 1 1 35350 1 0 0 1 1 25500
0 0 0 1 1 28200 0 0 1 0 0 26182
1 0 0 1 1 26775 0 0 1 0 0 23725
0 0 0 1 0 33696 1 1 0 0 0 21600
0 0 0 1 1 28516 0 0 1 0 0 23300
1 0 0 1 0 24900 0 1 0 0 0 23713
0 0 0 1 1 31909 1 0 1 0 0 20690
0 0 0 1 0 31850 1 0 1 0 0 22450
0 0 0 1 0 32850 0 0 1 0 1 20850
0 0 0 1 1 27025 1 1 0 0 1 18304
0 0 1 0 1 24750 0 1 0 0 1 17095
0 0 0 1 1 28200 0 1 0 0 1 16700
0 0 1 0 0 23712 0 1 0 0 1 17600
0 0 0 1 1 25748 0 1 0 0 1 18075
0 0 0 1 1 29342 0 1 0 0 0 18000
0 0 0 1 1 31114 0 0 1 0 1 20999
0 0 1 0 0 24742 1 1 0 0 1 17250
0 0 1 0 0 22906 0 1 0 0 1 16500
0 0 0 1 0 24450 0 1 0 0 1 16094
0 1 0 0 0 19175 1 1 0 0 1 16150
0 0 1 0 0 20525 1 1 0 0 1 15350
0 0 0 1 1 27959 0 1 0 0 1 16244
1 0 0 1 1 38045 1 1 0 0 1 16686
0 0 1 0 1 24832 1 1 0 0 1 15000
0 0 0 1 1 25400 1 1 0 0 1 20300
623
20.3. Упражнения и задачи

2.3. Учесть эффекты второго порядка: добавить в регрессию попарные произве-
дения исходных фиктивных переменных. Значимы ли они?


Задачи Таблица 20.3

A B
1. Что является отличительной особенностью модели диспер-
I 43 2
сионного анализа по сравнению с «обычными» моделями
регрессионного анализа? II 4 53
2. С помощью таблицы 20.3 задана классификация по двум III 8 1
факторам.
Запишите матрицы фиктивных переменных для главных эффектов.
3. Какую структуру имеет матрица ковариаций оценок в дисперсионном анализе
без повторений?
4. Как называется в дисперсионном анализе то, что в регрессионном анализе
называется объясненной и остаточной дисперсией?
5. При проведении дисперсионного анализа с повторениями по усредненным
наблюдениям используется взвешенная регрессия. С какой целью это дела-
ется?
6. Если в дисперсионном анализе без повторений отбросить эффекты высшего
порядка, то как изменятся значения параметров оставшихся эффектов?
7. В модели полного дисперсионного анализа без повторений с одним фактором,
имеющим три уровня, запишите матрицу нецентральных вторых моментов
для матрицы регрессоров Z.
8. Сколько наблюдений нужно иметь для применения модели дисперсионного
анализа без повторений в случае четырех факторов, каждый из которых мо-
жет принимать три уровня, если учитывать только эффекты первого порядка?
9. Сколько наблюдений нужно иметь для применения модели полного диспер-
сионного анализа без повторений в случае двух факторов, каждый из которых
может принимать три уровня?
10. Для модели дисперсионного анализа с двумя факторами, первый из которых
имеет три уровня, а второй — два, рассчитать матрицу C 12 .
11. Рассмотрим модель дисперсионного анализа с двумя факторами, первый
из которых принимает два уровня, а второй — три уровня. Рассчитайте мат-
рицы Z 1 , Z 2 .
624 Глава 20. Дисперсионный анализ

12. В первой группе 20 человек, а во второй — 30 человек. Дисперсия оценок
по «Эконометрии» в первой группе равна 1.5, а во второй — 1. Вычислите
остаточную дисперсию в модели дисперсионного анализа.

13. В первой группе 20 человек, а во второй — 30 человек. Средняя оценка
по «Эконометрии» в первой группе равна 3.5, а во второй — 4. Вычислите
объясненную дисперсию в модели дисперсионного анализа.

14. В первой группе 20 человек, а во второй — 30 человек. Средняя оценка
по «Философии» в первой группе равна 4.5, а во второй — 3. Вычислите
коэффициенты в модели дисперсионного анализа.

15. В первой группе 20 человек, а во второй — 30 человек. Средняя оценка
по «Эконометрии» в первой группе равна 3.5, а во второй — 4. Дисперсия
оценок в первой группе равна 1.5, а во второй — 1. Вычислите общую
дисперсию оценок двум группам.

16. Проводится дисперсионный анализ без повторений с двумя факторами, один
из которых принимает три уровня, а другой — четыре. Как вычисляется
статистика для проверки значимости эффектов второго порядка? Какое она
имеет распределение (сколько степеней свободы)?


Рекомендуемая литература
1. Болч Б., Хуань К.Дж. Многомерные статистические методы для экономи-
ки. — М.: «Статистика», 1979. (Гл. 5)

2. Себер Дж. Линейный регрессионый анализ. — М.: «Мир», 1980.

3. Шеффе Г. Дисперсионный анализ. — М.: «Наука», 1980.
Глава 21

Модели с качественными
зависимыми переменными

При изучении экономических явлений на дезагрегированном уровне (уровне от-
дельных экономических субъектов) возникает потребность в новых методах. Дело
в том, что стандартные эконометрические методы, такие как классическая мо-
дель регрессии, предназначены для анализа переменных, которые могут прини-
мать любое значение на числовой прямой, причем предполагается фактически,
что распределение изучаемой переменной похоже на нормальное. Модели, в ко-
торых диапазон значений зависимой переменной ограничен, называют моделями
с ограниченной зависимой переменной. Среди них важную роль играют модели,
в которых изучаемая переменная дискретна и может принимать только некоторые
значения (конечное число), либо даже имеет нечисловую природу (так называемые
модели с качественной зависимой переменной). Модели такого рода помогают,
в частности, моделировать выбор экономических субъектов. В качестве примера
можно привести выбор предприятия: внедрять какую-то новую технологию или
нет. Если индивидуальный выбор исследовать методами, предназначенными для
непрерывных переменных, то будет неправомерно проигнорирована информация
о поведенческой структуре ситуации.


21.1. Модель дискретного выбора
для двух альтернатив
Анализ дискретного выбора основывается на микроэкономической теории, ко-
торая моделирует поведение индивидуума как выбор из данного множества аль-
626 Глава 21. Модели с качественными зависимыми переменными

тернатив такой альтернативы, которая бы максимизировала его полезность. Этот
выбор с точки зрения стороннего наблюдателя, однако, не полностью предопре-
делен. Исследователь не может наблюдать все факторы, определяющие результат
выбора конкретного индивидуума. Коль скоро ненаблюдаемые факторы случайны,
то выбор двух индивидуумов может быть разным при том, что наблюдаемые фак-
торы совпадают. С его точки зрения это выглядит как случайный разброс среди
индивидуумов с одними и теми же наблюдаемыми характеристиками.
Предполагается, что выбор осуществляется на основе ненаблюдаемой полез-
ности альтернатив u(x). Если u(1) > u(0), то индивидуум выбирает x = 1, если
u(1) < u(0), то индивидуум выбирает x = 0. В простейшем случае полезность
является линейной функцией факторов: u(1) = z?1 и u(0) = z?0 . Чтобы модель
была вероятностной, ее дополняют отклоняющими факторами, так что

u(1) = z?1 + ?1 ,
u(0) = z?0 + ?0 .

Предполагается, что распределение отклонений ?1 и ?0 непрерывно.
Заметим, что для описания выбора вполне достаточно знать разность между
полезностями вместо самих полезностей:

x = u(1) ? u(0) = z(?1 ? ?0 ) + ?1 ? ?0 = z? + ?,
?

при этом оказывается, что в основе выбора лежит переменная x, которая пред-
?
ставляет собой сумму линейной комбинации набора факторов z и случайного от-
клонения ?, имеющего некоторое непрерывное распределение:

x = z? + ?.
?

Эта переменная является ненаблюдаемой. Наблюдается только дискретная ве-
личина x, которая связана с x следующим образом: если x больше нуля, то x = 1,
? ?
если меньше, то x = 0.
Ясно, что по наблюдениям за x и z мы могли бы оценить коэффициенты
? только с точностью до множителя. Умножение ненаблюдаемых величин x, ? ?
и ? на один и тот же коэффициент не окажет влияния на наблюдаемые величины x
и z. Таким образом, можно произвольным образом нормировать модель, например,
положить дисперсию ошибки равной единице.
Кроме того, в этой модели есть дополнительный источник неоднозначности:
одним и тем же коэффициентам ? могут соответствовать разные пары ?0 и ?1 .
Таким образом, можно сделать вывод, что исходная модель выбора принципиально
неидентифицируема. Однако это не мешает ее использованию для предсказания
результата выбора, что мы продемонстрируем в дальнейшем.
627
21.1 Оценивание модели с биномиальной зависимой переменной

Без доказательства отметим, что если в модели выбора ?1 и ?0 имеют распре-
?y
деление F (y) = e?e (распределение экстремального значения) и независимы,
то ? = ?1 ? ?0 имеет логистическое распределение. При этом получается модель,
называемая логит.
Если ?1 и ?0 имеют нормальное распределение с параметрами 0 и 1 2 и неза-
висимы, то ? = ?1 ? ?0 имеет стандартное нормальное распределение. При этом
получается модель, называемая пробит.
Модели логит и пробит рассматривались в главе 9.


21.2. Оценивание модели с биномиальной
зависимой переменной методом
максимального правдоподобия
Предыдущие рассуждения приводят к следующей модели:
x = z? + ?,
?
?
?
? 0, x < 0,
?
x=
?
?
1, x > 0.
?

Пусть F? (·) — функция распределения отклонения ?. Выведем из распреде-
ления ? распределение x, а из распределения x — распределение x:
? ?
Pr(x = 1) = Pr(? > 0) = Pr(z? + ? > 0) = Pr(? > ?z?) = 1 ? F? (?z?).
x
Для удобства обозначим F (y) = 1?F? (?y). (При симметричности относитель-
но нуля распределения ? будет выполнено F (y) = 1 ? F? (?y) = F? (y).) Таким
образом,
Pr(x = 1) = F (z?).

Пусть имеются N наблюдений, (xi , zi ), i = 1, . . . , N , которые соответствуют
этой модели, так что xi имеют в основе ненаблюдаемую величину xi = zi ? + ?i .
?
Предполагаем, что ошибки ?i имеют нулевое математическое ожидание, одина-
ково распределены и независимы. Рассмотрим, как получить оценки коэффициен-
тов ? методом максимального правдоподобия.
Обозначим через pi = pi (?) = F (zi ?). Также пусть I0 = {i| xi = 0},
I1 = {i| xi = 1}. Функция правдоподобия, то есть вероятность получения наблю-
дений xi при данных zi , имеет вид:
(1 ? pi (?)).
L(?) = pi (?)
i?I1 i?I0
628 Глава 21. Модели с качественными зависимыми переменными

Вместо самой функции правдоподобия удобно использовать логарифмическую
функцию правдоподобия:

ln(1 ? pi (?)),
ln L(?) = ln pi (?) +
i?I1 i?I0

которую можно записать как
N
xi ln pi (?) + (1 ? xi ) ln(1 ? pi (?)) . (21.1)
ln L(?) =
i=1


В результате максимизации этой функции по ? получаем оценки максималь-
ного правдоподобия. Условия первого порядка максимума (уравнения правдоподо-
бия), т.е.

? ln L(?)
= 0,
??
имеют простой вид:
N
f (zi ?)
(xi ? pi ) zi = 0,
pi (1 ? pi )
i=1

где мы учли, что

?pi (?) dF (zi ?)
= = f (zi ?)zi ,
?? d?
где f — производная функции F (·). Поскольку F (·) представляет собой функцию
распределения, то f (·) — плотность распределения.
Можно использовать следующий метод, который дает те же оценки, что и ме-
тод максимального правдоподобия. Пусть a0 — некоторая приближенная оценка
коэффициентов модели. Аппроксимируем функцию F (·) ее касательной в точке
zi ? (т.е. применим линеаризацию):

F (zi ?) ? F (zi a0 ) + f (zi a0 )zi ? ? a0 .

Подставим затем эту аппроксимацию в исходную модель:

xi ? pi (a) ? f (zi a)zi (? ? a) + ?i ,

или

xi ? pi (a0 ) + f (zi a0 )zi a0 ? f (zi a0 )zi ? + ?i .
629
21.2 Оценивание модели с биномиальной зависимой переменной

При данном a0 это линейная регрессия. Как несложно проверить, дисперсия
ошибки ?i равна pi (?)(1 ? pi (?)), т.е. ошибки гетероскедастичны. К этой модели
можно применить взвешенную регрессию. Следует разделить левую и правую части
на корень из оценки дисперсии ошибки ?i , т.е. на pi (a0 )(1 ? pi (a0 )):

xi ? pi (a0 ) + f (zi a0 )zi a0 f (zi a0 )zi ?i
? ?+ .
(a0 )(1 (a0 )) (a0 )(1 (a0 )) (a0 )(1 (a0 ))
? pi ? pi ? pi
pi pi pi

Оценивая эту вспомогательную регрессию, мы на основе оценок a0 получим
новые оценки, скажем a1 . Повторяя эту процедуру, получим последовательность
оценок {ak }. Если процедура сойдется, т.е. ak > a при k > ?, то a будут
оценками максимального правдоподобия.
В качестве оценки ковариационной матрицы оценок a можно использовать
?1
? 2 ln L(a)
? .
????

По диагонали этой матрицы стоят оценки дисперсий коэффициентов. На их ос-
нове обычным способом можно получить аналоги t-статистик для проверки гипо-
тезы о равенстве отдельного коэффициента нулю. Такой тест будет разновидностью
теста Вальда.
Для проверки набора ограничений удобно использовать статистику отноше-
ния правдоподобия LR = 2(ln L(a) ? ln L(aR )), где ln L(a) — логарифмическая
функция правдоподобия из 21.1, a — оценка методом максимума правдоподобия
без ограничений, aR — оценка при ограничениях.
Эту же статистику можно использовать для построения показателя каче-
ства модели, аналогичного F -статистике для линейной регрессии. Она позволя-
ет проверить гипотезу о равенстве нулю коэффициентов при всех регрессорах,
кроме константы. Соответствующая статистика отношения правдоподобия равна
LR0 = 2(ln L(a) ? ln L0 ), где ln L0 — максимум логарифмической функции прав-
доподобия для модели с одной константой. Она распределена асимптотически как
?2 с n степенями свободы, где n — количество параметров в исходной моде-
ли, не включая константу. Величина ln L0 получается следующим образом. Пусть

<<

стр. 23
(всего 28)

СОДЕРЖАНИЕ

>>