<<

стр. 5
(всего 28)

СОДЕРЖАНИЕ

>>

нах: (x0 , a0 ), (x1 , a0 ), . . . , (xt , a0 ), . . . , (xN , a0 ) (см. п. 3.2). Правильнее считать
физический объем в году t в ценах, сопоставимых с базисным периодом, как
y 0 ?01 · . . . · ?t?1, t или y t / ?01 · . . . · ?t?1, t . В этом случае теряется наглядность,
x x a a
но приобретается соответствие теории. Следует отметить, что в действующей сей-
час Системе национальных счетов, рекомендованных ООН в 1993 г. для использо-
вания национальными правительствами, при расчете индексов применяется цепное
правило, но при расчете физических объемов в неизменных ценах — обычный под-
118 Глава 3. Индексный анализ

ход, основанный на индексах Пааше в целом за период. Это противоречие остается,
по-видимому, для сохранения принципа наглядности.
2) Индексы Дивизиа рассчитываются как средние индивидуальных индексов
с некоторыми весами, занимающими промежуточное положение между базисным
и текущим моментами (периодами) времени. Из рассмотренных прикладных ин-
дексов такому подходу в большей степени удовлетворяют индексы Фишера.
Действительно, в рассматриваемом примере индекс физического объема Фи-
шера в целом за период — 0.415 — более точно отражает реальную динамику, чем
индекс Пааше или Ласпейреса — в варианте (а). В варианте (б) более точным ока-
зывается индекс физического объема Пааше. Зато индексы Фишера, рассчитанные
по цепному правилу, дают практически точное приближение к реальной динамике.
3) Если предположить (как это делалось в предыдущем пункте), что индиви-
дуальные моментные индексы всех величин не меняются во времени в отдельных
периодах, то расчет индексов Дивизиа как средних геометрических индивидуаль-
ных индексов становиться вполне операциональным. Сложность заключается лишь
в определении средних хронологических весов по результирующей величине. В слу-
чае двух продуктов соответствующие интегралы, как это показано в предыдущем
пункте, берутся аналитически. В общем случае их всегда можно найти численным
приближением. Однако такой подход вряд ли применим в практике, поскольку он
достаточно сложен с точки зрения вычислений и не обладает наглядностью хоть
в какой-нибудь степени. Возможен компромисс, при котором веса для средних гео-
метрических индивидуальных индексов находятся как средние базисных и текущих
долей объектов в результирующей величине по формуле, более простой и нагляд-
ной, чем интеграл теоретической средней хронологической.
Для индекса результирующей величины, которая аддитивна по объектам, спра-
ведливы следующие соотношения:
1
?rs = ?r ?rs = ,
y i yi
?s ?rs
i yi

где ?r , ?s — доли объектов в результирующей величине, соответственно, в ба-
i i
зисном и текущем периодах времени.
Теперь рассчитываются два индекса результирующей величины ?rs (r), ?rs (s)
y y
как средние геометрические индивидуальных индексов по весам, соответственно,
базисного и текущего периодов:
r s
rs ?i rs ?i
?rs (r) ?rs (s)
= ?yi , = ?yi .
y y

По свойству мажорантности средних степенных:
?rs (r) < ?rs < ?rs (s),
y y y
119
Прикладные следствия из анализа индексов

и уравнение относительно ? rs :
1?? rs
? rs
?rs ?rs (r) ?rs (s)
= ,
y y y

будет иметь решение 0 < ? rs < 1.
Тогда ?rs = ? rs ?r + (1 ? ? rs ) ?s могут сыграть роль средних хронологических
i i i
весов в формулах индексов Дивизиа (соотношения, аналогичные (3.4)):
rs
rs ?i rs rs
(?rs )?i , (?rs )?i .
?rs ?rs = ?rs =
= ?yi ,
y x xi a ai

Теперь эти соотношения являются формулами расчета прикладных индексов,
обладающих всеми свойствами теоретических индексов Дивизиа: они мультиплика-
тивны, транзитивны (в дефинитивной форме), симметричны и являются средними
индивидуальных индексов.
В прикладном анализе иногда используют похожие индексы, называемые
по имени автора индексами Торнквиста. В их расчете в качестве ? rs всегда прини-
мают 0.5, и потому индекс результирующей величины Торнквиста не равен в общем
случае его реальному значению. Предложенные здесь индексы можно назвать мо-
дифицированными индексами Торнквиста.
Для того чтобы оценить качество прикладных индексов, проводился численный
эксперимент, в котором значения факторных признаков (объем и цена) задава-
лись случайными числами (случайными величинами, равномерно распределенны-
ми на отрезке [0, 1]), и определялись отклонения прикладных индексов от значения
теоретического индекса Дивизиа (по абсолютной величине логарифма отношения
прикладного индекса к теоретическому). Рассматривались три системы: 2 про-
дукта — 2 периода (как в приводимом выше примере), 2 продукта — 3 периода,
3 продукта — 2 периода. В случае двух продуктов значения модифицированного
индекса Торнквиста и индекса Дивизиа совпадают, т.к. уравнение
1??rs
?rs
1 1
?rs ?rs ?rs
=
y y1 y2

имеет относительно ?rs единственное решение. Поэтому в этих случаях индекс
1
Дивизиа сравнивался с индексами Ласпейреса, Пааше и Фишера, рассчитанными
в целом за период и по цепному правилу. В случае 3-х продуктов индекс Дивизиа,
рассчитанный с использованием численной оценки интеграла среднехронологиче-
ских весов (для этого единичный период времени делился на 100 подпериодов),
сравнивался также и с модифицированным индексом Торнквиста. В каждом из этих
трех случаев проводилось около 1 000 000 численных расчетов, поэтому получен-
ные оценки вероятностей достаточно точны.
Оценки вероятности для случая «2 продукта — 2 периода» приведены в таб-
лице 3.7. В этой же таблице стрелочками вверх и вниз отмечено, как меняются
120 Глава 3. Индексный анализ


Таблица 3.7. Вероятности того, что индекс в подлежащем дает большую ошибку,
чем индекс в сказуемом таблицы (для индексов объемной факторной величины)

В целом за период По цепному правилу

Ласпейрес Пааше Фишер Ласпейрес Пааше

В целом за период

Пааше 0.500 0 — — —

0.415 vv 0.415 vv
Фишер 0 — —

По цепному правилу

0.482 ^v 0.479 ^v 0.524 ^^
Ласпейрес 0 —

0.479 ^v 0.482 ^v 0.524 ^^
Пааше 0.500 0

0.052 ^^ 0.052 ^^ 0.060 ^^ 0.053 ^^ 0.053 ^^
Фишер




соответствующие показатели при переходе к ситуации «2 продукта — 3 периода»
и далее «3 продукта — 2 периода».
По данным этой таблицы преимущество цепного правила проявляется не столь
очевидно. Цепные индексы Ласпейреса и Пааше лишь в 48% случаев (чуть меньше
половины) дают более высокую ошибку, чем те же индексы, рассчитанные в целом
за период. Это преимущество растет (падает соответствующий показатель вероят-
ности) с увеличением числа объектов (продуктов) в агрегате и исчезает с увеличе-
нием числа периодов (при 3-х периодах соответствующие вероятности становятся
больше 0.5). Зато преимущество индекса Фишера становится явным. Рассчитан-
ные в целом за период, эти индексы хуже соответствующих индексов Ласпейреса
и Пааше только в 41.5% случаев, причем их качество повышается с ростом как
числа объектов, так и количества периодов. Особенно «хороши» цепные индексы
Фишера: они лишь в 5–6% случаев дают ошибку большую, чем любые другие ин-
дексы. К сожалению, с ростом числа объектов и количества периодов их качество
снижается.
В ситуации «3 продукта — 2 периода» рассчитывались модифицированные
индексы Торнквиста. Они оказались самыми лучшими. Вероятность того, что они
дают более высокую ошибку, чем индексы Ласпейреса и Пааше, а также Фише-
ра, рассчитанного в целом за период, на 2–3% ниже, чем для цепного индекса
Фишера.
Итак, можно сказать, что модифицированные индексы Торнквиста, рассчиты-
ваемые как средние геометрические индивидуальных индексов с особыми весами,
121
Прикладные следствия из анализа индексов

в наилучшей степени соответствуют теории. Тем не менее, в существующей практи-
ке статистики индексы как средние геометрические величины фактически не приме-
няются. В действующей (рекомендованной ООН в 1993 г.) Системе национальных
счетов применение индексов Торнквиста (обычных, не модифицированных) реко-
мендуется лишь в весьма специфических ситуациях.
Индексы как средние геометрические индивидуальных применялись в прак-
тике статистики, в том числе в России и СССР, в первой трети ХХ века. Затем
практически всеобщее распространение получили агрегатные индексы. Это про-
изошло по крайней мере по двум причинам. Первая: агрегатные индексы наглядны
и поэтому понятны. Вторая: средние геометрические величины, если веса взве-
шивания принять за константы, весьма чувствительны к крайним значениям ин-
дивидуальных индексов. Так, например, очень большое значение какого-то одного
индивидуального индекса приведет к существенному преувеличению общего ин-
декса (в крайней ситуации, когда базисное значение индивидуальной величины
равно нулю, т.е., например, какой-то продукт в базисном периоде еще не про-
изводился, общий индекс окажется бесконечным). Наоборот, очень малое зна-
чение единственного индивидуального индекса существенно преуменьшит общий
индекс (обратит его в ноль, если текущее значение соответствующей индивиду-
альной величины равно нулю — данный продукт уже не производится в текущем
периоде).
Указанные доводы против среднегеометрических индексов вряд ли серьезны.
По поводу первого из них следует еще раз напомнить, что наглядность и понятность
нельзя считать критерием истины. Второй довод не выдерживает критики, посколь-
ку резким изменениям могут подвергаться малые индивидуальные величины, ко-
торые входят в среднюю с малыми весами и поэтому не могут заметно повлиять
на ее уровень. В крайних ситуациях, когда индивидуальный индекс по какому-то
объекту принимает нулевое или бесконечное значение, такой объект вообще не
должен участвовать в расчете общего индекса (его вес в среднем геометрическом
равен нулю).

Действительно,
?i (0,1)
N
yi (1)
?y (0, 1) = ,
yi (0)
i=1

yi (1)
где по определению = ?yi (0, 1), а
yi (0)
t
1 1
yi (1) 1?t
yi (0) t
yi (0) yi (1)
yi (0)
?i (0, 1) = dt = dt.
N N
t
1?t
yi (1) t
yi (0) yi (0) yi (1)
0 0
yi (0)
i=1 i=1
122 Глава 3. Индексный анализ

? (0,1)
yi (1) i
Далее рассматривается только компонента i-го объекта (обознача-
yi (0)
?
емая ниже ?yi ), для которого либо yi (0), либо yi (1) равны нулю (продукт либо еще
не производился в базисном моменте, либо уже не производится в текущем моменте
времени).
Пусть период времени [0, 1] делится на n равных подпериодов, и tj — середи-
?
на j-го подпериода. Тогда рассматриваемую компоненту ?yi можно приближенно
представить выражением (в силу аддитивности интеграла)

1?tj t
yi (1) j
yi (0) 1
N n
1?tj t
yi (1) j
yi (0)
n
yi (1)
? ?
?yij , где ?yij = ,
i=1
yi (0)
j=1


которое в пределе при n > ? совпадет с исходным значением этой компоненты.
При конкретном n < ? и любом tj , которое в таком случае обязательно больше
нуля и меньше единицы,

?
?yij > 1,

при yi (0) > 0 или yi (1) > 0. Это можно доказать аналитически, но проще показать
?
численно. В первом случае ( yi (0) > 0) указанная величина ?yij стремится к едини-
це сверху, во втором — снизу, т.е. в крайней ситуации, когда либо yi (0), либо yi (1)
n
?
равны нулю, ?yij равно единице. И в результате перехода в этом выражении
j=1
?
к пределу при n > ? оказывается, что компонента i-го объекта ?yi также равна
единице. Это означает, что данный i-й объект не участвует в расчете среднегеомет-
рического индекса.

Индексы Дивизиа при гипотезе неизменности во времени всех индивидуальных
моментных индексов, а вслед за ними — модифицированные индексы Торнкви-
ста — должны рассчитываться по сопоставимому набору объектов (продуктов).
В такой набор входят только такие объекты, которые существовали как в базисном,
так и в текущем периодах времени (только те продукты, которые производились
и в базисном, и в текущем периодах). Это правило выступает дополнительным
аргументом в пользу цепных индексов, поскольку за длительные периоды време-
ни наборы объектов (продуктов) могут меняться заметно, тогда как их изменения
за короткие единичные периоды не так существенны.
В заключение следует заметить, что мультипликативные индексные выражения,
построенные на основе индексов Дивизиа и модифицированных индексов Торнкви-
ста, естественным образом обобщаются на случай более одного относительного
фактора в мультипликативном представлении результирующей величины.
123
3.7. Факторные представления приростов в непрерывном времени

3.7. Факторные представления приростов
в непрерывном времени
Моментные приросты делятся на факторы естественным и однозначным обра-
зом:
d ln y (t) d ln x (t) d ln a (t)
??y (t) = = + = ??x (t) + ??a (t).
dt dt dt
Принимая во внимание, что непрерывным за период темпом прироста
??y (t0 , t1 ) является ln ?y (t0 , t1 ), аналогично делятся на факторы и приросты
за период (т.к. индексы «момент к моменту» мультипликативны):

??y (t0 , t1 ) = ln ?y (t0 , t1 ) = ln ?x (t0 , t1 ) + ln ?a (t0 , t1 ) =
= ??x (t0 , t1 ) + ??a (t0 , t1 ) .
В прикладном анализе такое правило деления приростов на факторы также
вполне операционально, и его имеет смысл использовать.
Каждому мультипликативному индексному выражению ?rs = ?rs ?rs следует
y xa
сопоставить не три варианта факторных разложений (1 ?3 ), как в пункте 3.3,
а одно:
ln ?rs = ln ?rs + ln ?rs .
y x a

?rs
y
ln ?rs
Однако, поскольку = r , правильнее из этого факторного разложения
y
y
определять лишь доли экстенсивных и интенсивных факторов:
ln ?rs ln ?rs
x a
rs rs
?x = , ?a = ,
ln ?rs ln ?rs
y y

которые, в свою очередь, использовать в расчете вкладов факторов:

?rs = ?x ?rs ,
rs
?rs = ?a ?rs .
rs
x y a y

Такой подход успешно работает при любом количестве относительных факторов
в мультипликативном представлении результирующей величины.


3.8. Задачи
1. Определить пункты, которые являются выпадающими из общего ряда.

1.1. а) Ласпейрес, б) Пирсон, в) Фишер, г) Пааше;
1.2. а) Ласпейрес, б) Пааше, в) Фишер, г) Торнквист;
124 Глава 3. Индексный анализ

1.3. а) индекс, б) дефлятор, в) корзина, г) коробка;
1.4. а) Ласпейрес, б) транзитивность, в) мультипликативность, г) Пааше;
1.5. а) коммутативность, б) транзитивность, в) мультипликативность,
г) симметричность;
1.6. а) Торнквист, б) цепное правило, в) транзитивность, г) Фишер;
1.7. а) прирост, б) экстенсивные, в) интегральные, г) интенсивные;
1.8. а) дефлятор, б) темп роста, в) индекс, г) темп прироста;
1.9. а) постоянного состава, б) относительная величина, в) структуры,
г) стоимости;
1.10. а) цепное, б) обратимости, в) симметрии, г) среднего;
1.11. а) среднего, б) транзитивности, в) обратимости, г) цепное;
1.12. а) дефлятор, б) темп роста, в) симметрии, г) среднего;
1.13. а) частный, б) факторный, в) цен, г) стоимости;
1.14. а) непрерывность, б) Дивизиа, в) геометрическое, г) дискретность;
1.15. а) сопоставимый набор, б) цепное правило, в) Торнквист, г) Фишер.

2. Индексы стоимости и объема для совокупности из 2 товаров равны соответ-
ственно 1.6 и 1.0. Стоимость в текущий период распределена между това-
рами поровну. Индивидуальный индекс цен для одного из товаров равен 1.3,
чему он равен для другого товара?

3. Объемы производства 2 товаров в базисном и текущем периодах равны 10,
20 и 30, 40 единиц, соответствующие цены — 2, 1 и 4, 3. Чему равны
индексы объема Ласпейреса и Пааше? Чему равны те же индексы цен?

4. Объемы производства 2 товаров в базисном и текущем периодах равны 10,
20 и 30, 40 единиц, соответствующие цены — 2, 1 и 4, 3. Чему равен вес
1-го товара в индексе Торнквиста? Чему равны факторные индексы Дивизиа?

5. Объемы производства 2 товаров в базисном и текущем периодах равны 10,
20 и 20, 10 тыс. руб., материалоемкости их производства — 0.6, 0.5 и 0.7,
0.6. Чему равны индексы структурных сдвигов Ласпейреса и Пааше? Чему
равны те же индексы постоянного состава?

6. Объемы производства 2 товаров в базисном и текущем периодах равны 10,
20 и 20, 10 тыс. руб., материалоемкости их производства — 0.6, 0.5 и 0.7,
0.6. Чему равны факторные индексы («количества» и «качества») в «трой-
ке»: материальные затраты равны объемам производства, умноженным на
материалоемкость?
125
3.8. Задачи

7. В 1999 году ВВП в текущих ценах составил 200 млрд. руб. В 2000 году ВВП в
текущих ценах вырос на 25%, а в сопоставимых снизился на 3%. Определите
дефлятор ВВП.

8. Сумма удорожания продукции за счет повышения цен составила 200 млн.
руб., прирост физического объема продукции составил 300 млн. руб. На
сколько процентов повысились цены и возрос физический объем продукции,
если стоимость продукции в базисном периоде составила 3 млрд. руб.?

9. Физический объем продукции возрос на 300 млн. руб., или на 20%. Це-
ны снизились на 10%. Найти прирост стоимости продукции с учетом роста
физического объема продукции и снижении цен.

10. Стоимость продукции в текущем периоде в текущих ценах составила 1600
млн. руб. Индекс цен равен 0.8 , индекс физического объема — 1.2 . Опре-
делить прирост стоимости продукции, в том числе обусловленный ростом
физического объема продукции и снижением цен.

11. Расходы на потребительские товары составили 20 тыс. руб., что в текущих
ценах больше соответствующих расходов прошлого года в 1.2 раза, а в сопо-
ставимых ценах на 5% меньше. Определите индекс цен на потребительские
товары и изменение их физического объема (абсолютно и относительно).

12. По данным, приведенным в таблице, рассчитайте:
Базовый Текущий
Показатель Продукт
период период

Объем производства, сталь 2400 3800
тыс. т чугун 3700 4800
Цена, сталь 1.5 3.0
тыс. руб./т чугун 1.0 0.8


а) индивидуальные и общие индексы изменения стоимости;
б) индексы Ласпейреса, Пааше, Фишера цен и физического объема.

13. По данным, приведенным в таблице:
Базовый Текущий
Показатель Отрасль
период период

Валовый растениеводство 720 1800
выпуск животноводство 600 900
Численность растениеводство 200 250
занятых животноводство 300 330
126 Глава 3. Индексный анализ

а) рассчитайте производительность труда по отраслям и сельскому хозяй-
ству в целом;
б) рассчитайте одним из методов влияние изменения отраслевых показа-
телей численности занятых и производительности труда на динамику
валового выпуска сельского хозяйства.

14. По данным, приведенным в таблице, рассчитайте:
ВВП Индексы дефляторы ВВП
Годы
(текущие цены, трлн. руб.) (в разах к предыдущему году)
1990 0.644 1.2
1991 1.398 2.3
1992 19.006 15.9
1993 171.510 9.9
1994 610.592 4.1
1995 1630.956 2.8



а) ВВП России в 1991–1995 гг. в сопоставимых ценах 1990 г.;
б) базовые индексы-дефляторы.

15. Используя один из подходов, вычислите индексы товарооборота, физического
объема и цен в целом по мясопродуктам на основании данных из таблицы.
Розничный товарооборот,
млрд. руб.
Мясопродукты Индекс цен, %
март апрель
Мясо 1128 1517
Колбасные изделия 2043 3120
Мясные консервы 815 1111


16. Вычислите общие индексы стоимости, физического объема и цен по закупкам
мяса на основании данных из таблицы:
Мясо
Год
Говядина Свинина Баранина
Количество проданного базисный 238 183 40
мяса, тыс. т отчетный 245 205 48
Закупочная цена
базисный 35 30 28
за 1 т, тыс. руб.

Закупочные цены в отчетном году по сравнению с базисным возросли на
говядину — на 160%, свинину — на 80%, на баранину — на 50%.
127
3.8. Задачи

17. По данным, приведенным в таблице, рассчитайте:


Базовый Текущий
Показатель Регион
период период

Валовой Западная Сибирь 3600 4000
выпуск Восточная Сибирь 2700 2500
Производственные Западная Сибирь 2400 2500
затраты Восточная Сибирь 2000 2200



а) материалоемкость производства по регионам и Сибири в целом;
б) индексы переменного и постоянного состава и структурных сдвигов ма-
териалоемкости.

18. По данным, приведенным в таблице, рассчитайте:
Базовый Текущий
Показатель Подразделение
период период
1 й цех 80 160
Валовой выпуск
2 й цех 120 90
1 й цех 50 75
Основной капитал
2 й цех 240 240



а) фондоотдачу по цехам предприятия и заводу в целом;
б) индексы переменного и постоянного состава и структурных сдвигов фон-
доотдачи.

19. Используя один из подходов, вычислите общие индексы стоимости, физиче-
ского объема и цен по закупкам зерновых на основании следующих данных:

Зерновые
Год
пшеница рожь гречиха

Количество проданного базисный 548 385 60
зерна, тыс. т отчетный 680 360 75
Закупочная цена
отчетный 7.2 7.0 12
за 1 т, тыс. руб.


Закупочные цены в отчетном году по сравнению с базисным возросли на
пшеницу — на 60%, рожь — на 40%, гречиху — 50%.
128 Глава 3. Индексный анализ

Рекомендуемая литература
1. Аллен Р. Экономические индексы. — М.: «Статистика», 1980. (Гл. 1, 5).

2. (*) Зоркальцев В.И. Индексы цен и инфляционные процессы. — Новоси-
бирск: «Наука», 1996. (Гл. 1, 4–6, 15).

3. Кёвеш П. Теория индексов и практика экономического анализа. — М.: «Фи-
нансы и статистика», 1990.
Глава 4

Введение в анализ связей


Одна из задач статистики состоит в том, чтобы по данным наблюдений за при-
знаками определить, связаны они между собой (зависят ли друг от друга) или нет.
И если зависимость есть, то каков ее вид (линейный, квадратичный, логистический
и т.д.) и каковы ее параметры. Построенные зависимости образуют эмпирические
(эконометрические) модели, используемые в анализе и прогнозировании соответ-
ствующих явлений. Часто задача ставится иначе: используя данные наблюдений,
подтвердить или опровергнуть наличие зависимостей, следующих из теоретических
моделей явления. Математические методы решения этих задач во многом идентич-
ны, различна лишь содержательная интерпретация их применения.
В этой главе даются самые элементарные сведения об этих методах. Более
развернуто они представлены в следующих частях книги.



4.1. Совместные распределения частот
количественных признаков

Пусть имеется группировка совокупности по n признакам (см. п. 1.9),
где n > 1, и NI — количество объектов в I-й конечной группе (группо-
вая численность), т.е. частота одновременного проявления 1-го признака в i1 -м
полуинтервале, 2-го признака в i2 -м полуинтервале и т.д., n-го признака
в in -м полуинтервале (уместно напомнить, что I = i1 i2 . . . in , см. п. 1.9).
NI
Как и прежде, ?I = — относительные частоты или оценки вероятности того,
N
130 Глава 4. Введение в анализ связей

что zi1 ?1, 1 < x1 zi1 1 , . . . , zin ?1, n < xn zin n (если ij = 1, то левые строгие
неравенства записываются как ).
Пусть ?ij (j) — длина ij -го полуинтервала в группировке по j-му фактору,
n ?I
а ?I = ?ij (j) . Тогда fI = — плотности относительной частоты совмест-
?I
j=1
ного распределения или оценки плотности вероятности.
IK
Очевидно1 , что ?I = 1 , или
I=I1


(4.1)
fI ?I = 1.
I

i1 in
Далее: FI = ?I (FI = ?I — новая по сравнению с п. 1.9 опе-
...
in =1
i1 =1
I I
рация суммирования) или

(4.2)
FI = f I ?I
I I

— накопленные относительные частоты совместного распределения, или оценки
вероятностей того, что xj zij j , j = 1, . . . , n. F0 — оценка вероятности того,
что xj < z0j , j = 1, . . . , n, т. е. F0 = 0. FIK = 1.
Введенные таким образом совместные распределения частот признаков яв-
ляются прямым обобщением распределения частоты одного признака, данного
в пункте 2.1.
Аналогичным образом можно ввести совместные распределения любого под-
множества признаков, которое обозначено в пункте 1.9 через J , т.е. по группам
более низкого порядка, чем конечные, образующим класс J . Для индексации этих
групп в этом разделе будет использован 2-й способ (см. п. 1.9) — составной муль-
тииндекс I(J), в котором и из I, и из J исключены все ?. Так, индекс 51(13)
именует группу, в которой 1-й признак находится на 5-м уровне, 3-й — на 1-м,
а остальные признаки «пробегают» все свои уровни. При 1-м способе (исполь-
зуемом в п. 1.9) и при n = 3 эта группа именуется двумя мультииндексами 5?1
и 1?3. Введенное выше обозначение длин полуинтервалов ?ij (j) построено по
этому 2-му способу.
Распределение частот признаков множества J , т.е. по группам класса J опре-
деляется следующим образом.
1
Операция такого суммирования объясняется в пункте 1.9, тогда же через IK был обозначен
мультииндекс, в котором все факторы находятся на последнем уровне; в данном случае эту операцию
k1 kn
?I = 1.
можно записать так: ...
i1 =1 in =1
131
4.1. Совместные распределения частот количественных признаков

NI(J) — частота, количество объектов, попавших в группу I(J). Если вер-
нуться к обозначениям пункта 1.9 для мультииндекса этой группы — I(?) (в пол-
ном мультииндексе I все те позиции, которые соответствуют не вошедшим в J
признакам, заменены на ?, например: 51(13) > 5?1, и воспользоваться введен-
ной в том же пункте операцией , то
I(?)

NI(J) = NI .
I(?)

?
Но в данном случае обозначение этой операции следует уточнить. Пусть J —
множество тех признаков, которые не вошли в J , а операция ‘ + ’ в соответствую-
?
щем контексте такова, что J + J = G через G в п. 1.9 было обозначено полное
множество факторов {12 . . . n} и I(J) + I(J) = I (например, 13 + 2 = 123
?
и 51(13) + 3(2) = 531), тогда
NI(J) = NI(J)+I(J) ,
?
?
J
где суммирование ведется по всем уровням признаков указанного под знаком сум-
мирования множества (далее операция будет пониматься именно в этом
мн-во призн.
смысле).
NI(J)
— относительные частоты, которые, очевидно, удовлетворяют
?I(J) =
N
условию: ?I(J) = 1,
J
?I(J)
— плотности относительной частоты, где ?I(J) =
fI(J) = ?ij (j)
?I(J) J
(операция такого перемножения объясняется в п. 1.9),
накопленные относительные частоты, где I (J) — те-
FI(J) = ?I (J)
I (J) I(J)
кущие («пробегающие») значения уровней признаков J .
Такие распределения по отношению к исходному распределению в полном мно-
жестве признаков называются маргинальными (предельными), поскольку накоп-
ленные относительные частоты (эмпирический аналог функции распределения ве-
роятностей) таких распределений получаются из накопленных относительных ча-
стот исходного распределения заменой в них на предельные уровни kj факторов,
не вошедших в множество J :
(4.3)
FI(J) = FI(J)+IK (J ) .
?

Действительно, поскольку вслед за NI(J)
(4.4)
?I(J) = ?I(J)+I(J ) ,
?
?
J
132 Глава 4. Введение в анализ связей

то

FI(J) = ?I = ?I =
?
(J) (J)+I(J )
?
I (J) I(J) I (J) I(J) J

= ?I (J)+I (J) = FI(J)+IK (J) .
? ?
I (J) I(J)
? ?
I (J ) IK (J )


Кроме того,

(4.5)
fI(J) = fI(J)+I(J) ?I(J) ,
? ?
?
J

т.к. ?I = ?I(J) ?I(J) .
?
Действительно:
?I(J)+I(J)
? 1
fI(J)+I(J) ?I(J) = ?I(J) = ?I(J)+I(J ) = fI(J) .
? ? ? ?
?I(J) ?I(J) ?I(J)
?
? ? ?
J J J




Крайним случаем предельных распределений являются распределения частот
отдельных признаков (см. п. 2.1), которые получаются, если множества J вклю-
чают лишь один элемент (признак) из j = 1, . . . , n. Для таких распределений
I (J) > ij (j).
В частном, но достаточно важном случае при n = 2 частоты распределения
обычно представляют в таблице сопряженности, или корреляционной таблице:


··· ···
1 i2 k2 Y

··· ···
1 N11 N1i2 N1k2 N1(1)
. . . . .
.. ..
. . . . .
. .
. . . . .

··· ···
i1 Ni1 1 Ni1 i2 Ni1 k2 Ni1 (1)
. . . . .
.. ..
. . . . .
. .
. . . . .

··· ···
k1 Nk1 1 Nk1 i2 Nk1 k2 Nk1 (1)

N1(2) · · · Ni2 (2) · · · Nk2 (2)
Y N
133
4.1. Совместные распределения частот количественных признаков

В этом случае существует только два маргинальных распределения частот —
отдельно для 1-го признака (итоговый столбец таблицы сопряженности) и для 2-го
признака (итоговая строка). Для частот и других параметров этих распределений
удобнее и нагляднее 1-й способ обозначения: вместо Ni1 (1) и N12 (2) использует-
ся, соответственно, Ni1 ? и N?i2 . Этот способ обозначений удобен, если n мало,
но описать общий случай, как это сделано выше, с его помощью весьма затрудни-
тельно. Формулы (4.3) в случае двух признаков принимают вид (после запятой эти
же формулы даются в обозначениях 1-го способа):

Fi1 (1) = Fi1 k2 , Fi1 ? = Fi1 k2 ;
Fi2 (2) = Fk1 i2 , F?i2 = Fk1 i2 .

Аналогично, для формул (4.5):
k2 k2
fi1 (1) = fi1 i2 ?i2 (2) , fi1 ? = fi1 i2 ??i2 ;
i2 =1 i2 =1
k1 k1
fi2 (2) = fi1 i2 ?i1 (1) , f?i2 = fi1 i2 ?i1 ? .
i1 =1 i1 =1

Если в таблице сопряженности разместить не частоты, а плотности относи-
тельных частот, и на каждой клетке таблицы построить параллелепипед высотой,
равной соответствующему значению плотности, то получится трехмерный аналог
гистограммы, который иногда называют стереограммой. Ее верхнюю поверхность
называют поверхностью двухмерного распределения.
Если предположить, что N, k1 , k2 > ?, допуская при этом, что
z01 , z02 > ??, а zk1 1 , zk2 2 > ?, то f и F станут гладкими функциями f (x1 , x2 )
и F (x1 , x2 ), соответственно, распределения плотности вероятности и распре-
деления вероятности. Это — теоретические функции распределения. Формулы
(4.1–4.3, 4.5) записываются для них следующим образом:
? ?
f (x1 , x2 ) dx1 dx2 = 1,
?? ??
x1 x2

F (x1 , x2 ) = f x1 , x2 dx1 dx2 ,
?? ??
F (x1 ) = F (x1 , ?), F (x2 ) = F (?, x2 ),
? ?
f (x1 ) = f (x1 , x2 ) dx2 , f (x2 ) = f (x1 , x2 ) dx1 .
?? ??
134 Глава 4. Введение в анализ связей

Легко представить возможные обобщения таблицы сопряженности на случай
n > 2. Ее аналогом является n-мерный прямоугольный параллелепипед, в ито-
говых гранях которого (в таблице сопряженности таких граней две — итоговые
столбец и строка) даны все возможные маргинальные распределения частот. Ито-
говые грани — крайние, предельные, маргинальные части параллелепипеда. Это
дает еще одно объяснение используемому термину — «маргинальные распределе-
ния».
Исходное распределение и любое маргинальное распределение частот строятся
по всей совокупности. Однако важное значение имеют и распределения, построен-
ные по отдельным частям выборки. Так, наряду с рассмотренным распределением
частот признаков J по группам класса J , можно говорить о распределении частот
?
признаков J (всех оставшихся признаков) по конечным группам в каждой отдель-
ной группе класса J . Это — условные распределения частот. Они показывают
?
распределения частот признаков J при условии, что все остальные признаки J
зафиксированы на определенных уровнях I(J). В таблице сопряженности тако-
выми являются распределения 1-го признака в каждом отдельном столбце, если
J = 2, и распределения 2-го признака в каждой отдельной строке, если J = 1.
NI(J)+I(J )
?
— относительные частоты условного распределения
?I(J) | I(J) =
?
NI(J)
?
признаков J по I(J). Если числитель и знаменатель правой части этой формулы
поделить на N , то получится
?I(J)+I(J )
?
или
?I(J) | I(J) =
?
?I(J)
(4.6)
?I(J) | I(J) ?I(J) = ?I(J)+I(J ) .
? ?

?I(J) | I(J)
?
— плотности относительных частот условного распре-
fI(J) | I(J) =
?
?I(J) ?
деления. Если левую часть равенства (4.6) разделить на ?I(J) ?I(J) , а правую —
?
на ?I (оба этих делителя, как отмечено выше, равны), то получится аналогичное
(4.6) равенство для плотностей:
(4.7)
fI(J) | I(J) fI(J) = fI(J)+I(J) .
? ?

В случае двух признаков и при использовании 1-го способа индексации:
Ni1 i2 1 Ni1 i2 1
fi1 ? | ?i2 = , f?i2 | i1 ? = ,
N?i2 ?i1 ? Ni1 ? ??i2
?i1 ? и ??i2 — результат использования первого способа индексации для ?i1 (1)
и ?i2 (2) ;
fi1 ? | ?i2 f?i2 = fi1 i2 , f?i2 | i1 ? fi1 ? = fi1 i2 .
135
4.1. Совместные распределения частот количественных признаков

В результате объединения двух последних равенств и перехода к непрерывному
случаю получаются известные формулы математической статистики об условных
распределениях:

f (x1 | x2 ) f (x2 ) = f (x1 , x2 ) = f (x2 | x1 ) f (x1 ),

из которых, в частности, следует тождество теоремы Байеса:

f (x1 | x2 ) f (x2 ) = f (x2 | x1 ) f (x1 ).

Далее, по определению,

FI(J ) | I(J) = ?I
? ?
(J) | I(J)
? ?
I (J) I(J)


— накопленные относительные частоты условного распределения. Правую часть
этого равенства можно преобразовать:

NI(J)+I NI(J)+I FI(J)+I(J)
? ? ?
N
(J ) (J)
FI(J ) | I(J) = = = ,
?
NI(J) NI(J) N FI(J)
? ? ? ?
I (J) I(J) I (J ) I(J)

т.е. для накопленных относительных частот получается соотношение такое же,
как и для плотностей относительных частот f :

(4.8)
FI(J) | I(J) FI(J) = FI(J)+I(J ) .
? ?


В непрерывном случае для двух признаков:

F (x1 | x2 )F (x2 ) = F (x1 , x2 ) = F (x2 | x1 )F (x1 ),
F (x1 | x2 )F (x2 ) = F (x2 | x1 )F (x1 ).

Количество параметров относительной частоты (также как и плотности отно-
сительной частоты и накопленной относительной частоты) ?I(J ) | I(J) условного
?
?
?
распределения признаков J по I(J) равно K J = kj — числу всех возмож-
?
J
? ?
ных сочетаний уровней признаков J . Таких условных распределений признаков J
имеется K J — для каждого возможного сочетания уровней факторов J . Так, при
n = 2 в таблице сопряженности структура каждого столбца (результат деления
элементов столбца на итоговый — сумму элементов) показывает относительные
частоты условного распределения 1-го признака по уровням 2-го признака (если
J = 2). Количество параметров относительной частоты каждого такого условного
136 Глава 4. Введение в анализ связей

распределения — k1 , а число столбцов — условных распределений — k2 . Анало-
гично — для строк таблицы сопряженности (если J = 1).
?
Маргинальное распределение признаков J может быть получено из этой со-
вокупности условных распределений (для плотностей относительных частот):

(4.9)
fI(J) = fI(J) | I(J) ?I(J)
? ?
J

или

fI(J) = fI(J) | I(J) fI(J) ?I(J) .
? ?
J

Действительно, в соответствии с (4.5)

fI(J) = fI(J)+I(J) ?I(J) ,
? ?
J

а, учитывая (4.7),

fI(J)+I(J) ?I(J) = fI(J) | I(J) ?I(J) .
? ?
J J

Соотношение, аналогичное (4.9), выполняется и для самих относительных ча-
стот:

(4.10)
?I(J ) = ?I(J ) | I(J) ?I(J)
? ?
J

(оно получается умножением обеих частей соотношения (4.9) на ?I(J) ), а вслед за
?
ним и для накопленных относительных частот:

(4.11)
FI(J ) = FI(J) | I(J) ?I(J) .
? ?
J

Такая связь условных и маргинального распределений наглядно иллюстриру-
ется таблицей сопряженности (для относительных частот). Очевидно, что средне-
взвешенный, по весам итоговой строки, вектор структур столбцов этой матрицы
алгебраически есть вектор структуры итогового столбца. Аналогично — для строк
этой матрицы (для условных и маргинального распределений 2-го признака).
В непрерывном случае при n = 2 соотношение (4.9) имеет вид:
? ?
f (x1 | x2 ) f (x2 ) dx2 , f (x2 | x1 ) f (x1 ) dx1 .
f (x1 ) = f (x2 ) =
?? ??
137
4.1. Совместные распределения частот количественных признаков

Если итоговые грани n-мерного прямоугольного параллелепипеда параметров
распределения (обобщения таблицы сопряженности), как отмечалось выше, дают
все возможные маргинальные распределения, то ортогональные «срезы» этого
параллелепипеда (как строки и столбцы таблицы сопряженности) представляют
все возможные условные распределения.
Условные распределения, сопоставляющие в определенном смысле вариации
?
признаков двух разных групп J и J , используются в анализе связей между этими
двумя группами признаков. При этом чрезвычайно важно понимать следующее.
Речь в данном случае не идет об анализе причинно-следственных связей, хотя фор-
?
мально изучается поведение признаков J при условии, что признаки J принимают
?
разные значения, т.е. признаки J выступают как бы «причиной», а признаки J —
«следствием». Направление влияния в таком анализе не может быть определено.
Это — предмет более тонких и сложных методов анализа. Более того, содержа-
тельно признаки этих групп могут быть не связаны, но, если они одновременно
зависят от каких-то других общих факторов, то в таком анализе связь между ними
может проявиться. Такие связи в статистике называют ложными корреляция-
ми (или ложными регрессиями). Поэтому всегда желательно, чтобы формальному
анализу зависимостей предшествовал содержательный, в котором были бы сфор-
мулированы теоретические гипотезы и построены теоретические модели. А ре-
зультаты формального анализа использовались бы для проверки этих гипотез. То
есть из двух задач статистического анализа связей, сформулированных в преамбуле
к этому разделу, предпочтительней постановка второй задачи.
?
Если признаки двух множеств J и J не зависят друг от друга, то очевид-
?
но, что условные распределения признаков J не должны меняться при изменении
уровней признаков J . Верно и обратное: если условные распределения признаков
? ?
J одинаковы для всех уровней I(J), то признаки двух множеств J и J не зависят
друг от друга. Таким образом, необходимым и достаточным условием независи-
?
мости признаков двух множеств J и J является неизменность совместных рас-
?
пределений признаков J при вариации уровней признаков J . Это условие можно
сформулировать и в симметричной форме: неизменность совместных распределе-
?
ний признаков J при вариации уровней признаков J .
Для таблицы сопряженности это условие означает, что структуры всех ее столб-
цов одинаковы. Одинаковы и структуры всех ее строк.
Итак, в случае независимости данных множеств признаков относительные ча-
стоты ?I(J) | I(J) не зависят от I(J) и их можно обозначить через ?I(J ) . Тогда
??
?
из соотношения (4.10) следует, что относительные частоты этого распределения
совпадают с относительными частотами соответствующего маргинального распре-
деления: ?I(J) = ?I(J) , т.к. ?I(J) = 1, и соотношения (4.6) приобретают вид:
?? ?
J

(4.12)
?I(J) ?I(J) = ?I(J)+I(J ) .
? ?
138 Глава 4. Введение в анализ связей

В случае двух признаков при использовании первого способа индексации:
?i1 ? ??i2 = ?i1 i2 .
Не сложно убедиться в том, что аналогичные соотношения в случае независи-
мости признаков выполняются и для f и F :

(4.13)
fI(J) fI(J) = fI(J)+I(J) ,
? ?


fi1 ? f?i2 = fi1 i2 , а в непрерывном случае: f (x1 )f (x2 ) = f (x1 , x2 ),

(4.14)
FI(J) FI(J) = FI(J)+I(J ) .
? ?


Fi1 ? F?i2 = Fi1 i2 , F (x1 )F (x2 ) = F (x1 , x2 ).
Любое из соотношений (4.12), (4.13), (4.14) является необходимым и достаточ-
?
ным условием независимости признаков J и J . Необходимость следует из самого
вывода этих соотношений. Достаточность легко показать, например, для (4.12).
Так, если выполняется (4.12), то в соответствии с (4.4):
?I(J )+I(J) ?I(J) ?I(J)
? ?
?I(J) | I(J) = = = ?I(J ) ,
? ?
?I(J) ?I(J)

?
т.е. условные распределения признаков J не зависят от уровней, которые занима-
?
ют признаки J , а это означает, что признаки J и J не зависят друг от друга.
?
Можно доказать, что из независимости признаков J и J следует взаимная
?
независимость признаков любого подмножества J с признаками любого подмно-
жества J .
Пусть J = J1 + J2 , тогда соотношение (4.12) можно переписать в форме:

?I(J) ?I(J1 )+I(J2 ) = ?I(J1 )+I(J2 )+I(J ) ,
? ?


и, просуммировав обе части этого выражения по J2 (т.е., в соответствии с введен-
ной операцией , — по всем уровням признаков J2 ), получить следующее:
J2

(4.4) (4.12) (4.4)
?I(J) ?I(J1 ) = ?I(J) ?I(J1 )+I(J2 ) = ?I(J1 )+I(J2 )+I(J) = ?I(J1 )+I(J) ,
? ? ? ?
J2 J2
т.е. ?I(J) ?I(J1 ) = ?I(J1 )+I(J ) , (4.15)
? ?

?
что означает независимость признаков J и J1 в рамках маргинального распреде-
?
ления признаков J + J1 .
? ? ?
Пусть теперь J = J1 + J2 . После проведения аналогичных операций с (4.15)
?
(в частности операции суммирования по J2 ) получается соотношение
139
4.1. Совместные распределения частот количественных признаков

?
?I(J1 ) ?I(J1 ) = ?I(J1 )+I(J1 ) , что означает независимость признаков J1 и J1 в рам-
? ?
? ?
ках маргинального распределения J1 + J1 . Что и требовалось доказать, т.к. J1
?
и J1 — любые подмножества J и J .
Пока речь шла о независимости двух множеств признаков. Точно так же можно
говорить и о независимости трех множеств.
?
Пусть G = J + J1 + J2 , где J = J1 + J2 . Необходимым и достаточным усло-
вием взаимной независимости этих трех множеств признаков является следующее
равенство:
(4.16)
?I(J) ?I(J1 ) ?I(J2 ) = ?I(J1 )+I(J2 )+I(J) .
? ?

Это соотношение получается, если в левой части (4.12) вместо ?I(J) записать
?I(J1 ) ?I(J2 ) , т.к. ?I(J1 ) ?I(J2 ) = ?I(J1 )+I(J2 ) ? ?I(J) — известное условие незави-
симости двух множеств признаков в рамках маргинального распределения призна-
ков J .
Необходимым и достаточным условием взаимной независимости всех призна-
ков, входящих в множество J служит следующее соотношение:
(4.17)
?I = ?ij (j) .
J

Это соотношение — результат завершения процесса дробления множеств при-
знаков, который начат переходом от (4.12) к (4.16).
Соотношения (4.12–4.14, 4.16–4.17) являются теоретическими. Оцененные
по выборочной совокупности параметры совместных распределений, даже если со-
ответствующие множества признаков независимы друг от друга, не могут обеспе-
чить точное выполнение этих соотношений, поскольку они (параметры эмпириче-
ских распределений) являются случайными величинами. Критерий независимости
строится как определенный показатель (статистика), характеризующий степень
нарушения равенств в указанных соотношениях. Использование этого критерия
осуществляется как проверка статистической гипотезы (нулевая гипотеза: призна-
ки данных групп не зависимы), логика которой описана в конце пункта 2.4. Данный
критерий входит в группу критериев согласия и называется критерием Пирсона,
или ?2 (критерием хи-квадрат).
Показатели (статистики) этого критерия — ?2 («c » — calculated, «l » — ко-
c
l
личество множеств признаков),— называемые иногда выборочными среднеквад-
ратическими сопряженностями признаков, рассчитываются на основе (4.12),
(4.16), (4.17) следующим образом:
2
?I(J)+I(J) ? ?I(J) ?I(J)
? ?
?2 = N
c
,
2
?I(J) ?I(J)
?
?
J,J
140 Глава 4. Введение в анализ связей

2
?I(J1 )+I(J2 )+I(J) ? ?I(J) ?I(J1 ) ?I(J2 )
? ?
?2 = N
c
,
3
?I(J) ?I(J1 ) ?I(J2 )
?
?
J1 ,J2 ,J
2
?I ? ?ij (j)
?2
c J
=N .
n
?ij (j)
G
J

Если признаки не зависимы, то соответствующая статистика критерия име-
ет известное распределение, называемое ?2 -распределением (см. Приложе-
ние A.3.2). Данное распределение имеет один параметр — число степеней сво-
боды df (degrees free), показывающее количество независимых случайных ве-
личин, квадраты которых входят в сумму. Так, в статистику ?2 входят квадраты
c
2
?
K (K J K J ) величин ?I(J)+I(J) ? ?I(J) ?I(J) , но не все они независимы, т.к. удовле-
? ?
творяют целому ряду линейных соотношений.
Действительно, например:

(?I(J)+I(J) ? ?I(J) ?I(J) ) = 0K J ,
? ?
?
J

где 0K J — матричный нуль, имеющий размерность K J . То есть K J величин
?I(J)+IK (J) ??IK (J ) ?I(J) линейно выражаются через другие величины. Пусть мно-
? ?
жество этих величин обозначается ?I(J) .
Аналогично, исходные величины ?I(J)+I(J ) ? ?I(J ) ?I(J) можно суммировать
? ?
?
по J и установить, что K J величин ?IK (J)+I(J ) ? ?I(J ) ?IK (J) линейно выража-
? ?
ются через остальные; их множество можно обозначить ?I(J) . ?
Эти два множества ?I(J) и ?I(J) имеют один общий элемент: ?IK (J)+IK (J) ?
? ?
? ?IK (J) ?IK (J) . Таким образом, количество степеней свободы df2 (при l = 2) рав-
?
? ?
но K ? K J ? K J + 1 = (K J ? 1)(K J ? 1). Аналогично рассуждая, можно устано-
?
вить, что df3 = (K J ? 1)(K J1 ? 1)(K J2 ? 1), dfL = (kj ? 1).
J
Итак, чтобы ответить на вопрос, являются ли независимыми изучаемые множе-
ства признаков, необходимо расчетное значение статистики ?2 сравнить со зна-
c
l
чением 95-процентного квантиля ?2 l -распределения (в п. 2.4 отмечалось, что
df
в статистике вполне приемлемым считается 95-процентный уровень доверия), ко-
торый обозначается ?2 l , 0.95 (это — односторонний квантиль, так как плотность
df
2 -распределения расположена в положительной области значений случайной ве-
?
личины и не симметрична). Значения этих квантилей находят в соответствующих
статистических таблицах и называют теоретическими, или табличными. Если рас-
четное значение не превышает табличное (т.е. является достаточно малым), то ну-
левая гипотеза не отвергается и данные множества признаков считаются незави-
141
4.2. Регрессионный анализ

симыми. Если расчетное значение больше табличного, то множества признаков
определяются как зависимые между собой с уровнем ошибки 5%.
Современные пакеты прикладных статистических программ избавляют от необ-
ходимости пользоваться статистическими таблицами, т.к. расчет статистики кри-
терия сопровождается оценкой уровня его значимости sl (significance level).
Для некоторых критериев этот показатель называется значением вероятности pv
(probability value). Уровень значимости sl — это такое число, что

?2 = ?2 l ,1?sl .
c
l df

То есть нулевая гипотеза отвергается с вероятностью ошибки 0.05, если sl < 0.05.
В случае 2-х признаков среднеквадратичная сопряженность имеет следующий
вид (здесь и ниже используется 1-й способ обозначений):

(?i1 i2 ? ?i1 ? ??i2 )2
?2
c
=N ,
2
?i1 ? ??i2
i1 ,i2

а соответствующее ей ?2 -распределение имеет (k1 ? 1)(k2 ? 1) степеней свободы;
множество ?i1 ? образовано величинами ?i1 k2 ? ?i1 ? ??k2 , i1 = 1, . . . , k1 , множе-
ство ??i2 — величинами ?k1 i2 ? ?k1 ? ??i2 , i2 = 1, . . . , k2 , общим для них является
элемент ?k1 k2 ? ?k1 ? ??k2 .
Далее в этой главе рассматривается в основном случай двух признаков.


4.2. Регрессионный анализ
В качестве значений признаков xi1 ? и x?i2 на полуинтервалах, как и преж-
де, принимаются середины этих полуинтервалов. Средние и дисперсии признаков
рассчитываются по известным формулам:

x1 =
? xi1 ? ?i1 ? , x2 =
? x?i2 ??i2 ;
(xi1 ???1 )2 ?i1 ? , (x?i2 ? x2 )2 ??i2 или, более компактно,
s2 = s2 = ?
1 2
x

s2 = x21 ? ?i1 ? , s2 = x2 2 ??i2 .
?i ??i
1 2

Важной характеристикой совместного распределения двух признаков является
ковариация — совместный центральный момент 2-го порядка:

m12 = xi1 ? x?i2 ?i1 i2 .
??

Дисперсия — частный случай ковариации (ковариация признака с самим со-
бой), поэтому для обозначения дисперсии j-го признака часто используется mjj .
142 Глава 4. Введение в анализ связей

В случае независимости признаков, когда ?i1 i2 = ?i1 ? ??i2 , как несложно убе-
диться, ковариация равна нулю. Равенство ковариации нулю2 является необходи-
мым, но не достаточным условием независимости признаков, т.к. ковариация —
характеристика только линейной связи. Если ковариация равна нулю, признаки
линейно независимы, но какая-то другая форма зависимости между ними может
существовать.
Мерой линейной зависимости является относительная ковариация, называемая
коэффициентом корреляции:
m12
r12 = v .
m11 m22

Этот коэффициент по абсолютной величине не превышает единицу (этот факт
доказывается ниже). Если его значение близко к нулю, то признаки линейно неза-
висимы, если близко к плюс единице — между признаками существует прямая
линейная зависимость, если близко к минус единице — существует обратная ли-
нейная зависимость. В частности, легко убедиться в том, что если xi1 ? = ±a12 x?i2
? ?
(т.е. между признаками имеет место линейная зависимость), то r12 = ±1.
Значения ковариаций и коэффициентов корреляции симметричны: m12 = m21 ,
= r21 .
r12
В дальнейшем рассуждения проводятся так, как будто 1-й признак зависит
от 2-го (хотя с тем же успехом можно было бы говорить о зависимости 2-го при-
знака от 1-го). В таком случае переменная x1 (значения 1-го признака) называется
объясняемой, моделируемой, эндогенной, а переменная x2 (значения 2-го при-
знака) — объясняющей, факторной, экзогенной.
Наряду с общей средней 1-го признака x1 полезно рассчитать условные сред-
?
ние x1 | ?i2 3 — средние 1-го признака при условии, что 2-й признак зафиксирован
?
на определенном уровне i2 . При расчете таких средних усреднение значений при-
знака на полуинтервалах проводится по относительным частотам не маргинального
(?i1 ? ), а соответствующих условных распределений (?i1 ? | ?i2 ):

x1 | ?i2 =
? xi1 ? ?i1 ? | ?i2 .

Усреднение этих величин по весам маргинального распределения 2-го признака
дает общее среднее:

x1 =
? xi1 ? ?i1 ? = xi1 ? ?i1 i2 = xi1 ? ?i1 ? | ?i2 ??i2 = x1 | ?i2 ??i2 .
?
i1 i2 i1 i2 i1 i2

2
Равенство или неравенство нулю понимается в статистическом смысле: не отвергается или от-
вергается соответствующая нулевая гипотеза.
? ??
3
В общем случае вектор условных средних признаков J обозначается xJ/I(J ) .
143
4.2. Регрессионный анализ

В непрерывном случае эти формулы принимают вид:

? ?
E (x1 |x2 ) = x1 f (x1 |x2 ) dx1 , E (x1 |x2 ) f (x2 ) dx2 .
E (x1 ) =
?? ??


(Об условных и маргинальных распределениях см. Приложение A.3.1.)
Условные дисперсии признака рассчитываются следующим образом:

2
s2 | ?i2 = xi1 ? ? x1 |? i2
? ?i1 ? | ?i2 .
1


Отклонения фактических значений признака от условных средних

ei1 ? | ?i2 = xi1 ? ? x1 | ?i2
?

обладают, по определению, следующими свойствами:
а) их средние равны нулю:

ei1 ? | ?i2 ?i1 ? | ?i2 = 0,

б) их дисперсии, совпадающие с условными дисперсиями признака, минималь-
ны (суммы их квадратов минимальны среди сумм квадратов отклонений от каких-
либо фиксированных значений признака — наличие этого свойства у дисперсий
доказывалось в п. 2.4):

(xi1 ? ? c)2 ?i1 ? | ?i2 .

<<

стр. 5
(всего 28)

СОДЕРЖАНИЕ

>>