<<

стр. 3
(всего 28)

СОДЕРЖАНИЕ

>>

полуинтервале, медиану определяют по следующей формуле:

0.5 ? Fl?1
x0.5 = zl?1 + ?l .
?l

Ее смысл поясняется на графике (рис. 2.8). Этот график является фрагментом
кумуляты.
o
Мода, обозначаемая в данном тексте через x, показывает наиболее вероят-
ное значение признака. Это — значение величины в «пике» функции плотности
распределения вероятности (см. Приложение A.3.1):

o
f x = max f (x).
x
67
2.3. Медиана, мода, квантили

Величины с унимодальным распределением имеют одну моду, полимодальные
распределения характеризуются несколькими модами. Непосредственно по вы-
борке, если все ее значения различны, величину моды определить невозможно.
Если какое-то значение встречается в выборке несколько раз, то именно его —
по определению — принимают за моду. В общем случае моду ряда наблюдений
находят по данным эмпирического распреде-
ления частот.
Пусть l-й полуинтервал является модаль-
f1
ным, т.е. fl > fl?1 и fl > fl+1 (во избежание
fl+1
непринципиальных уточнений случай « » не
рассматривается). Функция плотности веро- fl–1
ятности аппроксимируется параболой, прохо-
x1
дящей через середины ступенек гистограммы,
и ее максимум определяет положение искомой
моды. График (рис. 2.9) поясняет сказанное. zl–1 zl zl+1
zl–2 –
1 x2
2 –
x2 m22

В случае если размеры полуинтервалов ?l?1 , – o
x x
?l и ?l+1 одинаковы и равны ?, такая про-
цедура приводит к определению моды по фор-
Рис. 2.9
муле:
fl ? fl?1
o
x= zl?1 + ? .
(fl ? fl?1 ) + (fl ? fl+1 )

В справедливости этой формулы несложно убедиться. Действительно, коэффициен-
ты a, b и c аппроксимирующей параболы ax2 + bx + c удовлетворяют следующей
системе уравнений:
?
x2
? a?l?1 + b?l?1 + c = fl?1 ,
x
a(?l?1 + ?)2 + b(?l?1 + ?) + c = fl ,
x x
? 2
a(?l?1 + 2?) + b(?l?1 + 2?) + c = fl+1 .
x x

Если из второго уравнения вычесть первое, а затем третье, то получится более
простая система из двух уравнений:

?(a(2?l?1 + ?) + b) = fl ? fl?1 ,
x
?(a(?2?l?1 ? 3?) ? b) = fl ? fl+1 .
x

Первое из этих уравнений дает выражение для b через a :
fl ? fl?1
? a (2?l?1 + ?),
b= x
?
а их сумма — выражение для определения параметра a :

?2a?2 = (fl ? fl?1 ) + (fl ? fl+1 ).
68 Глава 2. Описательная статистика

Очевидно, что a отрицательно, и поэтому парабола имеет максимум в точке ?b 2a
o
(в этой точке производная 2ax + b равна нулю), т.е. x= ?b 2a , и после подстановки
?
сюда полученных выражений для b и a, учитывая, что xl?1 + = zl?1 , получается
?
2
искомая формула.

Все три характеристики центра распределения: мода, медиана, среднее — на-
ходятся в определенных соотношениях между собой.
В случае идеальной (теоретически) симметрии

f (x0.5 + ?) = f (x0.5 ? ?) (2.5)

при любом ? 0, все эти три характеристики совпадают.

Доказательство этого утверждения проводится для теоретической функции плотно-
сти распределения f (x), в предположении, что она является гладкой, т.е. непрерыв-
ной и непрерывно дифференцируемой.
Дифференцирование выражения (2.5) по ? в точке 0 дает условие f (x0.5 ) =
= ?f (x0.5 ), из чего, в силу непрерывной дифференцируемости f , следует ра-
венство нулю производной в точке x0.5 . И поскольку распределение унимодально,
то мода совпадает с медианой.
Теперь доказывается совпадение математического ожидания с медианой. Для слу-
чайной величины x ? x0.5 с той же функцией распределения плотности f (x), в силу
+?
того, что f (x) = 1, имеет место следующее тождество:
??

+?

E (x) ? x0.5 = (x ? x0.5 ) f (x) dx.
??


Его правая часть разбивается на два слагаемых и преобразуется следующим образом:
+?
x0.5

E(x) ? x0.5 = (x ? x0.5 ) f (x) dx + (x ? x0.5 ) f (x) dx =
?? x0.5

(в первом слагаемом производится замена переменных x ? x0.5 = ?? и переста-
0 +?
>?
новка пределов интегрирования , во 2-м слагаемом — замена пере-
+? 0
менных x ? x0.5 = ?)
+? +?

=? ?f (x0.5 ? ?) d? + ?f (x0.5 + ?) d? =
0 0
69
2.3. Медиана, мода, квантили

(вводя соответствующие обозначения)

= ?A? + A+ . (2.6)

Поскольку выполнено условие симметричности распределения (2.5), A? = A+
и математическое ожидание (среднее) совпадает с медианой. Это завершает рас-
смотрение случая симметричных распределений.

Для асимметричных распределений указанные три характеристики различа-
ются, но так, что медиана всегда находится между средней и модой. При правой
асимметрии
o
x < x0.5 < x,
?

при левой асимметрии, наоборот,
o
x < x0.5 <x .
?
В этом легко убедиться. Пусть речь идет, например, о правой асимметрии. Распреде-
ление скошено в сторону больших значений случайной величины-признака, поэтому
A? < A+ (это соотношение можно рассматривать в качестве определения правой
асимметрии), и, в силу выполнения тождества (2.6), среднее должно превышать
медиану: x0.5 < E(x), (x0.5 < x).
?
Условие A? < A+ может выполняться только в случае, если при достаточно боль-
ших ? имеет место неравенство f (x0.5 + ?) > f (x0.5 ? ?) (веса больших зна-
чений признака больше, чем веса равноудаленных от медианы малых значений).
Но тогда для малых ?, т.е. в окрестности медианы, должно иметь место обратное
+? +?
f (x0.5 ? ?) d? =
неравенство (поскольку f (x0.5 + ?) d? = 0.5):
0 0

f (x0.5 ? ?) > f (x0.5 + ?),
o
а это означает, что мода смещена влево от медианы: x < x0.5 .
Проведенное рассуждение о положении моды относительно медианы не являет-
ся строгим, оно предполагает как бы «плавный» переход от симметрии к правой
асимметрии. При строгом доказательстве существенную роль играет предположе-
ние об унимодальности распределения.
Случай левой асимметрии рассматривается аналогично.

Для больших выборок, как правило, подтверждается еще одно утверждение
об относительном расположении трех рассматриваемых характеристик: при уме-
ренной асимметрии мода удалена от медианы на расстояние приблизительно в 2 ра-
за большее, чем среднее. То есть
o
x ?x0.5 ? 2 | x ? x0.5 |.
?
70 Глава 2. Описательная статистика

Для того чтобы легче запомнить приведенные здесь соотношения, можно ис-
пользовать следующее мнемоническое правило. Порядок следования среднего, ме-
дианы и моды (при левой асимметрии) такой же, как слов mean, median, mode
в английском словаре (при правой асимметрии порядок обратный). Причем, как
и соответствующие им статистические характеристики, слово mean расположено
в словаре ближе к median, чем mode.
Квантилем называют число (детерминированное), делящее совокупность
в определенной пропорции. Так, квантиль xF (используемое в данном тексте обо-
значение квантиля) делит совокупность в пропорции (верхняя часть к нижней)
1 ? F к F (см. Приложение A.3.1):
xF

xF ) = F или F (xF ) =
P (x f (x) dx = F .
??

В эмпирическом распределении все границы полуинтервалов являются кван-
тилями: zl = xFl . По данным этого распределения можно найти любой квантиль
xF с помощью приема, использованного выше при нахождении медианы. Если l-й
полуинтервал является квантильным, т.е. Fl?1 < F Fl , то
F ? Fl?1
xF = zl?1 + ?l .
?l
Иногда квантилями называют только такие числа, которые делят совокупность
на равные части. Такими квантилями являются, например, медиана x0.5 , делящая
совокупность пополам, квартили x0.25 , x0.5 , x0.75 , которые делят совокупность
на четыре равные части, децили x0.1 , . . . , x0.9 , процентили x0.01 , . . . , x0.99 .
Для совокупностей с симметричным распределением и нулевым средним (со-
ответственно, с нулевой модой и медианой) используют понятие двустороннего
квантиля xF :
?
?
xF

xF ) = F (?F ) ? F (??F ) =
P (??F
x x ? x x f (x) dx = F .
??F
x



2.4. Моменты и другие характеристики
распределения
Моментом q-го порядка относительно c признака x называют величину
(q и c — величины детерминированные)
N
1
(xi ? c)q ,
m (q, c) =
N i=1
71
2.4. Моменты и другие характеристики распределения

в случае, если она рассчитывается непосредственно по выборке;
k k
q
fl (?l ? c)q ?l ,
?l (?l ? c) =
m (q, c) = x x
l=1 l=1

если используются данные эмпирического распределения частот;
+?
f (x) (x ? c)q dx = E((x ? c)q )
µ (q, c) =
??

— для теоретического распределения вероятности (cм. Приложение A.3.1).
В эконометрии для обозначения теоретических или «истинных» значений ве-
личины (в генеральной совокупности) часто используются буквы греческого алфа-
вита, а для обозначения их эмпирических значений (полученных по выборке) или
их оценок — соответствующие буквы латинского алфавита. Поэтому здесь в пер-
вых двух случаях момент обозначается через m, а в третьем случае — через µ.
В качестве общей формулы эмпирического момента (объединяющей первые два
случая) будет использоваться следующая:
N
?i (xi ? c)q .
m (q, c) =
i=1

В принципе, моменты могут рассчитываться относительно любых c, однако
в статистике наиболее употребительны моменты, рассчитанные при c, равном нулю
или среднему. В первом случае моменты называют начальными, во втором —
центральными. В расчете центральных моментов используются величины xi ? x, ?
которые часто называют центрированными наблюдениями и обозначают через xi .?
Средняя является начальным моментом 1-го порядка:

x = m (1, 0),
?
E (x) = µ (1, 0).

Благодаря этому обстоятельству центральные моменты при целых q всегда
можно выразить через начальные моменты. Для этого надо раскрыть скобки (воз-
вести в степень q) в выражении центрального момента.
Центральный момент 2-го порядка или 2-й центральный момент называется
дисперсией и обозначается через s2 (эмпирическая дисперсия) или ? 2 (теорети-
ческая дисперсия):

s2 = m (2, x) ,
?
? 2 = µ (2, E (x)) .
72 Глава 2. Описательная статистика

При вычислении дисперсии иногда удобнее пользоваться начальным моментом
2-го порядка. Связь с ним устанавливается следующим образом:

?i (xi ? x)2 =
s2 = ?i x2 ? 2? ?i xi +?2 =
? x x
i
<? ?>
?
?
x
?i x2 ? x2 = m (2, 0) ? m2 (1, 0) .
= ?
i


Корень квадратный из дисперсии — s или ? — является среднеквадрати-
ческим отклонением, иногда (главным образом, в англоязычной литературе) его
называют стандартным отклонением.
Величины xi s называют центрированными и нормированными наблюдени-
?
ями. Они измеряют значения признака в единицах среднеквадратического откло-
нения от среднего. Такая шкала измерения иногда называется стандартизованной
или стандартизированной.
Дисперсия (и среднеквадратическое отклонение) является мерой абсолютного
рассеяния или разброса значений признака в совокупности. В принципе такой ме-
рой мог бы служить 2-й момент относительно какого-то другого c, не равного x,
?
но лежащего в центральной области распределения признака. Однако используют
именно дисперсию, поскольку ее величина однозначно определена и, в некотором
смысле, не зависит от c. Дисперсия минимальна среди всех 2-х моментов относи-
тельно c.

Действительно, производная 2-го момента по c

(x ? c)2 f (x)dx
d
= ?2 xf (x)dx ? c = ?2 (E(x) ? c)
f (x)dx
dc

равна 0 в точке c = E(x). Это точка минимума, поскольку 2-я производная по c
в ней равна 2, т.е. положительна.

В статистике используются и другие показатели разброса. Примерами показа-
телей абсолютного разброса являются:

max xi ? min xi
— общий размах вариации,
2
x1?F ? xF
— квантильный размах вариации, где F < 0.5 (достаточно
2
часто используется квартильный размах вариации, то есть этот показатель
при F = 0.25),

?i |?i | — среднее линейное отклонение.
x
73
2.4. Моменты и другие характеристики распределения

Среднее линейное отклонение имеет смысл рассчитывать не относительно сред-
него x, а относительно медианы x0.5 , поскольку именно в таком случае оно при-
?
нимает минимально возможное значение.

Действительно, производная по c среднего линейного отклонения относительно c

+?
c
(c ? x) f (x) dx + (x ? c) f (x) dx
d
|x ? c| f (x) dx
d ?? c
= =
dc dc
+?
c

f (x) dx ?
= f (x) dx
?? c

равна 0 при c = x0.5 (2-я производная в этой точке равна 2f (x0.5 ) и положительна
по определению функции f ).

Для характеристики относительного разброса применяются различные фор-
мы коэффициента вариации. Например, он может рассчитываться как отношение
среднего квадратичного отношения к среднему, общего или квантильного размаха
вариации к медиане. Иногда его рассчитывают как отношения max xi к min xi
или x1?F к xF (при F < 0.5).
Достаточно распространен еще один тип коэффициентов вариации, которые
рассчитываются как отношения средней по верхней части совокупности к средней
по нижней части совокупности.

Для того чтобы дать определение таким коэффициентам вариации, необходимо вве-
сти понятие среднего по части совокупности.
Математическое ожидание можно представить в следующей форме:
+?
xF
1 1
xf (x) dx + (1 ? F )
E (x) = F xf (x) dx =
1?F
F
?? xF

= F EF (x) + (1 ? F ) E+ (x) .
F

Квантиль xF делит совокупность на две части, по каждой из которых определяется
свое математическое ожидание:
EF (x) — по нижней части,
E+ (x) — по верхней части совокупности.
F

Приведенное тождество определяет связь между двумя этими математическими ожи-
даниями:
1
E+ (x) = (E (x) ? F EF (x)).
1?F
F
74 Глава 2. Описательная статистика

По выборке аналогичные частичные средние рассчитываются следующим образом.
Пусть xi , i = 1, . . . , N ряд наблюдений, упорядоченный по возрастанию. Тогда
i
, i = 1, . . . , N — накопленные относительные частоты,
Fi =
N
i
1
xi — i-я средняя по нижней части, i = 1, . . . , N
xi =
? (?0 = 0) ,
x
i
i =1
N
1 1
x+ (? ? Fi xi ) — i-я средняя по верхней части,
?i = xi = x ?
N ?i 1 ? Fi
i =i+1

x+ = 0 .
i = 0, 1, . . . , N ?N

Такой расчет не имеет необходимой иногда степени общности, поскольку позволяет
найти частичные средние лишь для некоторых квантилей, которыми в данном случае
являются сами наблюдения (xi = xFi ). Для квантилей xF при любых F частич-
ные средние находятся по данным эмпирического распределения (предполагается,
что l-й полуинтервал является квантильным):
l?1
1 1
?l xl + (F ? Fl?1 )
xF =
? ? (zl?1 + xF )
F 2
l =1

— средняя по нижней части совокупности (здесь 1 (zl?1 + xF ) — центр последне-
2
го, неполного полуинтервала, F ? Fl?1 — его вес). После подстановки выражения
для квантиля xF , полученного в предыдущем пункте, эта формула приобретает сле-
дующий вид:
l?1
F ? Fl?1
1
?l xl + (F ? Fl?1 ) zl?1 +
xF =
? ? ?l .
F 2?i
l =1


При расчете средней по верхней части совокупности проще воспользоваться полу-
ченной выше формулой:
1
x+ = (? ? F xF ).
?F x ?
1?F

Для расчета квантильного коэффициента вариации совокупность делится на 3 ча-
сти: верхняя часть, объемом не более половины, нижняя часть такого же объема
и средняя часть, не используемая в расчете. Данный коэффициент, называемый
F ? 100-процентным (например, 15-процентным), рассчитывается как отношение
средних по верхней и нижней части совокупности:
x+ x ? (1 ? F ) x1?F
?1?F ? ?
= ,
xF
? F xF
?
E+ (x) E (x) ? (1 ? F ) E1?F (x)
1?F
, где F
= 0.5.
EF (x) F EF (x)
75
2.4. Моменты и другие характеристики распределения

При использовании непосредственно данных выборки эта формула имеет другой вид:

x+ ?i x ? (1 ? Fi ) xN ?i
?N ? ? N
, где i
= .
xi
? Fi xi
? 2

Такие коэффициенты вариации называют иногда, как и соответствующие квантили,
медианными, если F = 0.5, квартильными, если F = 0.25, децильными, если
F = 0.1, процентильными, если F = 0.01. Наиболее употребительны децильные
коэффициенты вариации.
При расчете коэффициентов вариации в любой из приведенных форм предпола-
гается, что характеризуемый признак может принимать только неотрицательные
значения.

Существует еще один — графический —
способ представления степени разброса зна-

Накопленные доли суммар-
чений признака в совокупности. Он исполь-

ного признака (%%)
зуется для совокупностей объемных призна-
ков, принимающих положительные значения.
Это — кривая Лоренца или кривая концен-
Кривая
трации. По абсциссе расположены доли на-
Лоренца
копленной частоты, по ординате — доли на-
Накопленные относительные
копленного суммарного признака. Она име-
частоты (%%)
ет вид, изображенный на графике (рис. 2.10).
Чем более выпукла кривая, тем сильнее диф- Рис. 2.10
ференцирован признак.

По оси абсцисс кривой Лоренца расположены значения величины F ? 100%, по оси
ординат — в случае использования теоретического распределения — значения ве-
личины:
xF
xf (x) dx
0
? 100%
+?
xf (x) dx
0

(предполагается, что x 0), или, используя введенные выше обозначения для ча-
стичных средних,
EF (x)
? 100%.
F
E (x)

При использовании данных эмпирического распределения по оси ординат располо-
жены значения величины
xF
?
? 100%.
F
x
?
76 Глава 2. Описательная статистика

При построении кривой непосредственно по данным ряда наблюдений сначала на гра-
фике проставляются точки
xi
?
Fi ? 100%, Fi ? 100% , i = 1, . . . , N,
x
?
а затем они соединяются отрезками прямой линии.
В случае, если значение признака в совокупности не варьируется, средние по всем ее
частям одинаковы, и кривая Лоренца является отрезком прямой линии (пунктирная
линия на рис. 2.10). Чем выше вариация значений признака, тем более выпукла
кривая. Степень ее выпуклости или площадь выделенной на рисунке области может
являться мерой относительного разброса.
Кривую Лоренца принято использовать для иллюстрации распределения дохода или
имущества в совокупностях людей, представляющих собой население отдельных
стран или регионов. Отсюда ее второе название — кривая концентрации. Она вы-
ражает степень концентрации богатства в руках меньшинства.

В статистике центральные моменты q-го порядка обычно обозначаются через
mq (µq — для теоретических величин):
mq = m(q, x) (µq = µ(q, E(x)).
?

Нормированный центральный момент 3-го порядка
m3 µ3
d3 = ?3 =
s3 ?3
часто используется как мера асимметрии (скошенности) распределения. Если рас-
пределение симметрично, то этот показатель равен нулю. В случае его положи-
тельности считается, что распределение имеет правую асимметрию, при отрица-
тельности — левую асимметрию (см. Приложение A.3.1).
Следует иметь в виду, что такое определение левой и правой асимметрии может
не соответствовать определению, данному в предыдущем пункте. Возможны такие
ситуации, когда распределение имеет правую асимметрию, и среднее превышает
медиану, но данный показатель отрицателен. И наоборот, среднее меньше медианы
(левая асимметрия), но этот показатель положителен.
В этом можно убедиться, рассуждая следующим образом.
Пусть ?(x) — функция плотности вероятности симметричного относительно нуля
распределения с дисперсией ? 2 , т.е.
+? +? +?

x2 ? (x) dx = ? 2 , x3 ? (x) dx = 0,
x? (x) dx = 0,
?? ?? ??
0 +?

? (x) dx = ? (x) dx = 0.5, ?(x) = ?(?x).
?? 0
77
2.4. Моменты и другие характеристики распределения

??



–a
x
0 a




Рис. 2.11




Рассматривается случайная величина x, имеющая функцию плотности вероятности
f (x) = ?(x) + ???(x).

Функция ?? вносит асимметрию в распределение x. Ее график имеет вид —
сплошная линия на рисунке 2.11, а свойства таковы:

+? 0 +?

??(x) = ???(?x), ?? (x) dx = 0, ?? (x) dx = ?? (x) dx = 0.
?? ?? 0


Параметр ? не должен быть слишком большим по абсолютной величине, чтобы со-
хранялась унимодальность распределения (и, конечно же, неотрицательность функ-
ции плотности).

Можно обозначить

+?
a

? ?? (x) dx = ?? (a + x) dx = S > 0
0 0


и определить величины a1 и a2 :

+?
a

x?? (x) dx = ?a1 S, x?? (a + x) dx = a2 S.
0 0




Понятно, что a1 — математическое ожидание случайной величины, заданной на от-
1
резке [0, a] и имеющей плотность распределения ? S ?? (x), поэтому 0 < a1 < a.
Аналогично, a2 — математическое ожидание случайной величины, заданной на от-
1
резке [0, ?] с плотностью вероятности S ?? (a + x), поэтому 0 < a2 .
78 Глава 2. Описательная статистика

Теперь легко видеть, что (вводя дополнительное обозначение a3 )

+? +? +?
a
x=a+y
?a1 S + a ??(a + y) dy +
x??(x) dx = x??(x) dx + x??(x) dx =
0 0 0
a
<? ? ? ?>
??? <? ? ? ? ?
? ? ? ? ?>
?a1 S S
+?

+ y?? (a + y) dy = S (?a1 + a + a2 ) = a3 > 0.
0
<? ? ? ? ? ?
? ? ? ? ? ?>
a2 S



Аналогичным образом можно доказать, что

+?

x3 ?? (x) dx = a4 > 0.
0



Прибавление ??? к ? не меняет медиану, т.к.

+? +? +?

f (x) dx = ? (x) dx + ? ?? (x) dx = 0.5,
0 0 0
<? ? ?
? ? ?> <? ? ? ?>
???
0.5 0


но сдвигает среднее (из нуля):

+? +? +?

E (x) = xf (x) dx = x? (x) dx + ? x?? (x) dx =
?? ?? ??
<? ? ? ?>
???
0
? ?
?0 ?
? ?
+?
? ?
=?? x?? (x) dx? = 2?a3 .
x?? (x) dx +
? ?
? ?
??? ?
0
<? ? ? ?> <? ? ? ?>
????? ?????
a3 a3



Таким образом, в соответствии с данным выше определением, если ? > 0, распре-
деление имеет правую асимметрию (увеличивается плотность вероятности больших
значений признака), и среднее, будучи положительным, выше медианы. Если ? < 0,
распределение характеризуется левой асимметрией, и среднее ниже медианы.
79
2.4. Моменты и другие характеристики распределения

Теперь находится 3-й центральный момент:

+?
3
(x ? E (x)) f (x) dx =
µ3 =
??
+? +? +?

x3 f (x) dx ? 3E (x) x2 f (x) dx + 3E2 (x) xf (x)dx ? E3 (x) =
=
?? ?? ??
<? ? ? ? ? ? ? ? ?>
? ? ? ? ?3 ? ? ? ? ?
2E (x)
+? +? +? +?

x3 ?(x)dx +? x3 ??(x)dx ?3E(x) x2 ?(x)dx +? x2 ??(x)dx +
=
?? ?? ?? ??
<?? ?>
???? <? ? ? ?>
????? <???>
? ?2 ?
? <? ? ? ?>
?????
0 2a4 0
?
E(x)=2?a3
+ 2E3 (x) 2?(a4 ? 3a3 ? 2 + 8? 2 a3 =2? (D + R),
= 3

где D = a4 ? 3a3 ? 2 , R = 8? 2 a3 .
3

Второе слагаемое в скобках — R — всегда положительно, и, если D (первое сла-
гаемое) неотрицательно, то введенный показатель асимметрии «работает» правиль-
но: если он положителен, то асимметрия — правая, если отрицателен, то — левая.
Однако D может быть отрицательным. Это легко показать.
a4
Пусть при заданном ?? эта величина положительна (в этом случае > 1).
3a3 ? 2
Сжатием графика этой функции к началу координат (пунктирная линия на рис. 2.11)
всегда можно добиться смены знака данной величины.
Преобразованная (сжатая) функция асимметрии ?? связана с исходной функцией
?
следующим образом:

?? (x) = ?? (kx), где k > 1.
?

Свойства этой новой функции те же, что и исходной, и поэтому все проведенные выше
рассуждения для новой случайной величины с функцией плотности ? + ??? дадут?
?
те же результаты. Новая величина D, обозначаемая теперь D, связана с исходными
величинами следующим образом:

1 1
D = a4 ? 3?3 ? 2 = 2 a ? 3a3 ? 2
?? a 24
k k
+? +?
1 1
kx=y, x= k y, dx= k dy
1 1
например, a3 =
? x?? (kx) dx = y?? (y) dy = a3
k2 k2
0 0

a4
и при k > > 1 она отрицательна.
3a3 ? 2
80 Глава 2. Описательная статистика


Таблица 2.1

?3 ?2 ?1 0 1 2 3
X

0.0625 0.125 0.1875 0.25 0.1875 0.125 0.0625
?

?? 0 ?1 1 0 ?1 1 0

??
? ?0.2 ?1 1 0 ?1 1 0.2


? ? ?
В такой ситуации (если ? достаточно мал, и вслед за D отрицательно и D + R)
3-й центральный момент оказывается отрицательным при правой асимметрии и по-
ложительным при левой асимметрии.

Можно привести числовой пример совокупности с правой асимметрией, 3-й цен-
тральный момент которой отрицателен. Исходные данные приведены в таблице 2.1.
При ? = 0.03 среднее равно 0.06 (превышает медиану, равную 0), а 3-й цен-
тральный момент равен ?0.187. Но стоит немного растянуть функцию асимметрии
от начала координат (последняя строка таблицы), как ситуация приходит в норму.
При том же ? среднее становится равным 0.108, а 3-й центральный момент равен
+0.097.

Проведенный анализ обладает достаточной степенью общности, т.к. любую функцию
плотности вероятности f можно представить как сумму функций ? и ?? с указан-
ными выше свойствами (при этом ? = 1). Эти функции определяются следующим
образом (предполагается, что медиана для функции f равна 0):
1 1
(f (x) + f (?x)) , ?? (x) = (f (x) ? f (?x)).
? (x) =
2 2

Таким образом, если асимметрия «сосредоточена» вблизи от центра распределения
(функция асимметрии ?? достаточно «поджата» к медиане), то 3-й центральный
момент не может играть роль показателя асимметрии.
o
(? ? x)
x
Надежным показателем асимметрии является величина или, учитывая
s
приведенную в предыдущем пункте эмпирическую закономерность в расположении
3 (? ? x0.5 )
x
моды, медианы и среднего, .
s
Достаточно употребителен также квартильный коэффициент асимметрии, рас-
считываемый как отношение разности квартильных отклонений от медианы к их
сумме:
(x0.75 ? x0.5 ) ? (x0.5 ? x0.25 ) x0.25 + x0.75 ? 2x0.5
= .
(x0.75 ? x0.5 ) + (x0.5 ? x0.25 ) x0.75 ? x0.25
81
2.4. Моменты и другие характеристики распределения

Эти три коэффициента положительны при правой асимметрии и отрицатель-
ны при левой. Для симметричных распределений значения этих коэффициентов
близки к нулю. Здесь требуется пояснить, что означает «близки к нулю».
Рассчитанные по выборке, значения этих коэффициентов — пусть они обо-
значаются через K c (c — calculated) — не могут в точности равняться нулю, да-
же если истинное распределение в генеральной совокупности симметрично. Как
и исходные для их расчета выборочные данные, эти коэффициенты являются слу-
чайными величинами K с определенными законами распределения. Эти законы
(в частности, функции плотности вероятности) известны в теории статистики, если
справедлива нулевая гипотеза, в данном случае — если истинное распределение
симметрично. А раз известна функция плотности, то можно определить область,
в которую с наибольшей вероятностью должно попасть расчетное значение коэф-
фициента K c в случае справедливости нулевой гипотезы. Эта область, называе-
мая доверительной, выделяется квантилем KF с достаточно большим F . Обычно
принимают F = 0.95. В данном случае K могут быть как положительными, так
и отрицательными, их теоретическое распределение (при нулевой гипотезе) сим-
метрично относительно нуля, и использоваться должен двусторонний квантиль.
Если расчетное значение K c попадает в доверительную область, т.е. оно по
абсолютной величине не превосходит KF , то нет оснований считать, что истинное
распределение не симметрично, и нулевая гипотеза не отвергается. На основа-
нии этого не следует делать вывод о симметричности истинного распределения.
Установлено только то, что наблюдаемые факты не противоречат симметрично-
сти. Другими словами, если распределение симметрично, то расчетное значение
попадает в доверительную область. Но обратное может быть не верным.
Если расчетное значение не попадает в доверительную область или, как гово-
рят, попадает в критическую область, то маловероятно, что величина K имеет
принятое (при нулевой гипотезе) распределение, и нулевая гипотеза отвергается
с вероятностью ошибки (1-го рода) 1 ? F (обычно 0.05). Причем если K c > KF ,
то принимается гипотеза о правой асимметрии, если K c < ?KF , то принимается
гипотеза о левой асимметрии.
Границы доверительной (критической) области зависят от числа наблюдений.
Чем больше наблюдений, тем меньше KF , при прочих равных условиях, т.е. тем
у? же доверительная область — область «нуля». Это означает, что чем больше
использовано информации, тем точнее, при прочих равных условиях, сделанные
утверждения.
Таким образом, фраза «K c близко к нулю» означает, что |K c | KF .
Приведенные здесь рассуждения используются в теории статистики при про-
верке статистических гипотез, или тестировании (по англоязычной терминоло-
гии), а также при построении доверительных интервалов (областей).
82 Глава 2. Описательная статистика

Подробнее о проверке гипотез см. Приложение A.3.3.
Нормированный центральный момент 4-го порядка
m4 µ4
d4 = ?4 =
s4 ?4
называется куртозисом (от греческого слова ???? o? — горбатый). По его вели-
чине судят о высоковершинности унимодального распределения. Если распреде-
ление близко к нормальному, то этот показатель равен приблизительно 3 («при-
близительно» понимается в том же смысле, что и «близко к нулю» в предыдущем
случае). Если r4 > 3, то распределение высоковершинное, в противном случае —
низковершинное. На этом основании вводится показатель, называемый эксцессом
(см. Приложение A.3.1):
d4 ? 3 (?4 ? 3).
Его используют для оценки высоковершинности распределения, сравнивая с 0.
Граничным для куртозиса является число 3, поскольку для нормального распре-
деления он равен точно 3.

Действительно, плотность f (x) нормально распределенной с математическим ожи-
данием x и дисперсией ? 2 случайной величины x равна
?
2
(x ? x)
?
?
1
2? 2 .
v e
? 2?
В «Справочнике по математике» И.Н. Бронштейна и К.А. Семендяева (М., 1962)
на стр. 407 можно найти следующую формулу:
?
n+1
?
n ?ax2 2
, при a > 0 и n > 1,
xe dx = n+1
2a 2
0

где ? — гамма-функция, обладающая следующими свойствами:
? (x + 1) = x? (x) ,
? (n) = (n ? 1)!, при n целом и положительном,
v
1 ?
? (x) ? x + = 2x?1 ? (2x) .
2 2

Отсюда легко установить, что при целом и четном q
µq = 1 · 3 · 5 · . . . · (q ? 1) ? q = (q ? 1)!! · ? q и, в частности, µ4 = 3? 4 .

О свойствах нормального распределения см. Приложение A.3.2.
В практике статистики моменты более высоких порядков используются крайне
редко.
83
2.5. Упражнения и задачи

2.5. Упражнения и задачи
Упражнение

На основании данных о росте студентов курса построить ряд распределения,
дать табличное и графическое его изображение (представив на графике гистограм-
му, полигон, кумуляту). Какие из графиков соответствуют эмпирической функции
плотности распределения вероятности, а какие — эмпирической функции распре-
деления вероятности? Изобразить на графике гистограммы положение моды, ме-
дианы и средней арифметической. Подтвердить их соотношения расчетами харак-
теристик центра распределения. Найти дисперсию, коэффициент вариации, а так-
же показатели асимметрии и эксцесса. Оценить степень однородности элементов
совокупности.


Задачи

1. Определить пункты, которые являются выпадающими из общего ряда.

1.1 а) частота, б) плотность, в) гистограмма, г) график;
1.2 а) арифметическое, б) геометрическое, в) алгебраическое, г) квадрати-
ческое;
1.3 а) мода, б) медиана, в) квантиль, г) квартиль;
1.4 а) бимодальное, б) нормальное, в) асимметричное, г) U-образное;
1.5 а) математическое ожидание, б) биномиальное, в) нормальное, г) сред-
нее;
1.6 а) момент, б) период, в) дисперсия, г) среднее;
1.7 а) центральный, б) начальный, в) исходный, г) момент.

2. Количественный признак принимает значения 2, 3, 4, 9. Какова плотность
относительной частоты 2-го и 3-го элемента?

3. Распределение семей по доходам (в условных единицах в месяц) представлено
в группированном виде количеством Nl семей, попавших в l полуинтервал
(zl?1 ; zl ] (табл. 2.2).
Заполните в таблице недостающие характеристики.
Изобразите графики гистограммы, полигона и кумуляты.

4. Какова средняя хронологическая величин 1, 2, 5, 9, характеризующих по-
следовательность равных промежутков времени?
84 Глава 2. Описательная статистика


Таблица 2.2

(zl?1 ; zl ] 500;700 700;900 900;1100 1100;1300 1300;1500

4 8 5 2 1
Nl

?l

Fl

fl



5. На что нужно поделить y1 ? y0 , чтобы получить среднюю хронологическую
на временном отрезке [0, 1] ?

6. Чему равны простые средние: геометрическая, арифметическая, гармониче-
ская чисел 1, 2, 4?

7. Три объекта характеризуются следующими относительными признаками: 1 6 ,
1 3 , 1 4 . Веса этих объектов по числителю равны 0.1, 0.2, 0.7, вес первого
объекта по знаменателю — 0.15. Чему равен вес второго объекта?

8. Какая из двух величин

(a + b + c) 3
, или
111
3
++
ab c

больше и почему?

9. Капитал за первый год не изменился, за второй — вырос на 12%. Средне-
годовой коэффициент, одинаковый по годам, равен 3 8 . Каков темп роста
среднегодового капитала?

10. За первое полугодие капитал вырос на 12.5%, за второе — в 2 раза. Ка-
кова среднегодовая доходность (в процентах), если позиция инвестора была
пассивной, или если он реинвестировал доход в середине года?

11. Совокупность предприятий была разделена на группы в зависимости от вели-
чины стоимости реализованной продукции. Количество предприятий в каж-
дой группе и среднее значение стоимости реализованной продукции в каждой
группе даны в таблице:
85
2.5. Упражнения и задачи

Номер группы 1 2 3 4 5

Количество предприятий в группе (ед.) 4 4 5 7 5

Среднее значение стоимости реализован- 15 20 25 30 35
ной продукции (ден. ед.)

Определить среднюю стоимость реализованной продукции по совокупности
предприятий в целом.

12. По металлургическому заводу имеются следующие данные об экспорте про-
дукции:

Вид продукции Доля вида продукции в Удельный вес продукции
общей стоимости реали- на экспорт, %
зованной продукции, %

Чугун 25 35

Прокат листовой 75 25

Определить средний удельный вес продукции на экспорт.

13. Совокупность населенных пунктов области была разделена на группы в зави-
симости от численности безработных. Количество населенных пунктов в каж-
дой группе и средняя численность безработных в каждой группе даны в таб-
лице:

Номер группы 1 2 3 4 5

Количество населенных пунктов в группе 4 8 2 3 3

Средняя численность безработных 10 12 15 20 30

Определить среднюю численность безработных по совокупности населенных
пунктов в целом.

14. В таблице даны величины стоимости основных фондов на конец года за ряд
лет:

Год 0 1 2 3 4

Стоимость основных 100 120 125 135 140
фондов на конец года

Предположим, что стоимость фондов на конец года t совпадает со стоимостью
на начало года t + 1. Среднегодовой коэффициент равен 0.3. Определить:

а) среднегодовую стоимость основных фондов в 1, 2, 3 и 4 году;
86 Глава 2. Описательная статистика

б) среднегодовой темп прироста среднегодовой стоимости основных фон-
дов за период с 1 по 4 годы.

15. В первые два года исленность занятых в экономике возрастала в среднем на
4% в год, за следующие три — на 5% и в последние три года среднегодо-
вые темпы роста составили 103%. Определите среднегодовые темпы роста
и базовый темп прироста численности занятых за весь период.

16. В первые три года численность безработных возрастала в среднем на 2%
в год, за следующие три — на 4% и в последние два года среднегодовые
темпы роста составили 103% . Определите среднегодовые темпы роста и
базовый темп прироста численности безработных за весь период.

17. В таблице даны величины дохода (в %), приносимые капиталом за год:

Год 1 2 34

Доходность 10 12 8 6

Определить среднегодовую доходность капитала в течение всего периода,
если:

а) позиция инвестора пассивна;
б) позиция инвестора активна.

18. В первом квартале капитал возрастает на 20%, во втором — на 15%, в тре-
тьем — на 10%, в четвертом — на 20%. Определите среднегодовую доход-
ность капитала, если:

а) позиция инвестора пассивна;
б) позиция инвестора активна, т.е. он ежеквартально реинвестирует доход.

19. Во сколько раз вырастает ваш капитал за год, вложенный в начале года под
20% годовых, если вы

а) не реинвестировали проценты;
б) реинвестировали их один раз в середине года;
в) реинвестировали три раза в начале каждого очередного квартала;
г) реинвестировали в каждый последующий момент времени.

В первом квартале капитал возрастает на 12%, во втором — на 15%, в тре-
тьем — на 20%, в четвертом — на 15%. Определите среднегодовую доход-
ность капитала, если:
87
2.5. Упражнения и задачи

20. Объем продукции в 1995 г. составил 107% от объема продукции 1990 г.,
в течение последующих двух лет он снижался на 1% в год, потом за 4 года
вырос на 9% и в течение следующих трех лет возрастал в среднем на 2%
в год. На сколько процентов возрос объем продукции за вес период? На
сколько процентов он возрастал в среднем в год в течение этого периода.

21. Дана функция распределения F (x) = 1/(1 + e?x ). Найти медиану и моду
данного распределения.

22. В эмпирическом распределении z0 = 0, все дельты = 1, F3 = 0.21,
F4 = 0.4, F5 = 0.7, F6 = 0.77. Чему равны медиана и мода?

23. Известна гистограмма бимодального ряда наблюдений. На каком отрезке
лежит медиана?

24. Медиана больше моды, где лежит среднее?
Какая из трех характеристик центра распределения количественного призна-
ка является квантилем и каким?
Медиана и средняя равны, соответственно, 5 и 6. Каково вероятное значение
моды? Почему?

25. На основе информации о возрасте всех присутствующих на занятиях (включая
преподавателя) определить характер асимметрии функции распределения?

26. Дать определение 5%-го квантиля и написать интерполяционную формулу
расчет 5%-го квантиля для эмпирического распределения. Привести графи-
ческое обоснование формулы.

27. В эмпирическом распределении z0 = 0, все дельты = 1, F4 = 0.4,
F5 = 0.7, F6 = 0.8, среднее равно 4.3. Какова асимметрия: правая (+)
или левая (?) ? Чему равен 75%-ый квантиль?

28. Найти значение 30%-го квантиля, если известно эмпирическое распределе-
ние:
Границы интерва- 10–15 15–20 20–25 25–30
лов

Частоты 1 3 4 2

29. Для ряда 1, 2, 3, 6 найти медианный и квартильный коэффициент вариации.

30. Чему равна ордината кривой Лоренца при абсциссе 1 3 для ряда 1, 2, 3?

31. Чему равен медианный коэффициент вариации для ряда 1, 2, 3?
88 Глава 2. Описательная статистика

32. Как посчитать децильный коэффициент вариации?

33. Задан ряд наблюдений за переменной x: 3, 0, 4, 2, 1. Подсчитать основ-
ные статистики данного ряда, среднее арифметическое, медиану, дисперсию
(смещенную и несмещенную), показатель асимметрии и куртозиса, размах
выборки.

34. Для представленных ниже комбинаций значений показателей асимметрии
?3 и эксцесса ?4 дать графическое изображение совокупности и указать
на графике положение моды, медианы и средней арифметической:

а) ?3 > 0, ?4 > 3;
б) ?3 < 0, ?4 > 3;
в) ?3 < 0, ?4 < 3;
г) ?3 > 0, ?4 = 3;
д) ?3 = 0, ?4 > 3;
е) ?3 < 0, ?4 = 3;
ж) ?3 = 0, ?4 < 3.


Рекомендуемая литература
1. Венецкий И.Г., Венецкая В.И. Основные математико-статистические по-
нятия и формулы в экономическом анализе. — М.: Статистика, 1979.
(Разд. 1–4, 6).

2. Догуерти К. Введение в эконометрику. — М.: Инфра-М, 1997. (Гл. 1).

3. Кейн Э. Экономическая статистика и эконометрия. — М.: Статистика, 1977.
Вып. 1. (Гл. 4, 5, 7).

4. (*) Коррадо Д. Средние величины. — М.: Статистика, 1970. (Гл. 1).

5. Judge G.G., Hill R.C., Griffiths W.E., Luthepohl H., Lee T. Introduction to the
Theory and Practice of Econometric. John Wiley & Sons, Inc., 1993. (Ch. 5).
Глава 3

Индексный анализ

До сих пор термин «индекс» использовался исключительно как указатель места
элемента в совокупности («мультииндекс» — в сгруппированной совокупности).
В данном разделе этот термин применяется в основном для обозначения показате-
лей особого рода, хотя в некоторых случаях он используется в прежнем качестве;
его смысл будет понятен из контекста.



3.1. Основные проблемы

В экономической статистике индексом называют относительную величину, по-
казывающую, во сколько раз изменяется некоторая другая величина при переходе
от одного момента (периода) времени к другому (индекс динамики), от одного ре-
гиона к другому (территориальный индекс) или в общем случае — при изменении
условий, в которых данная величина измеряется. Так, например, в советской ста-
тистике широкое распространение имел индекс выполнения планового задания,
который рассчитывается как отношение фактического значения величины к ее
плановому значению.
Значение величины, с которым производится сравнение, часто называют ба-
зисным (измеренным в базисных условиях). Значение величины, которое сравни-
вается с базисным, называют текущим (измеренным в текущих условиях). Эта тер-
минология сложилась в анализе динамики, но применяется и в более общей си-
туации. Если y 0 и y 1 — соответственно базисное и текущее значение величины,
1
01 = y .
то индексом ее изменения является ?y
y0
90 Глава 3. Индексный анализ

В общем случае речь идет о величинах y t , измеренных в условиях t = 0, . . . , T ,
s
rs = y , где r и s принимают значения от 0 до T , и, как правило,
и об индексах ?y
yr
r < s.
При таком определении система индексов обладает свойством транзитивности
или, как говорят в экономической статистике, цепным свойством (нижний индекс-
указатель опущен): ?rs = ?rt1 ?t1 t2 · . . . · ?tn s , где r , s и все ti , i = 1, . . . , n также
находятся в интервале от 0 до T , и, как следствие, свойством обратимости:
1
?rs = , поскольку ?tt = 1.
sr
?
Это — самое общее определение индексов, не выделяющее их особенности
среди других относительных величин. Специфика индексов и сложность проблем,
возникающих в процессе индексного анализа, определяется следующими тремя
обстоятельствами.
1) Задача индексного анализа состоит в количественной оценке не только само-
го изменения изучаемой величины, но и причин, вызвавших это изменение. Необ-
ходимо разложить общий индекс на частные факторные индексы. Пусть (верхний
индекс-указатель опущен)

(3.1)
y = xa,

где y и x — объемные величины, a — относительная величина.
Примерами таких «троек» являются:

(a) объем производства продукта в стоимостном выражении, тот же объем
производства в натуральном выражении, цена единицы продукта в на-
туральном выражении;
(b) объем производства, количество занятых, производительность труда;
(c) объем производства, основной капитал, отдача на единицу капитала;
(d) объем затрат на производство, объем производства, коэффициент
удельных затрат.

В общем случае формула имеет вид
n
(3.2)
y=x aj ,
j=1

где все aj являются относительными величинами.
Примером использования этой формулы при n = 2 может явиться сочетание
приведенных выше примеров (a) и (b). В этом случае y — объем производства
91
3.1. Основные проблемы

продукта в стоимостном выражении, x — количество занятых, a1 — производи-
тельность труда, a2 — цена единицы продукта. Этот пример можно усложнить
на случай n = 3 : a1 — коэффициент использования труда, a2 — «технологиче-
ская» производительность труда, a3 — цена.
Дальнейшие рассуждения будут, в основном, проводиться для исходной ситуа-
ции ( n = 1, нижний индекс-указатель у a1 опускается).
По аналогии с величиной ?rs , которую можно назвать общим индексом, рас-
y
считываются частные или факторные индексы для x и a :
xs as
rs rs
?x = r , ?a = r .
x a
Первый из них можно назвать индексом количества, второй — индексом каче-
ства.
Оба частных индекса, как и общий индекс, транзитивны и обратимы. Кро-
ме того, вслед за (3.1) выполняется следующее соотношение (верхние индексы-
указатели опущены): ?y = ?x ?a , и поэтому говорят, что эти три индекса облада-
ют свойством мультипликативности. Таким образом, факторные индексы количе-
ственно выражают влияние факторов на общее изменение изучаемой величины.
2) Пока неявно предполагалось, что величины y, x , a и, соответственно, все
рассчитанные индексы характеризуют отдельный объект, отдельный элемент со-
вокупности. Такие индексы называют индивидуальными, и их, а также связанные
с ними величины, следует записывать с индексом-указателем i объекта (верх-
ние индексы-указатели t, r, s опущены): yi , xi , ai , ?yi , ?xi , ?ai . До сих пор
этот индекс-указатель опускался. Никаких проблем в работе с индивидуальными
индексами не возникает, в частности, они по определению обладают свойством
транзитивности и мультипликативности.
Предметом индексного анализа являются агрегированные величины. Предпо-
лагается, что yi аддитивны, т.е. выражены в одинаковых единицах измерения, и их
можно складывать. Тогда (верхние индексы-указатели опущены)
N N
y= yi = xi ai .
i=1 i=1

N
В дальнейшем выражения типа xi ai будут записываться как (x, a), т.е. как
i=1
скалярные произведения векторов x и a.
Благодаря аддитивности yi индексы ?rs рассчитываются однозначно и явля-
y
ются транзитивными.
N
Если xi также аддитивны, их сумму x = xi можно вынести за скобки
i=1
и записать y = xa, где a — средняя относительная величина, равная (?x , a),
92 Глава 3. Индексный анализ


Таблица 3.1

?sr = 1/?rs
?r ?s ar as ?rs
x x a a a


1 0.3 0.7 1.25 1.0 0.8 1.25

2 0.7 0.3 0.4 0.5 1.25 0.8

Итого 1.0 1.0 0.66 0.85 1.30 0.7


?xi = xi x . Такая ситуация имеет место в приведенных выше примерах (b), (c), (d),

<<

стр. 3
(всего 28)

СОДЕРЖАНИЕ

>>