<<

стр. 2
(всего 28)

СОДЕРЖАНИЕ

>>

располагаются по возрастанию ранга от 1 до kj .
Группы, полученные в результате группировки по одному признаку, могут быть
разбиты на подгруппы по какому-нибудь другому признаку. Процесс деления со-
вокупности на все более дробные подгруппы по 3-му, 4-му и т.д. признаку может
быть продолжен нужное количество раз — в соответствии с целями конкретного
исследования. Перестановка строк матрицы наблюдений при группировке по каж-
дому последующему признаку осуществляется в пределах ранее выделенных групп.
Некоторые пакеты прикладных программ (электронные таблицы, базы данных)
имеют специальную операцию, называемую сортировкой. Эта операция перестав-
ляет строки матрицы наблюдений по возрастанию (или убыванию) значений ранга
(уровня) сначала 1-го, потом 2-го, 3-го и т.д. указанного для этой операции при-
знака. В этом смысле термины группировка и сортировка эквивалентны.
Признаки, по которым группируются объекты совокупности, называются груп-
пирующими. Если таких признаков больше одного, группировка называется мно-
жественной, в противном случае — простой.
Пусть группирующими являются первые n признаков j = 1, . . . , n, и j-й при-
знак может принимать kj уровней (может иметь ранги от 1 до kj ). По этим при-
n
знакам совокупность в конечном итоге будет разбита на K групп, где K = kj .
j=1
Это — так называемые конечные или заключающие группы. Последовательность
группирующих признаков определяется целями проводимого исследования, «важ-
ностью» признаков. Чем ближе признак к концу общего списка группирующих
признаков, тем более младшим он считается. Однако с формальной точки зрения
последовательность этих признаков не важна, от нее не зависит характер группи-
ровки, с ее изменением меняется лишь последовательность конечных групп в мат-
рице наблюдений.
Общее число полученных групп существенно больше количества конечных
групп. Каждый j-й признак по отдельности разбивает совокупность на kj групп,
вместе с признаком j — на kj kj групп, вместе с признаком j — на kj kj kj
40 Глава 1. Основные понятия

групп и т.д. Поэтому, не сложно сообразить, общее число групп, включая саму
совокупность, равно (1 + kj ).
j

Действительно:

(1 + kj ) = 1 + k1 + k2 + · · · + k1 k2 + k1 k3 + · · · + k1 k2 k3 + · · · + k1 k2 . . . kn ,
j


— слагаемые правой части показывают количества групп, выделяемых всеми воз-
можными сочетаниями группирующих признаков.

Конечные группы можно назвать также группами высшего, в данном случае
n-го порядка, имея в виду, что они получены группировкой по всем n признакам.
Любое подмножество группирующих признаков, включающее n элементов, где
0 < n < n делит совокупность на «промежуточные» группы, которые можно на-
звать группами порядка n . Каждая такая группа является результатом объедине-
ния определенных групп более высокого, в частности, высшего порядка. Конкрет-
ное подмножество группирующих признаков, состоящее из n элементов, образует
n
конкретный класс групп порядка n . Всего таких классов Cn (это — число соче-
n!
таний из n по n , равное, как известно, ). Группой нулевого порядка
n !(n ? n )!
является исходная совокупность. Общее число всех групп от нулевого до высшего
порядка, как отмечено выше, равно (1 + kj ).
j
Дальнейшее изложение материала о группировках будет иллюстрироваться
примером, в котором при n = 2 первым группирующим признаком является
«студенческая группа» с k1 = 4 (т.е. имеется 4 студенческие группы), вторым
группирующим признаком — «пол» с k2 = 2, а при n = 3 добавляется третий
группирующий признак — «оценка», полученная на экзамене, с k3 = 4. В этом
примере (при n = 3 ) имеется 32 конечные группы (третьего порядка), образую-
щие класс с именем (все элементы которого имеют имя) «студенты». Существуют
2
3 класса групп 2-го порядка (C3 = 3 ). Класс А1, образуемый подмножеством
группирующих признаков (12), включает 8 групп с именем «юноши или девушки
такой-то студенческой группы», А2 — образуемый подмножеством (13), включа-
ет 16 групп с именем «студенты такой-то группы, получившие такую-то оценку»,
и А3 — образуемый подмножеством (23), включает 8 групп с именем «юноши
или девушки, получившие такую-то оценку на экзамене». Классов групп первого
1
порядка имеется также 3 (C3 = 3 ). Класс Б1, образуемый подмножеством (1),
включающий 4 группы с именем «такая-то студенческая группа», Б2 — подмно-
жеством (2), включающий 2 группы с именем «юноши или девушки», и Б3 — под-
множеством (3), включающий 4 группы с именем «студенты, получившие такую-то
оценку на экзамене».
41
1.9. Статистические совокупности и группировки

Каждой конечной группе соответствует конкретное значение так называемо-
го мультииндекса I порядка n (состоящего из n элементов), который имеет
следующую структуру: i1 i2 . . . in (I = i1 i2 . . . in ). Для всех наблюдений конечной
группы, имеющей такое значение мультииндекса, первый группирующий признак
находится на уровне (имеет ранг) i1 , второй группирующий признак — на уровне
i2 и т.д., последний, n-й — на уровне in . Линейная последовательность (последо-
вательность в списке) значений мультииндекса совпадает с последовательностью
конечных групп в матрице наблюдений. На первом месте стоит значение I1 , все
элементы которого равны единице (конечная группа, для всех наблюдений которой
все группирующие признаки находятся на первом уровне). Далее работает прави-
ло: быстрее меняются элементы мультииндекса, соответствующие более младшим
группирующим признакам. Так, в иллюстрационном примере при n = 2 последо-
вательность значений мультииндекса такова: 11, 12, 21, 22, 31, 32, 41, 42.
Последним значением мультииндекса является IK = k1 k2 . . . kn . Поскольку по-
I
следовательность значений мультииндекса однозначно определена, означает
I =I1
суммирование по всем значениям мультииндекса от I1 до I.
В некоторых случаях мультииндексы групп называют кодами групп. После за-
вершения группировки столбцы группирующих признаков часто исключаются из
матрицы наблюдений, т.к. содержащаяся в них информация сохраняется в муль-
тииндексах-кодах.
Если из «полного» мультииндекса порядка n вычеркнуть некоторые элементы-
признаки, то получается мультииндекс более низкого порядка n , который именует
определенную группу порядка n . Операция вычеркивания проводится заменой
в исходном мультииндексе вычеркиваемых элементов символом « ? » (иногда ис-
пользуется символ точки или какой-нибудь другой). Это необходимо для того, чтобы
сохранить информацию о том, какие именно признаки вычеркнуты из мультииндек-
са. В иллюстративном примере группы класса А1 имеют мультииндекс со звездоч-
кой на третьем месте, а класса Б2 — на первом и третьем местах. Для того чтобы
подчеркнуть принадлежность мультииндекса I к конечным группам, мультииндек-
сы групп более низкого порядка можно обозначать I(?).
Теперь вводится еще один специальный мультииндекс J , который в «полном
формате» (при порядке n ) представляет собой последовательность целых чисел от
1 до n и обозначается G. В этом мультииндексе J все элементы, которые заме-
нены звездочкой в мультииндексе I(?), также заменены на звездочку. Пусть J? —
последовательность из n звездочек (все элементы заменены на « ? »). Для индек-
сации групп можно использовать пару индексов I, J (в этом случае к I излишне
приписывать (?) ). В этом случае из этих мультииндексов можно в действительности
вычеркнуть все звездочки, т.к. информация о вычеркнутых признаках сохраняет-
ся в J . Так, например, группа «студенты второй группы, получившие «отлично»
42 Глава 1. Основные понятия

на экзамене» именуется мультииндексом I(?), равным 2?4, или парой мультиин-
дексов I, J — 24, 13. Второй способ удобен, когда речь идет о группах низких
порядков. В данном изложении будет использоваться первый способ индексации.
Группа I(?) (с мультииндексом I(?) ) является объединением конечных групп
с такими значениями мультииндекса I, что: а) все те их элементы, которые соот-
ветствуют элементам, не вычеркнутыми из I(?), совпадают с ними; б) все элемен-
ты, соответствующие вычеркнутым из I(?) элементам, пробегают все свои зна-
чения. Такую операцию объединения естественно обозначить . Так, например,
I(?)
группа 1?4 является объединением групп 114 и 124, а группа 42? — объедине-
нием групп 421, 422, 423 и 424. Если I(?) = J? , объединяются все конечные
группы и образуется исходная совокупность, а сам I(?), равный J? , формально
выступает мультииндексом всей совокупности.
Через J обозначается класс групп, образованных подмножеством признаков,
не замененных в J звездочками. Так, продолжая пример, А2 является классом
1?3, а Б2 — классом ?2?. Количество групп в J -классе K J является произве-
дением kj c такими j, которые не заменены звездочками в J ; такую операцию
произведения естественно обозначить . При J = G оно равно количеству ко-
J
нечных групп K, а при J = J? принимается равным 1 (исходная совокупность —
одна).
Пусть NI — число наблюдений-объектов в конечной группе I. Тогда число на-
блюдений в группе более низкого порядка I(?), которое можно обозначить NI(?) ,
равно NI , где операция выполняется аналогично операции . Эти числа
I(?) I(?) I(?)
называются групповыми численностями, все они больше либо равны нулю, в слу-
чае равенства нулю соответствующая группа пуста. Если I(?) = K ? , то NI(?) = N .
Каждому наблюдению-объекту можно также поставить в соответствие муль-
тииндекс порядка n + 1, имеющий структуру IiI , где I мультииндекс конечной
группы, к которой принадлежит данное наблюдение, а iI — номер данного на-
блюдения в этой группе. Так, в иллюстрационном примере 3125 — мультииндекс
пятой девушки в списке девушек третьей группы, получивших на экзамене «удо-
влетворительно». Исходный линейный индекс i наблюдения с мультииндексом IiI
I?
равен NI + iI , где I? — значение мультииндекса конечной группы, предше-
I =I1
ствующее I в последовательности всех значений мультииндекса. Так, в примере
значение мультииндекса 423 предшествует значению 424, а значение 314 —
значению 321.
Мультииндекс, в котором (n + 1)-й элемент замещен звездочкой, обозначает
все множество наблюдений группы. Так, 1?3? мультииндекс списка всех студентов
первой группы, получивших на экзамене «хорошо».
43
1.9. Статистические совокупности и группировки

Результаты группировки применяются для решения задач 3-х типов.
1) Используя информацию о групповых численностях, анализируют распреде-
ление частот или эмпирических вероятностей признаков, теоретическим обоб-
щением которых являются функции распределения вероятностей и плотности
вероятностей случайных величин. Потому такие распределения частот иногда
называют эмпирическими функциями распределения вероятностей и плотностей
вероятностей признаков. Если группировка является множественной, то говорят
о совместном распределении признаков (группирующих), которое может исполь-
зоваться в анализе зависимостей между этими признаками. В таком случае груп-
пирующие признаки делятся на факторные и результирующие. Так, в иллюстра-
ционном примере можно изучать зависимость оценки, полученной на экзамене,
от факторов «студенческая группа» и «пол». Приемы построения эмпирических
распределений вероятностей и простейшие методы анализа связей с помощью сов-
местных распределений изучаются в этой части книги.
При решении задач этого типа группирующие признаки являются, как правило,
количественными.
2) Все группирующие признаки выступают факторными, и исследуется их вли-
яние на некоторые другие — результирующие признаки xj , j > n. В этом случае
группирующие (факторные) признаки являются обычно качественными, и исполь-
зуются методы дисперсионного анализа, элементарные сведения о котором дают-
ся в главе 4 этой части (более основательно эти методы рассматриваются в III-й
части книги). В иллюстрационном примере при n = 2 признак «оценка» не входит
в число группирующих, и если взять его в качестве результирующего, то можно
также исследовать влияние факторов «студенческая группа» и «пол» на оценку.
В пункте 1) говорилось о других методах изучения этого влияния.
3) Анализируются зависимости между признаками внутри выделенных групп
и/или между группами, т.е. внутригрупповые и/или межгрупповые связи. Во вто-
ром случае в анализе используются средние значения признаков в группах. В обоих
случаях факторные и результирующие признаки не входят во множество группи-
рующих признаков. Методы регрессионного анализа, используемые для анализа
связей, и методы проверки гипотез о существенности различий параметров свя-
зей между различными группами изучаются во II-й и III-й частях книги. В главе 4
настоящей части даются общие сведения о некоторых из этих методов.
Особенность рассмотренных методов группировки заключается в том, что деле-
ние на группы всякий раз проводится по значениям строго одного признака. В одну
группу попадают наблюдения-объекты с близкими (или — для качественных при-
знаков — совпадающими) значениями признака. Каждый последующий признак
лишь «дробит» ранее выделенные группы. Между тем, существуют методы выде-
ления групп сразу по нескольким признакам. При таких группировках используются
44 Глава 1. Основные понятия

различные меры близости векторов. Наблюдения i и i попадают в одну группу,
если по выбранной мере близки вектора xij и xi j , j = 1, . . . , n. Методы таких
группировок используются в кластерном анализе (кластер — класс). Существуют
и обратные задачи, когда новое наблюдение-объект надо отнести к какому-то из-
вестному классу. Такие задачи решаются методами распознавания образов, они
возникают, например, при машинном сканировании текстов или машинном вос-
приятии человеческой речи.
Признаки также образуют совокупности разной степени однородности, пони-
маемой в этом случае только в качественном смысле. Как и в анализе совокупности
объектов можно обозначить через Ij множество объектов, обладающих j-м при-
знаком. Степень однородности совокупностей признаков тем выше, чем больше
общее пресечение этих множеств для признаков, входящих в совокупность. Одно-
родные совокупности признаков часто называют системами, акцентируя внимание
на наличии связей между признаками совокупности.
Совокупности признаков обычно также группируются. Особенностью их груп-
пировок является то, что они имеют строго иерархический характер, т.е. после-
довательность групп признаков разного порядка строго определена. Когда же речь
идет о группировках наблюдений-объектов, то их иерархия (последовательность
групп от низших порядков к высшим) условна, она всегда может измениться при
изменении порядка группирующих признаков. Группы признаков обычно называют
классами и подклассами или классами разного уровня (иерархии).
На нулевом уровне иерархии признаков размещается имя всей совокупности
признаков, например, «показатели развития промышленных предприятий». Далее
следуют классы первого уровня с их именами, например, «материальные ресур-
сы», «затраты», «результаты», «финансовые пассивы», «финансовые активы»
и т.д. Эти классы детализируются на втором уровне: например, «материальные
ресурсы» делятся на «основной капитал», «запасы готовой продукции», «произ-
водственные запасы», «незавершенное производство». На третьем уровне иерар-
хии «запасы готовой продукции», например, делятся по видам продукции. И так
далее. Разные направления иерархии могут иметь разное количество уровней де-
тализации (иерархии). Например, «материальные ресурсы» могут иметь 4 уровня,
а «финансовые активы» — 3. В исходной матрице наблюдений только признаки
низшего уровня иерархии (классов высшего порядка) имеют числовые значения
(после группировки признаков и обработки матрицы наблюдений могут быть вве-
дены столбцы со значениями итоговых показателей по некоторым или всем классам
и подклассам признаков).
Сама группировка формально может быть проведена так же, как и группировка
объектов (но с некоторыми отличиями). Разным классам одного уровня, образу-
ющим один класс предыдущего уровня, присваиваются различные целые числа-
ранги, т.е. классы «измеряются» в номинальной шкале. Как видно, «измерение»
45
1.10. Задачи

классов одного уровня зависит от результатов «измерения» классов предыдущего
уровня, чего не было при группировке совокупностей объектов. Далее, в матрицу
наблюдений вводятся строки «классы первого уровня», «классы второго уровня»
и т.д. с рангами, присвоенными соответствующим классам, в столбцах признаков.
И, наконец, осуществляется перестановка столбцов матрицы наблюдений по воз-
растанию рангов сначала классов первого уровня, потом второго уровня и т.д.
Ранги классов образуют мультииндексы или коды признаков. После завершения
группировки введенные строки классов можно убрать.
Обычно эти операции не проводятся, т.к. признаки группируются уже при со-
ставлении матрицы наблюдений.
Как исходные массивы и матрицы наблюдений, так и результаты их группировок
или других обработок могут изображаться в виде таблиц и графиков. Таблица —
это визуализированный двухмерный массив с общим названием-титулом, назва-
ниями строк и названиями столбцов. Первый столбец (столбцы), в котором разме-
щены названия строк, называется подлежащим таблицы, первая строка (строки)
с названиями столбцов — сказуемым таблицы. Подлежащее и сказуемое часто
включают мультииндексы-коды соответствующих объектов или признаков. В титул
обычно выносится общее имя совокупности элементов (объектов или признаков)
сказуемого и/или подлежащего.
Существует несколько вариантов таблиц для массивов типа {xtij }, имеющих
3 размерности: время t, объекты i и признаки j. Если в подлежащем — время,
а в сказуемом — объекты, то в титул должно быть вынесено имя признака; если
в подлежащем — объекты, в сказуемом — признаки, то в титуле должно быть
указано время и т.д. Всего таких вариантов — 6.
Если в табулируемой матрице не произведено группировок, то таблица явля-
ется простой с простыми именами строк и столбцов. Если строки и/или столбцы
сгруппированы, то их имена в таблице являются составными: кроме индивидуаль-
ных имен строк и столбцов они включают и имена их групп и классов.
В случае, когда столбцов таблицы не слишком много, информация может быть
представлена (визуализирована) графиком. Ось абсцисс соответствует обычно
подлежащему таблицы, а ось ординат — сказуемому. Сами значения показателей-
признаков изображаются в виде различных графических образов, например, в виде
«столбиков». Если в подлежащем размещены моменты времени, график выражает
траектории изменения показателей.

1.10. Задачи
1. Определить пункты, которые являются выпадающими из общего ряда.

1.1 а) отношений, б) порядковая, в) количественная, г) классификаций;
1.2 а) Пуассон, б) Рамсей, в) Бернулли, г) Байес;
46 Глава 1. Основные понятия

1.3 а) темпы роста, б) относительные, в) производные, г) первичные;
1.4 а) Кейнс, б) Байес, в) Синклер, г) Бернулли;
1.5 а) фондоемкость, б) материалоемкость, в) трудоемкость, г) срок окупа-
емости инвестиций;
1.6 а) Стивенс, б) Кэмпбел, в) реляционная структура, г) Тарский;
1.7 а) капитал, б) население, в) инвестиции, г) внешний долг;
1.8 а) Пуассон, б) Рамсей, в) Бернулли, г) Байес;
1.9 а) Суппес, б) Стивенс, в) Пуассон, г) Пфанцагль;
1.10 а) величина-признак, б) величина-показатель, в) показатель-определе-
ние, г) показатель-наблюдение;
1.11 а) Герман, б) Кетле, в) Моргенштерн, г) Синклер;
1.12 а) Тарский, б) операциональная, в) репрезентативная, г) Кэмпбел;
1.13 а) Зинес, б) Суппес, в) Моргенштерн, г) Петти;
1.14 а) статистика, б) statistics, в) информация, г) statistic;
1.15 а) наименований, б) интервальная, в) ординальная, г) шкалирование;
1.16 а) Суппес, б) интервальная, в) Стивенс, г) порядковая;
1.17 а) Бернулли, б) субъективная, в) Байес, г) объективная;
1.18 а) Пфанцагль, б) Зинес, в) Нейман, г) Кэмпбел;
1.19 а) управляемый эксперимент, б) пассивное наблюдение, в) статистика,
г) операциональное определение;
1.20 а) Кетле, б) Кейнс, в) Петти, г) Герман;
1.21 а) производственные мощности, б) выпуск продукции, в) затраты,
г) амортизационные отчисления;
1.22 а) Пуассон, б) Рамсей, в) Бернулли, г) Байес;
1.23 а) кластер, б) класс, в) группа, г) совокупность;
1.24 а) абсолютная, б) относительная, в) экстенсивная, г) интенсивная;
1.25 а) дискретный, б) непрерывный, в) моментный, г) интервальный;
1.26 а) подлежащее, б) предлог, в) сказуемое, г) таблица.

2. Какой тип — запаса или потока — имеют следующие величины: а) инвести-
ции; б) население; в) основные фонды; г) активы?

3. К какому классу относятся и какую размерность имеют следующие интен-
сивные величины: а) фондоемкость; б) материалоемкость; в) трудоемкость;
г) фондоотдача?
47
1.10. Задачи


Таблица 1.2

Абсолютное
Объем Абсолютный Темп
Темп роста значение
Год производства, прирост, прироста
(годовой) 1% прироста,
млрд. руб. млрд. (годовой), %
млрд.

1 2 3 4 5 6
1992 127
1993 1.102
1994 7.1
1995 164.6
1996
1997 9.9 1.75



4. Пусть yt — значение величины в момент времени t. Запишите формулу
моментного темпа прироста и непрерывного темпа роста.

5. Имеются данные об объеме производства в отрасли (табл. 1.2).
Вычислить и вставить в таблицу недостающие показатели.

6. Была проведена группировка студентов НГУ по трем признакам:
1-й признак: место постоянного жительства (город; село);
2-й признак: средний балл в аттестате (выше 4.5; от 3.5 до 4.5; ниже 3.5);
3-й признак: средний балл за вступительные экзамены (выше 4.5; от 3.5
до 4.5; ниже 3.5).
Определите:

а) общее число групп и число групп высшего порядка;
б) количество классов групп 1-го, 2-го и 3-го порядка;
в) количество групп в классах 2, 13, 23;
г) число конечных групп в каждой группе класса 2, 13, 23.
д) Число элементов конечной группы 221 равно 5, в остальных конечных
группах по 2 элемента. Каково значение линейного индекса второго
элемента конечной группы 232?
е) Сколько всего элементов в совокупности?
Глава 2

Описательная статистика


Исходный массив наблюдений может достигать значительных размеров, и непо-
средственно по его информации трудно делать какие-либо содержательные заклю-
чения о свойствах изучаемых совокупностей. Задача описательной статистики —
«сжать» исходный массив, представить его небольшим набором числовых характе-
ристик, которые концентрированно выражают свойства изучаемых совокупностей.
Граница между описательной статистикой, с одной стороны, и математической ста-
тистикой, эконометрией, анализом данных, с другой стороны, достаточно расплыв-
чата. Обычно в описательной статистике даются элементарные сведения, достаточ-
ные для проведения начальных этапов экономико-статистического исследования,
которые более углубленно и более строго рассматриваются в других научных дис-
циплинах статистического ряда (в последующих разделах книги).


2.1. Распределение частот количественного
признака

Пусть имеются наблюдения xi , i = 1, . . . , N за некоторой непрерывной ко-
личественной величиной-признаком, т.е. матрица наблюдений имеет размерность
N ? 1. Такую матрицу наблюдений обычно называют рядом наблюдений. В ста-
тистике совокупность этих значений иногда называется также вариационным ря-
дом. Пусть проведена группировка совокупности по этому признаку с выделением
k групп. В соответствии с обозначениями предыдущей главы мультииндексом груп-
пы является I, равный i1 , где i1 — индекс группы. В этом и ряде последующих
49
2.1. Распределение частот количественного признака

пунктов (при n = 1) в качестве индекса группы будет использоваться не i1 , что-
бы не путать его с линейным индексом i наблюдения, а l. Соответственно, zl ,
l = 0, 1, . . . , k — границы полуинтервалов, Nl — групповые численности, ко-
торые в этом случае называют частотами признака. Следует иметь в виду, что x —
случайная величина, но все z — детерминированы.
Размеры полуинтервалов,
?l = zl ? zl?1 ,
обычно берут одинаковыми. При выборе размера полуинтервалов можно исполь-
зовать одно из следующих правил:
? = 3.5sN ?1/3 (правило Скотта)
или
? = 2 IQR N ?1/3 (правило Фридмена—Диакониса),
где s — среднеквадратическое отклонение, IQR = x0.75 ?x0.25 — межквартиль-
ное расстояние (определение величин s, x0.25 и x0.75 дается ниже). В литературе
также часто встречается правило Стёрджесса для количества групп:
k = 1 + log2 N ? 1 + 1.44 ln N,
однако было показано, что оно некорректно, поэтому использовать его не реко-
мендуется. В качестве значения признака на l-м полуинтервале можно принять
среднее значение признака на этом полуинтервале:
1
xl =
? xl?
Nl
(использовано введенное в предыдущей главе обозначение xl? всех наблюдений,
попавших в l-ю группу). Однако, как правило, в качестве этого значения прини-
мается середина полуинтервала:
1 ?l
xl =
? (zl + zl?1 ) = zl?1 + ,
2 2
Nl
?l = ,
N
— относительные частоты признака или оценки вероятностей (эмпиричес-
кие вероятности) попадания значений признака в l-й полуинтервал, то есть
?1 = P (z0 x z1 ), ?l = P (zl?1 < x zl ) , l = 2, . . . , k.
?l
(2.1)
fl =
?l
— плотности относительной частоты или оценки плотности вероятности.
50 Глава 2. Описательная статистика

Очевидно, что
f, F
?l = 1, или (2.2)
fl ?l = 1.
1
Далее:
кумулята
l l
?l , или Fl = (2.3)
Fl = f l ?l ,
l =1 l =1

— накопленные относительные частоты или
оценки вероятностей того, что значение признака
не превысит zl , т.е. Fl = P (x zl ).
гистограмма
Крайние значения этих величин равны 0 и 1:
полигон
F0 = 0, Fk = 1.
Числа ?l , fl , Fl (l = 1, . . . , k) характеризу-
ют разные аспекты распределения частот количе-
ственного признака. Понятно, что, если размеры
полуинтервалов одинаковы, ?l и fl различают-
Рис. 2.1. Графическое изображение ся с точностью до общей нормировки и являются
плотностей частоты
одинаковыми характеристиками распределения.
Графическое изображение плотностей частоты называется гистограммой, а на-
копленных частот — кумулятой. Поскольку плотности частот неизменны на каж-
дом полуинтервале, гистограмма ступенчатая функция (точнее, график ступенча-
той функции). Накопленные частоты линейно растут на каждом полуинтервале,
поэтому кумулята — кусочно-линейная функция. Вид этих графиков приведен на
рисунке 2.1.
Еще один графический образ плотностей
частоты называется полигоном. Этот график 1
образован отрезками, соединяющими середи-
ны ступенек гистограммы. При этом первый F
отрезок соединяет середину первой ступень-
ки с точкой z0 оси абсцисс, последний от-
резок — середину последней ступеньки с точ-
f
кой zk .
Теоретически можно представить ситуа-
цию, когда N и k > ?, при этом следует Рис. 2.2
допустить, что z0 > ??, а zk > +?. В ре-
зультате функции f (z) и F (z), графиками которых были гистограмма и кумулята,
станут гладкими (рис. 2.2). В математической статистике их называют, соответ-
ственно, функцией плотности распределения вероятности и функцией распре-
деления вероятностей случайной величины (см. Приложение A.3.1).
51
2.1. Распределение частот количественного признака

Формулы (2.1–2.3) преобразуются, соответственно, в
+? z
dF (z)
= f (z) , f (z) dz = 1, F (z) = f z dz .
dz
?? ??


Обычно функции f и F записываются
с аргументом, обозначенным символом слу-
чайной величины: f (x) и F (x). При этом
предполагается, что в такой записи x есть
детерминированный «образ» соответствую-
щей случайной величины (в математической
статистике для этого часто используют со-
ответствующие прописные символы: f (X)
и F (X)). Такие функции являются теорети- 0
ческими и выражают различные законы рас-
пределения, к которым лишь приближаются Рис. 2.3
эмпирические распределения.
Наиболее распространенным в природе является так называемый закон нор-
мального распределения, плотность которого в простейшем случае (при нулевом
математическом ожидании и единичной дисперсии) описывается следующей функ-
цией:
x2
1
f (x) = v e? 2
2?

Ее график, часто называемый кривой
асимметрия Гаусса, изображен на рисунке 2.3.
Наиболее вероятное значение величи-
идеальная
правая левая
идеальная
ны, имеющей такое распределение, — нуль.
Распределение ее симметрично, и вероят-
ность быстро падает по мере увеличения ее
абсолютной величины. Обычно такое рас-
пределение имеют случайные ошибки изме-
рения (при разной дисперсии).
Различают несколько типов распределе-
ний признака (случайной величины).
На рисунке 2.4 показаны асимметрич-
Рис. 2.4
ные или скошенные распределения: с пра-
вой и левой асимметрией, идеальная правая и идеальная левая асимметрия. При
правой (левой) асимметрии распределение скошено в сторону больших (меньших)
52 Глава 2. Описательная статистика

значений. При идеальной правой (левой) асимметрии вероятность падает (увели-
чивается) с ростом значения величины на всем интервале ее значений, наиболее
вероятно ее минимальное (максимальное) значение. В данном случае идеальными
названы распределения с предельной асимметрией.
На рисунке 2.5 приведен вид высоко-
или островершинных и низко- или плоско-
1
вершинных распределений. В первом слу-
чае основная часть значений признака со-
предельное
остро-
островершинное средоточена в узкой центральной области
вершинное
распределения, во втором — центральная
плоско-
вершинное область распределения «размыта». Плос-
ковершинное распределение в пределе пре-
равномерное вращается в равномерное, плотность кото-
рого одинакова на всем интервале значений.
Предельным островершинным распределе-
нием является вертикальный отрезок еди-
ничной длины — распределение детермини-
Рис. 2.5 рованной величины.
Распределения с одним пиком плотности вероятности называют унимодальны-
ми. На рисунке 2.6 приведен пример бимодального распределения и предельного
бимодального распределения, называемого U-образным. В общем случае распре-
деление с несколькими пиками плотности называют полимодальным.
В математической статистике множе-
бимодальное
ство всех теоретически возможных значе-
U-образное
ний случайной величины x, характеризу-
емое функциями f и F , называют гене-
ральной совокупностью, а ряд наблюде-
ний x1 , . . . , xN — выборочной совокуп-
ностью, или выборкой.
Вообще говоря, гистограмму и кумуляту
Рис. 2.6
можно построить непосредственно по дан-
ным ряда наблюдений без предварительной группировки. Если предположить для
простоты, что все значения в ряде наблюдений различны, то k принимается равным
N . В качестве границ полуинтервалов zi , i = 1, . . . , N ? 1 принимаются полу-
суммы двух соседних значений в ряде наблюдений, упорядоченном по возрастанию
(строго говоря, само упорядочение является операцией группировки в простейшем
случае):

1
zi = (xi + xi+1 ).
2
53
2.2. Средние величины

В качестве z0 и zN естественно принять, соответственно, 2x1 ? z1
и 2xN ? zN ?1 , так что первое и последнее значение в ряде наблюдений оказы-
ваются в точности на середине своих полуинтервалов. Относительные частоты для
всех полуинтервалов одинаковы и равны 1 N . Однако плотность частоты раз-
личается: она тем выше, чем короче полуинтервал, т.е. чем плотнее наблюдения
расположены на числовой оси.


2.2. Средние величины
Средние величины, или просто средние, являются особым подклассом интен-
сивных величин, т.к. рассчитываются как отношения других величин. Они выступа-
ют наиболее общими характеристиками совокупности объектов. Каждая средняя
рассчитывается по конкретному признаку, характеризующему объекты совокупно-
сти, и является качественно такой же величиной, имеет те же единицы измерения
или ту же размерность (или она безразмерна), что и усредняемый признак. Характер
средних по объемным и относительным величинам несколько различается. Ниже
рассматриваются сначала средние объемные и на их примере — виды средних,
затем — средние относительные величины.
Пусть xi — некоторый объемный признак i-го объекта, 1, . . . , N , то есть
количество объектов в совокупности равно N , как и прежде, x = xi , тогда
i
расчет среднего по совокупности значения данного объемного признака, который
обычно обозначается тем же символом, но без индекса объекта и с чертой над
символом, осуществляется по следующей формуле:
1 1
x=
? x= xi .
N N i

Это — среднее арифметическое (среднеарифметическое) простое или сред-
няя арифметическая (среднеарифметическая) простая. Оно является отноше-
нием двух объемных величин: суммарного по совокупности признака и количества
объектов в совокупности.
Пусть теперь вся совокупность делится на k групп, Nl — количество объектов
в l-й группе, N = Nl , значение признака внутри каждой группы не варьируется
l
и равняется xl . Тогда
1 Nl
?l xl , где ?l = ?l = 1 — вес l-й группы.
x=
? Nl xl = ,
N N
l l

Это — среднее арифметическое (среднеарифметическое) взвешенное (сред-
неарифметическая взвешенная).
54 Глава 2. Описательная статистика

К аналогичной формуле для средней по исходной совокупности можно придти
и иначе. Пусть, как и сначала, признак варьирует по всем объектам совокупности,
а xl — среднеарифметическое простое по l-й группе. Очевидно, что
?

и
x= Nl xl ,
? x=
? ?l xl .
?

По такой же формуле производится расчет средней по данным эмпирического
распределения частот признака (см. предыдущий пункт). В качестве xl в таком
?
случае принимают не среднее по l-й группе, а, как отмечалось выше, середину l-го
полуинтервала.
Предполагая, что все объекты совокупности имеют разные веса (вес i-го объ-
екта равен ?i ), среднее по совокупности записывается как взвешенное:

x= ?i xi .

Это — более общая формула среднеарифметического: при равных весах,
то есть в случае, если ?i = 1 N для всех i, она преобразуется в формулу средне-
арифметического простого.
Для нахождения средней величины типа запаса за некоторый период време-
ни используется среднее арифметическое взвешенное, называемая средним хро-
нологическим (или средней хронологической). Смысл этой величины поясняется
рисунком 2.7.
Среднюю хронологическую x надо найти так, что-
?
бы площадь ABCD под линией динамики x(t) (BC),
x(t)
x
C т.е. сумма значений показателя за период, равнялась
_ E
x площади прямоугольника AEF D под линией средней
F
EF (см. рис. 2.7).
B
Другими словами, для расчета средней хронологи-
ческой используется формула:
A D t

площадь ABCD
Рис. 2.7 x=
? .
длина AD

На практике в дискретном случае этот расчет можно провести следующим об-
разом.
Пусть x0 , x1 , . . . , xN — значения некоторой объемной величины типа запаса
в моменты времени t0 , t1 , . . . , tN , и ?i = ti ? ti?1 , i = 1, . . . , N , ? = ?i
(длина AD).
Если предположить, что на каждом временном отрезке ?i динамика показателя
xi + xi?1
линейна, то его суммарное значение на этом отрезке рассчитывается как ?i ,
2
55
2.2. Средние величины

и для общей средней хронологической справедливо соотношение:

N
1
x=
? ?i (xi + xi?1 ).
2? i=1


В выражении этой величины как среднеарифметической взвешенной веса име-
ют следующие значения:
?1 ?i + ?i+1 ?N
, i = 1, . . . , N ? 1, ?N =
?0 = , ?i = .
2? 2? 2?

Их сумма равна единице.
Если все временные отрезки ?i одинаковы, то веса первого и последнего x
в средней хронологической будут равняться 1 2N , а веса всех промежуточных
«x-ов» — 1 N .
На практике чаще всего рассчитывают средние величины типа запаса за период
времени (обычно за год) по данным на начало и конец этого периода (года). Т.е. ре-
шается задача нахождения средней хронологической x за некоторый период, для
?
которого известно значение показателя на начало — x0 и конец периода — x1 .
Эта величина, чаще всего, находится как средневзвешенное арифметическое:

x = (1 ? ?) x0 + ?x1 , ? = x1 ? x0 .
или или
? x = x0 + ??,
?

Если динамика показателя равномерна (линейна), то ? = 1 2 ; если более
интенсивные сдвиги в величине показателя происходят в 1-й половине периода,
то ? > 1 2 ; в противном случае — ? < 1 2 . В советской статистике при расче-
те, например, среднегодовых основных фондов ? принимался в интервале от 0.3
до 0.4, поскольку в плановой экономике вводы и выбытия фондов обычно сдвига-
ются к концу года — к моменту отчета по плану. Этот параметр иногда называют
среднегодовым коэффициентом.
При предположении, что на данном отрезке времени неизменным остается от-
носительный прирост (моментный темп прироста), и динамика имеет экспоненци-
альный характер, справедливы следующие выражения (как и прежде, ? — длина
данного временного отрезка, ? — прирост показателя за период):

x1 t ?
, при 0 t ? ,
xt = x0
x0
?
x1 t ? x1 ? x0
x0 ?
x=
? dt = = .
ln x1 ? ln x0 ln 1 + ? x0
? x0
0
56 Глава 2. Описательная статистика

В знаменателе этого выражения для средней хронологической находится непре-
рывный темп прироста за период (см. п. 1.8), т.е. средняя хронологическая опре-
деляется делением абсолютного прироста на относительный прирост за пери-
од. Это — особый вид средней, которую иногда и называют собственно хро-
нологической.

Чтобы лучше понять ее смысл, полезно найти ее предельное значение при ? > 0.
Для этого логарифм в знаменателе раскладывается в степенной ряд:
2 3 4
? ? ? 1 ? 1 ? 1
? ? + · · ·,
ln 1 + = +
x0 x0 x0 2 x0 4 x0 4

затем сокращается ? в числителе и знаменателе, и он (?) приравнивается нулю.
Искомый предел равен x0 . Таким образом, на бесконечно малых отрезках времени
значение этой величины равно самому показателю, а на конечных отрезках — его
среднему значению при предположении, что темп роста на этом отрезке остается
неизменным.

Возвращаясь к общему случаю N + 1 временной точки, среднюю хронологи-
ческую при предположении неизменности темпа роста внутри каждого временного
периода можно рассчитать следующим образом:
N
xi ? xi?1
1
x=
? ?i .
ln xi ? ln xi?1
? i=1

Несложно убедиться в том, что в случае, если средние в единицу времени темпы
1
xi ?i
роста на всех временных отрезках одинаковы и равны среднему в едини-
xi?1
1
xN ?
цу темпу роста за весь период , среднее хронологическое рассчитывается
x0
только по двум крайним значениям:
xN ? x0
x=
? .
ln xN ? ln x0

Расчет средних хронологических величин типа запаса является необходимой
операцией для приведения этих величин к форме, сопоставимой с величинами ти-
па потока, имеющими другое качество. Так, например, производительность труда
рассчитывается как отношение выпуска продукции за определенный период вре-
мени к средней хронологической занятых в производстве за этот же период. Если
величины типа запаса и потока имеют одно качество (потоки выражают измене-
ние запасов за период времени), то используются и показатели отношения потока
к запасу на начало или конец периода (или наоборот). Так, например, отношение
57
2.2. Средние величины

выбывших в течение года основных фондов к основным фондам на начало года
называется коэффициентом выбытия фондов, а отношение годового ввода фондов
к фондам на конец года — коэффициентом обновления фондов.
Среднеарифметическое является частным случаем так называемого средне-
степенного или среднего степенного, которое рассчитывается по следующей фор-
муле:
1
?i xk k
x=
? .
i


Следует обратить внимание, что эта величина существует не при всех k, если
некоторые из xi отрицательны. Чтобы избежать непринципиальных уточнений,
в дальнейшем предполагается, что все значения признака положительны.
При k = 1 среднее степенное превращается в обычное среднеарифметическое,
при k = 2 это — среднеквадратическое, используемое для оценки степени вари-
ации признака по совокупности, при k = ?1 — среднее гармоническое, примеры
использования которого приводятся при рассмотрении средних относительных ве-
личин, при k = 0 — среднее геометрическое.

Последнее утверждение доказывается путем нахождения предела среднего степен-
ного при k > 0. Для того чтобы сделать такой предельный переход, обе части
формулы среднего степенного возводятся в степень k, затем xk и все xk представ-
? i
ляются разложением в степенные ряды:

k ln x (k ln x)2 (k ln xi )2
? ? k ln xi
+ ··· = + · · · ),
1+ + ?i (1 + +
1! 2! 1! 2!
далее в обеих частях полученного выражения сокращаются единицы (1 = ?i ) ,
и эти обе части делятся на k. Теперь при k = 0 получается следующее равенство:

ln x =
? ?i ln xi ,

x?i , что и требовалось доказать.
откуда x =
? i


Средние геометрические используются при построении некоторых специаль-
ных индексов. Но это тема следующей главы. Простые примеры использования
средней геометрической дает производственная функция.

Пусть в производственной функции Кобба—Дугласа так называемая отдача на мас-
штаб постоянна, т.е. сумма показателей степеней в выражении функции равна еди-
нице, и при увеличении использования ресурсов в одинаковое количество раз выпуск
продукции растет в такое же количество раз:

X = aC ? L1?? ,
58 Глава 2. Описательная статистика

или в более развернутой форме:

X = (CaC )? (LaL )1?? ,

где aC — коэффициент фондоотдачи при нормальном соотношении между основ-
ным капиталом и трудом, aL — коэффициент производительности труда при тех же
нормальных условиях.
Нормальное соотношение труда и капитала определяется сложившимся организа-
ционно-технологическим уровнем производства. Это — фиксированная величина:

C
sn = .
L

Откуда aC = a (sn )??1 , aL = a (sn )? .
Таким образом, в общем случае (при любых соотношениях ресурсов) выпуск про-
дукции является средневзвешенной геометрической потенциального выпуска, ко-
торый мог бы быть обеспечен основным капиталом при нормальном соотношении
его с трудом (величины CaC ), и потенциального выпуска, который обеспечивает-
ся трудом при нормальном его соотношении с капиталом (LaL ). Коэффициент a
в исходной записи производственной функции равен a? a1?? , и он может называть-
CL
ся коэффициентом общей производительности ресурсов, поскольку является также
среднегеометрической нормальной фондоотдачи и нормальной производительности
труда.
Более общая форма связи между выпуском и ресурсами дается производственной
функцией с постоянной эластичностью замены ресурсов. В развернутом виде она
записывается следующим образом:
1
??
?? ??
+ (1 ? ?) (LaL )
X = ? (CaC ) .

Это — пример использования среднего степенного при нецелочисленных значениях
параметра степени, поскольку ? (равный ?k в общей формуле среднего степен-
ного) может принимать любые значения на отрезке [?1, +?] (при ? > 0, в силу
приведенного выше доказательства, производственная функция с постоянной эла-
стичностью замены преобразуется к форме Кобба—Дугласа). От величины это-
го параметра зависят возможности взаимного замещения ресурсов, допускаемые
в данной модели производства. Чем выше его величина, тем более затруднено это
замещение.
Такое свойство производственной функции с постоянной эластичностью замены эк-
вивалентно известному свойству среднего степенного: оно увеличивается с ростом k.

Среднее степенное увеличивается с ростом k, в частности, по возрастанию
средние степенные располагаются в следующем порядке: гармоническое, геомет-
рическое, арифметическое, квадратическое. Это свойство иногда называют мажо-
рантностью средних.
59
2.2. Средние величины

Пусть x(k) — среднее степенное, пусть далее k2 > k1 , и требуется доказать,
?
что x(k1 ) > x(k2 ).
? ?
Эти средние можно записать в следующем виде:
1 1
k1 k1
k1 k1
k2 k2
?i xk2 ?i xk2
x (k1 ) =
? , x (k2 ) =
? ,
i i



и ввести промежуточные обозначения (чтобы не загромождать изложение):

yi = xk2 ,
i
k1
q= ,
k2
f (y) = y q ,
d2 f
= q (q ? 1) y q?2 ,
v= 2
dy
a1 = ?i f (yi ), a2 = f ?i yi .


В этих обозначениях утверждение, которое следует доказать, записывается следую-
щим образом:
1 1
k1 k1
a2 > a1 .

Далее рассматривается три возможных случая:
1) k2 > k1 > 0,

2) k2 > 0 > k1 ,

3) 0 > k2 > k1 .
В первом случае q < 1, v < 0 , т.е. функция f вогнута (выпукла вверх) и a2 > a1
по определению такой функции. После возведения обеих частей этого неравенства
в положительную степень 1 k1 знак его сохраняется, что и завершает доказатель-
ство в этом случае.
Во втором и третьем случаях v > 0, и функция f выпукла (выпукла вниз). Поэто-
му a2 < a1 , и после возведения обеих частей этого неравенства в отрицательную
степень 1 k1 оно меняет знак, приобретая тот, который нужно для завершения
доказательства.

Свойство мажорантности средних выражается и в том, что предельные зна-
чения среднего степенного при k = ±? равны, соответственно, максимальному
и минимальному значению признака в выборке.
60 Глава 2. Описательная статистика

Для доказательства этого факта в выражении среднего выносится за скобки x1 :
1
k
N k
xi
x = x1
? ?1 + ?i .
x1
i=2

1, и при k > ??
Если xi упорядочены по возрастанию и x1 = min xi , то xi x1
k
выражение в скобках стремится к ?i , где k — число объектов, для которых
i=1
усредняемый признак минимален (если минимум единственный, то k = 1), т.е. ко-
нечно. Это выражение возводится в степень 1 k , которая стремится к нулю при
k > ??. Следовательно, среднее степенное при k > ?? равно минимальному
значению усредняемых признаков.
Предположив теперь, что xi упорядочены по убыванию, аналогичным образом мож-
но доказать, что среднее степенное при k > +? равно максимальному значению
признака по совокупности.

Существует наиболее общая запись средневзвешенного:

x = f ?1 (2.4)
? ?i f (xi ) .

Если f — степенная функция xk , то речь идет о средней степенной, если
f — логарифмическая функция ln x, то это — средняя логарифмическая, которая
является частным случаем средней степенной при k = 0, если f — показательная
функция ax , то это — средняя показательная и т.д.
Особенностью средних относительных величин является то, что они, как пра-
вило, рассчитываются как средние взвешенные.
Пусть i-й объект, i = 1, . . . , N характеризуется зависимыми друг от друга
объемными величинами yi и xi . Показателем этой зависимости является отно-
сительная величина ai = yi xi . Это может быть производительность, фондово-
оруженность труда, рентабельность и т.д. Понятно, что средняя по совокупности
объектов относительная величина a (знак черты над символом, обозначающим
среднее относительное, часто опускается) рассчитывается по следующей формуле:
yi
a= ,
xi
которая легко преобразуется в формулу средней взвешенной:
xi
?x ai , где ?x = или
a= ,
i i
xi
1 yi
, где ?y =
a= .
?y i
yi
i
ai
61
2.2. Средние величины

Таким образом, если веса рассчитываются по структуре объемных величин,
стоящих в знаменателе, то средняя относительная является средней взвешенной
арифметической, если эти веса рассчитываются по объемным величинам, стоящим
в числителе, то она является средней взвешенной гармонической.
Формально можно рассчитать простую среднюю (например, арифметическую)
1
a= ai ,
N
но содержательного смысла она иметь не будет. Это становится понятным, как толь-
yi x к общему знаменателю.
ко осуществляется попытка привести слагаемые i
Тем не менее, такая средняя также может использоваться в анализе. Например,
ее иногда полезно сравнить с фактической средней a для выявления некоторых ха-
рактеристик асимметрии распределения признака по совокупности. Если a > a ,
то в совокупности преобладают объекты с повышенной величиной ai , и, по-
видимому, имеет место правая асимметрия, в противном случае в совокупности
больший удельный вес занимают объекты с пониженной ai (левая асимметрия).
Однако в статистике имеются более четкие критерии асимметрии распределения.
Особое место среди средних относительных занимают средние темпы роста.
Темпы роста величин типа потока выражают отношение потока за единицу (пе-
риод) времени к потоку за некоторую предыдущую единицу (предыдущий период)
времени. Темпы роста величин типа запаса показывают отношение запаса в момент
времени к запасу в некоторый предыдущий момент времени. Такой же смысл имеют
и средние темпы роста. Средние за период темпы роста рассчитываются обычно
как средние геометрические.
Пусть x0 , x1 , . . . , xN значения некоторой объемной величины в моменты
времени t0 , t1 , . . . , tN , если эта величина типа запаса, или в последнюю еди-
ницу времени, соответственно, 0-го, 1-го и т.д., N -го периода времени, если
речь идет о величине типа потока (t0 — последняя единица времени 0-го периода,
[ti?1 + 1, ti ] — i-й период). Как и прежде, ?i = ti ? ti?1 , i = 1, . . . , N , ? = ?i .
Предполагается, что i — целые положительные числа.
Тогда
xi
— темп роста за i-й период времени,
?i =
xi?1
N
xN
?i — общий темп роста.
?= =
x0 i=1

Если все периоды одинаковы и равны единице (?i = 1), то средний в единицу
времени темп роста определяется по формуле:
1 1
xN N
? N
?= = ?i ,
x0
62 Глава 2. Описательная статистика

т.е. он равен простому среднему геометрическому темпу по всем периодам.
В общем случае (при разных ?i ) данная формула приобретает вид средневзве-
шенной геометрической:
1
xN ?
??i ,
? ?
?= = i
x0
1/?i
?
где ?i = ?i — средний за единицу времени темп роста в i-м периоде,
?i = ? i ? .
Для величин типа запаса имеется еще одна форма средних темпов роста: от-
ношение средней хронологической за период времени к средней хронологической
за некоторый предыдущий период. Такую форму средних можно рассмотреть на сле-
дующем примере.
Пусть x0 , x1 , x2 — значение величины типа запаса в три момента времени:
на начало первого периода, конец первого периода, который одновременно яв-
ляется началом второго периода, конец второго периода. Оба периода времени
одинаковы. Средние хронологические за первый и второй периоды времени равны,
соответственно,
x1 = (1 ? ?) x0 + ?x1 , x2 = (1 ? ?) x1 + ?x2 .
? ?
? ??
Темп роста средней величины типа запаса ? = x2 x1 можно выразить через
средние взвешенные темпов роста за каждый из двух периодов времени ?1 = x1 x0 ,
?2 = x2 x1 следующим образом:
(1 ? ?) x0 ?x1
? = ?1 ?1 + ?1 ?2 , где ?1 = , ?1 = , ?2 + ?1 = 1, или
?
1 2 1 2 1 2
x1
? x1
?
(1 ? ?) x1
1 ?x2
, где ?2 = , ?2 = , ?2 + ?2 = 1.
?
?= 2 1 2 1 2
2 /?
?1 /?1 + ?2 2 x2
? x2
?
Таким образом, темп роста средней хронологической является средней взве-
шенной арифметической темпов роста за отдельные периоды, если веса рассчиты-
ваются по информации первого периода, или средней взвешенной гармонической,
если веса рассчитываются по информации второго периода.
Если коэффициент ?, представляющий внутрипериодную динамику, различа-
ется по периодам, т.е. динамика величины в разных периодах качественно различна,
то темп роста средней хронологической перестает быть средней арифметической
или гармонической темпов роста по периодам, т.к. сумма весов при этих темпах
роста не будет в общем случае равняться единице.
В разных ситуациях средние темпы роста могут рассчитываться различным об-
разом, что можно проиллюстрировать на простых примерах, взятых из финансовых
расчетов.
63
2.2. Средние величины

В финансовых расчетах аналогом темпа прироста капитала (величины типа запаса)
выступает доходность на вложенный (инвестированный) капитал.
Пусть инвестированный капитал x0 в течение периода ? приносит доход ?. Тогда
капитал к концу периода становится равным x1 = x0 + ?, и доходность капитала за
этот период определяется как
? x1
? 1, т.е. совпадает по форме с темпом прироста.
?= =
x0 x0

Средняя за период доходность в зависимости от поведения инвестора (субъекта,
вложившего капитал) рассчитывается различным образом. Ниже рассматривается
три возможные ситуации.
1) Если позиция инвестора пассивна, и он не реинвестирует полученные доходы
в течение данного периода времени, то средняя доходность в единицу времени опре-
деляется простейшим способом:

? 1 ?.
?=
? x0

Фактически это — средняя арифметическая простая, т.к. ? x0 является общей до-
ходностью за период времени ? . Такой способ расчета средней доходности наиболее
распространен.
Эта формула используется и при ? < 1. Так, обычно доходности за разные периоды
времени приводятся к среднегодовым, т.е. единицей времени является год. Пусть
речь идет, например, о трехмесячном депозите. Тогда ? = 0.25, и среднегодовая
доходность получается умножением на 4 доходности ? x0 за 3 месяца.
?
2) Пусть доходность в единицу времени ? в течение рассматриваемого периода вре-
мени не меняется, но доходы полностью реинвестируются в начале каждой единицы
?
времени. Тогда за каждую единицу времени капитал возрастает в 1 + ? раз, и для
?
нахождения ? используется формула:
1
? ? ?
?
? ? ? 1.
, т.е. ? =
1+ = 1+? 1+
x0 x0

Эта формула справедлива при целых положительных ? . Действительно (предпола-
гается, что начало периода инвестирования имеет на оси времени целую координату),
если ? < 1, ситуация аналогична предыдущей, в которой используется формула про-
стой средней арифметической. Если ? не целое, то такая же проблема возникает
для последней, неполной единицы времени в данном периоде.
??
? ?
Естественно предположить, что ? < 1, тогда 1 + ? > 1 + ? ? (что следует из раз-
1? ?
ложения показательной функции в степенной ряд) и > ?.
? x0
Это соотношение лучше интерпретировать «в обратном порядке»: если по усло-
?
виям инвестиционного контракта ? фиксирована и допускается реинвестирование
64 Глава 2. Описательная статистика

доходов в течение периода, чем пользуется инвестор, то фактическая доходность на
инвестированный капитал будет выше объявленной в контракте.
3) Пусть в течение данного периода времени доходы реинвестируются n раз через
?
равные промежутки времени. Тогда для ? справедлива следующая формула:
n
?
? ??
1+ = 1+
x0 n

(она совпадает с предыдущей в случае n = ? ).
Теоретически можно представить ситуацию непрерывного реинвестирования, ко-
гда n > ?. В таком случае
n
?
?1 ? ?? ?
= e? ? .
, поскольку lim 1 +
? = ln 1 +
? x0 n
n>?



В соответствии с введенной ранее терминологией, это — непрерывный темп при-
роста в единицу времени. Данную формулу можно использовать при любом (есте-
ственно, положительном) ? .
Понятно, что средние доходности в единицу времени, полученные в рассмотренных
трех случаях, находятся в следующем соотношении друг с другом:
1
?
1? ? 1 ?
?1>
> 1+ ln 1 + .
? x0 x0 ? x0
пассивное дискретное непрерывное
поведение реинвестирование реинвестирование


Это соотношение при интерпретации в «обратном порядке» означает, что чем ча-
ще реинвестируется доход, тем выше фактическая доходность на первоначальный
капитал. В финансовых расчетах для приведения доходностей к разным единицам
времени используется 1-я формула.
Теперь рассматривается общий случай с N + 1 моментом времени и расчетом сред-
ней доходности за N подпериодов.
1) Если позиция инвестора пассивна в течение всего периода времени, то средняя
доходность в i-м подпериоде и в целом за период равны:

1 ?i ? 1 ?
?
?i = , ?= ,
?i x0 ? x0
N
где ?i = xi ? xi?1 , ? = ?i = xN ? x0 (? и ?i определены выше). Средняя
i=1
доходность в целом за период удовлетворяет формуле средней взвешенной арифме-
тической:
?i
? ?
?i ?i , где ?i =
?= .
?
65
2.2. Средние величины

2) Пусть теперь доходы реинвестируются в начале каждого подпериода времени.
1 ?i
? ?
Тогда в течение i-го подпериода капитал вырастает в 1 + ?i ?i раз, где ?i = .
?i xi?1
Если предположить, что все подпериоды имеют одинаковую длину ? , то в среднем
?
1/
N
??
за подпериод доход вырастает в раз, и это количество раз равно
1 + ? ?i
??
1 + ? ?. Поэтому
1/
?1
N
?1 .
??
?= 1 + ? ?i
?
?

1
Это формула простой средней приведенного выше общего вида f ?1 f (xi ) ,
N
где f = ln (1 + x).
Аналогичную формулу можно использовать и в случае подпериодов разной длины ?i :
1
?1 1
N
? ? 1 , где ? =
?= 1 + ?i ?i ? ?i .
?
? N

Фактически эти формулы являются вариантами формул простой средней геометри-
ческой.
3) Пусть теперь все ?i являются целыми положительными числами, и реинвести-
рование доходов происходит в начале каждой единицы времени. Тогда
1 ?i 1?
?i ?
? ?
? 1, ? = ? 1.
?i = 1+ 1+
xi?1 x0

Средняя в единицу времени доходность в целом за период равна средней взвешенной
геометрической средних доходностей по подпериодам:
?i
?i
? ? ? 1, где ?i =
?= 1 + ?i .
?

4) Наконец, в теоретическом случае непрерывного инвестирования
1 ?i ?1 ?
?
?i = ln 1 + , ? = ln 1 + ,
?i xi?1 ? x0
и средняя доходность за весь период, как и в первом случае, равна средней взвешен-
ной арифметической средних доходностей по подпериодам:
?i
? ?
?i ?i , где ?i = .
?=
?

В заключение этого раздела следует отметить, что особую роль в статистике
играют средние арифметические. Именно они выступают важнейшей характери-
стикой распределения случайных величин. Так, в обозначениях предыдущего пункта
величину x = ?i xi можно записать как x = xi fi ?i или, при использовании
? ?
теоретической функции плотности распределения, как x = x f (x) dx.
?
66 Глава 2. Описательная статистика

Теоретическое арифметическое среднее, определенное последней формулой,
называется в математической статистике математическим ожиданием. Матема-
тическое ожидание величины x обозначают обычно как E(x), сохраняя обозначе-
ние x для эмпирических средних (см. Приложение A.3.1).
?


2.3. Медиана, мода, квантили

Мода и медиана, наряду со средней, являются характеристиками центра распре-
деления признака. Медиана, обозначаемая в данном тексте через x0.5 , — величина
(детерминированная), которая «делит» совокупность пополам. Теоретически она
такова, что

+?
x0.5

f (x) dx = f (x) dx = 0.5,
?? x0.5


где f (x) — функция распределения (см. Приложение A.3.1).
По выборочным данным x1 , . . . , xN , упорядочен-
ным по возрастанию, за нее принимается x(N +1)/2
в случае, если N нечетно, и (xN/2 + xN/2+1 )/2, если
F1
N четно.
0.5
Fl–1 Значение медианы может быть уточнено, если
по данным выборки построено эмпирическое распре-
x0.5 z
zl–1 деление частот zl , l = 0, . . . , k, ?l , ?l , fl , Fl , l =
l
(zl–1+?l) = 1, . . . , k. Пусть l-й полуинтервал является меди-
анным, т.е. Fl?1 < 0.5 Fl . Тогда, линейно интер-
Рис. 2.8 полируя значения функции распределения F на этом

<<

стр. 2
(всего 28)

СОДЕРЖАНИЕ

>>