Ср арифметическое формула. Среднее арифметическое значение формула

В процессе изучения математики школьники знакомятся с понятием среднего арифметического. В дальнейшем в статистике и некоторых других науках студенты сталкиваются и с вычислением других Какими они могут быть и чем отличаются друг от друга?

смысл и различия

Не всегда точные показатели дают понимание ситуации. Для того чтобы оценить ту или иную обстановку, нужно подчас анализировать огромное количество цифр. И тогда на помощь приходят средние значения. Именно они позволяют оценить ситуацию в общем и целом.

Со школьных времен многие взрослые помнят о существовании среднего арифметического. Его очень просто вычислить - сумма последовательности из n членов делится на n. То есть если нужно вычислить среднее арифметическое в последовательности значений 27, 22, 34 и 37, то необходимо решить выражение (27+22+34+37)/4, поскольку в расчетах используется 4 значения. В данном случае искомая величина будет равна 30.

Часто в рамках школьного курса изучают и среднее геометрическое. Расчет данного значения базируется на извлечении корня n-ной степени из произведения n-членов. Если брать те же числа: 27, 22, 34 и 37, то результат вычислений будет равен 29,4.

Среднее гармоническое в общеобразовательной школе обычно не является предметом изучения. Тем не менее оно используется довольно часто. Эта величина обратна среднему арифметическому и рассчитывается как частное от n - количества значений и суммы 1/a 1 +1/a 2 +...+1/a n . Если снова брать тот же для расчета, то гармоническое составит 29,6.

Средневзвешенное значение: особенности

Однако все вышеперечисленные величины могут быть использованы не везде. Например, в статистике при расчете некоторых важную роль имеет "вес" каждого числа, используемого в вычислениях. Результаты являются более показательными и корректными, поскольку учитывают больше информации. Эта группа величин носит общее название "средневзвешенное значение". Их в школе не проходят, поэтому на них стоит остановиться поподробнее.

Прежде всего, стоит рассказать, что подразумевается под "весом" того или иного значения. Проще всего объяснить это на конкретном примере. Два раза в день в больнице происходит замер температуры тела у каждого пациента. Из 100 больных в разных отделениях госпиталя у 44 будет нормальная температура - 36,6 градусов. У еще 30 будет повышенное значение - 37,2, у 14 - 38, у 7 - 38,5, у 3 - 39, и у двух оставшихся - 40. И если брать среднее арифметическое, то эта величина в общем по больнице будет составлять больше 38 градусов! А ведь почти у половины пациентов совершенно И здесь корректнее будет использовать средневзвешенное значение, а "весом" каждой величины будет количество людей. В этом случае результатом расчета будет 37,25 градусов. Разница очевидна.

В случае средневзвешенных расчетов за "вес" может быть принято количество отгрузок, число работающих в тот или иной день людей, в общем, все что угодно, что может быть измерено и повлиять на конечный результат.

Разновидности

Средневзвешенное значение соотносится со средним арифметическим, рассмотренным в начале статьи. Однако первая величина, как уже было сказано, учитывает также вес каждого числа, использованного в расчетах. Помимо этого существуют также средневзвешенное геометрическое и гармоническое значения.

Имеется еще одна интересная разновидность, используемая в рядах чисел. Речь идет о взвешенном скользящем среднем значении. Именно на его основе рассчитываются тренды. Помимо самих значений и их веса там также используется периодичность. И при вычислении среднего значения в какой-то момент времени также учитываются величины за предыдущие временные отрезки.

Расчет всех этих значений не так уж и сложен, однако на практике обычно используется только обычное средневзвешенное значение.

Способы расчета

В век повальной компьютеризации нет необходимости вычислять средневзвешенное значение вручную. Однако нелишним будет знать формулу расчета, чтобы можно было проверить и при необходимости откорректировать полученные результаты.

Проще всего будет рассмотреть вычисление на конкретном примере.

Необходимо узнать, какая же средняя оплата труда на этом предприятии с учетом количества рабочих, получающих тот или иной заработок.

Итак, расчет средневзвешенного значения производится с помощью такой формулы:

x = (a 1 *w 1 +a 2 *w 2 +...+a n *w n)/(w 1 +w 2 +...+w n)

Для примера же вычисление будет таким:

x = (32*20+33*35+34*14+40*6)/(20+35+14+6) = (640+1155+476+240)/75 = 33,48

Очевидно, что нет особых сложностей с тем, чтобы вручную рассчитать средневзвешенное значение. Формула же для вычисления этой величины в одном из самых популярных приложений с формулами - Excel - выглядит как функция СУММПРОИЗВ (ряд чисел; ряд весов)/СУММ (ряд весов).

5.1. Понятие средней величины

Средняя величина – это обобщающий показатель, характеризующий типический уровень явления. Он выражает величину признака, отнесенную к единице совокупности.

Средняя всегда обобщает количественную вариацию признака, т.е. в средних величинах погашаются индивидуальные различия единиц совокупности, обусловленные случайными обстоятельствами. В отличие от средней абсолютная величина, характеризующая уровень признака отдельной единицы совокупности, не позволяет сравнивать значения признака у единиц, относящихся к разным совокупностям. Так, если нужно сопоставить уровни оплаты труда работников на двух предприятиях, то нельзя сравнивать по данному признаку двух работников разных предприятий. Оплата труда выбранных для сравнения работников может быть не типичной для этих предприятий. Если же сравнивать размеры фондов оплаты труда на рассматриваемых предприятиях, то не учитывается численность работающих и, следовательно, нельзя определить, где уровень оплаты труда выше. В конечном итоге сравнить можно лишь средние показатели, т.е. сколько в среднем получает один работник на каждом предприятии. Таким образом, возникает необходимость расчета средней величины как обобщающей характеристики совокупности.

Вычисление среднего – один из распространенных приемов обобщения; средний показатель отрицает то общее, что характерно (типично) для всех единиц изучаемой совокупности, в то же время он игнорирует различия отдельных единиц. В каждом явлении и его развитии имеет место сочетание случайности и необходимости. При исчислении средних в силу действия закона больших чисел случайности взаимопогашаются, уравновешиваются, поэтому можно абстрагироваться от несущественных особенностей явления, от количественных значений признака в каждом конкретном случае. В способности абстрагироваться от случайности отдельных значений, колебаний и заключена научная ценность средних как обобщающих характеристик совокупностей.

Для того, чтобы средний показатель был действительно типизирующим, он должен рассчитываться с учетом определенных принципов.

Остановимся на некоторых общих принципах применения средних величин.
1. Средняя должна определяться для совокупностей, состоящих из качественно однородных единиц.
2. Средняя должна исчисляться для совокупности, состоящей из достаточно большого числа единиц.
3. Средняя должна рассчитываться для совокупности, единицы которой находятся в нормальном, естественном состоянии.
4. Средняя должна вычисляться с учетом экономического содержания исследуемого показателя.

5.2. Виды средних и способы их вычисления

Рассмотрим теперь виды средних величин, особенности их исчисления и области применения. Средние величины делятся на два больших класса: степенные средние, структурные средние.

К степенным средним относятся такие наиболее известные и часто применяемые виды, как средняя геометрическая, средняя арифметическая и средняя квадратическая.

В качестве структурных средних рассматриваются мода и медиана.

Остановимся на степенных средних. Степенные средние в зависимости от представления исходных данных могут быть простыми и взвешенными. Простая средняя считается по не сгруппированным данным и имеет следующий общий вид:

где X i – варианта (значение) осредняемого признака;

n – число вариант.

Взвешенная средняя считается по сгруппированным данным и имеет общий вид

,

где X i – варианта (значение) осредняемого признака или серединное значение интервала, в котором измеряется варианта;
m – показатель степени средней;
f i – частота, показывающая, сколько раз встречается i-e значение осредняемого признака.

Приведем в качестве примера расчет среднего возраста студентов в группе из 20 человек:


Средний возраст рассчитаем по формуле простой средней:

Сгруппируем исходные данные. Получим следующий ряд распределения:

В результате группировки получаем новый показатель – частоту, указывающую число студентов в возрасте Х лет. Следовательно, средний возраст студентов группы будет рассчитываться по формуле взвешенной средней:

Общие формулы расчета степенных средних имеют показатель степени (m). В зависимости от того, какое значение он принимает, различают следующие виды степенных средних:
средняя гармоническая, если m = -1;
средняя геометрическая, если m –> 0;
средняя арифметическая, если m = 1;
средняя квадратическая, если m = 2;
средняя кубическая, если m = 3.

Формулы степенных средних приведены в табл. 4.4.

Если рассчитать все виды средних для одних и тех же исходных данных, то значения их окажутся неодинаковыми. Здесь действует правило мажорантности средних: с увеличением показателя степени m увеличивается и соответствующая средняя величина:

В статистической практике чаще, чем остальные виды средних взвешенных, используются средние арифметические и средние гармонические взвешенные.

Таблица 5.1

Виды степенных средних

Вид степенной
средней
Показатель
степени (m)
Формула расчета
Простая Взвешенная
Гармоническая -1
Геометрическая 0
Арифметическая 1
Квадратическая 2
Кубическая 3

Средняя гармоническая имеет более сложную конструкцию, чем средняя арифметическая. Среднюю гармоническую применяют для расчетов тогда, когда в качестве весов используются не единицы совокупности – носители признака, а произведения этих единиц на значения признака (т.е. m = Xf). К средней гармонической простой следует прибегать в случаях определения, например, средних затрат труда, времени, материалов на единицу продукции, на одну деталь по двум (трем, четырем и т.д.) предприятиям, рабочим, занятым изготовлением одного и того же вида продукции, одной и той же детали, изделия.

Главное требование к формуле расчета среднего значения заключается в том, чтобы все этапы расчета имели реальное содержательное обоснование; полученное среднее значение должно заменить индивидуальные значения признака у каждого объекта без нарушения связи индивидуальных и сводных показателей. Иначе говоря, средняя величина должна исчисляться так, чтобы при замене каждого индивидуального значения осредняемого показателя его средней величиной оставался без изменения некоторый итоговый сводный показатель, связанный тем или другим образом с осредняемым . Этот итоговый показатель называется определяющим, поскольку характер его взаимосвязи с индивидуальными значениями определяет конкретную формулу расчета средней величины. Покажем это правило на примере средней геометрической.

Формула средней геометрической

используется чаще всего при расчете среднего значения по индивидуальным относительным величинам динамики.

Средняя геометрическая применяется, если задана последовательность цепных относительных величин динамики, указывающих, например, на рост объема производства по сравнению с уровнем предыдущего года: i 1 , i 2 , i 3 ,..., i n . Очевидно, что объем производства в последнем году определяется начальным его уровнем (q 0) и последующим наращиванием по годам:

q n =q 0 × i 1 × i 2 ×...×i n .

Приняв q n в качестве определяющего показателя и заменяя индивидуальные значения показателей динамики средними, приходим к соотношению

Отсюда

5.3. Структурные средние

Особый вид средних величин – структурные средние – применяется для изучения внутреннего строения рядов распределения значений признака, а также для оценки средней величины (степенного типа), если по имеющимся статистическим данным ее расчет не может быть выполнен (например, если бы в рассмотренном примере отсутствовали данные и об объеме производства, и о сумме затрат по группам предприятий).

В качестве структурных средних чаще всего используют показатели моды – наиболее часто повторяющегося значения признака – и медианы – величины признака, которая делит упорядоченную последовательность его значений на две равные по численности части. В итоге у одной половины единиц совокупности значение признака не превышает медианного уровня, а у другой – не меньше его.

Если изучаемый признак имеет дискретные значения, то особых сложностей при расчете моды и медианы не бывает. Если же данные о значениях признака Х представлены в виде упорядоченных интервалов его изменения (интервальных рядов), расчет моды и медианы несколько усложняется. Поскольку медианное значение делит всю совокупность на две равные по численности части, оно оказывается в каком-то из интервалов признака X. С помощью интерполяции в этом медианном интервале находят значение медианы:

,

где X Me – нижняя граница медианного интервала;
h Me – его величина;
(Sum m)/2 – половина от общего числа наблюдений или половина объема того показателя, который используется в качестве взвешивающего в формулах расчета средней величины (в абсолютном или относительном выражении);
S Me-1 – сумма наблюдений (или объема взвешивающего признака), накопленная до начала медианного интервала;
m Me – число наблюдений или объем взвешивающего признака в медианном интервале (также в абсолютном либо относительном выражении).

В нашем примере могут быть получены даже три медианных значения – исходя из признаков количества предприятий, объема продукции и общей суммы затрат на производство:

Таким образом, у половины предприятий уровень себестоимость единицы продукции превышает 125,19 тыс. руб., половина всего объема продукции производится с уровнем затрат на изделие больше 124,79 тыс. руб. и 50 % общей суммы затрат образуется при уровне себестоимости одного изделия выше 125,07 тыс. руб. Заметим также, что наблюдается некоторая тенденция к росту себестоимости, так как Ме 2 = 124,79 тыс. руб., а средний уровень равен 123,15 тыс. руб.

При расчете модального значения признака по данным интервального ряда надо обращать внимание на то, чтобы интервалы были одинаковыми, поскольку от этого зависит показатель повторяемости значений признака X. Для интервального ряда с равными интервалами величина моды определяется как

где Х Mo – нижнее значение модального интервала;
m Mo – число наблюдений или объем взвешивающего признака в модальном интервале (в абсолютном либо относительном выражении);
m Mo -1 – то же для интервала, предшествующего модальному;
m Mo+1 – то же для интервала, следующего за модальным;
h – величина интервала изменения признака в группах.

Для нашего примера можно рассчитать три модальных значения исходя из признаков числа предприятий, объема продукции и суммы затрат. Во всех трех случаях модальный интервал один и тот же, так как для одного и того же интервала оказываются наибольшими и число предприятий, и объем продукции, и общая сумма затрат на производство:

Таким образом, чаще всего встречаются предприятия с уровнем себестоимости 126,75 тыс. руб., чаще всего выпускается продукция с уровнем затрат 126,69 тыс. руб., и чаще всего затраты на производство объясняются уровнем себестоимости в 123,73 тыс. руб.

5.4. Показатели вариации

Конкретные условия, в которых находится каждый из изучаемых объектов, а также особенности их собственного развития (социальные, экономические и пр.) выражаются соответствующими числовыми уровнями статистических показателей. Таким образом, вариация, т.е. несовпадение уровней одного и того же показателя у разных объектов, имеет объективный характер и помогает познать сущность изучаемого явления.

Для измерения вариации в статистике применяют несколько способов.

Наиболее простым является расчет показателя размаха вариации Н как разницы между максимальным (X max) и минимальным (X min) наблюдаемыми значениями признака:

H=X max - X min .

Однако размах вариации показывает лишь крайние значения признака. Повторяемость промежуточных значений здесь не учитывается.

Более строгими характеристиками являются показатели колеблемости относительно среднего уровня признака. Простейший показатель такого типа – среднее линейное отклонение Л как среднее арифметическое значение абсолютных отклонений признака от его среднего уровня:

При повторяемости отдельных значений Х используют формулу средней арифметической взвешенной:

(Напомним, что алгебраическая сумма отклонений от среднего уровня равна нулю.)

Показатель среднего линейного отклонения нашел широкое применение на практике. С его помощью анализируются, например, состав работающих, ритмичность производства, равномерность поставок материалов, разрабатываются системы материального стимулирования. Но, к сожалению, этот показатель усложняет расчеты вероятностного типа, затрудняет применение методов математической статистики. Поэтому в статистических научных исследованиях для измерения вариации чаще всего применяют показатель дисперсии.

Дисперсия признака (s 2) определяется на основе квадратической степенной средней:

.

Показатель s, равный , называется средним квадратическим отклонением.

В общей теории статистики показатель дисперсии является оценкой одноименного показателя теории вероятностей и (как сумма квадратов отклонений) оценкой дисперсии в математической статистике, что позволяет использовать положения этих теоретических дисциплин для анализа социально-экономических процессов.

Если вариация оценивается по небольшому числу наблюдений, взятых из неограниченной генеральной совокупности, то и среднее значение признака определяется с некоторой погрешностью. Расчетная величина дисперсии оказывается смещенной в сторону уменьшения. Для получения несмещенной оценки выборочную дисперсию, полученную по приведенным ранее формулам, надо умножить на величину n / (n - 1). В итоге при малом числе наблюдений (< 30) дисперсию признака рекомендуется вычислять по формуле

Обычно уже при n > (15÷20) расхождение смещенной и несмещенной оценок становится несущественным. По этой же причине обычно не учитывают смещенность и в формуле сложения дисперсий.

Если из генеральной совокупности сделать несколько выборок и каждый раз при этом определять среднее значение признака, то возникает задача оценки колеблемости средних. Оценить дисперсию среднего значения можно и на основе всего одного выборочного наблюдения по формуле

,

где n – объем выборки; s 2 – дисперсия признака, рассчитанная по данным выборки.

Величина носит название средней ошибки выборки и является характеристикой отклонения выборочного среднего значения признака Х от его истинной средней величины. Показатель средней ошибки используется при оценке достоверности результатов выборочного наблюдения.

Показатели относительного рассеивания. Для характеристики меры колеблемости изучаемого признака исчисляются показатели колеблемости в относительных величинах. Они позволяют сравнивать характер рассеивания в различных распределениях (различные единицы наблюдения одного и того же признака в двух совокупностях, при различных значениях средних, при сравнении разноименных совокупностей). Расчет показателей меры относительного рассеивания осуществляют как отношение абсолютного показателя рассеивания к средней арифметической, умножаемое на 100%.

1. Коэффициентом осцилляции отражает относительную колеблемость крайних значений признака вокруг средней

.

2. Относительное линейное отключение характеризует долю усредненного значения признака абсолютных отклонений от средней величины

.

3. Коэффициент вариации:

является наиболее распространенным показателем колеблемости, используемым для оценки типичности средних величин.

В статистике совокупности, имеющие коэффициент вариации больше 30–35 %, принято считать неоднородными.

У такого способа оценки вариации есть и существенный недостаток. Действительно, пусть, например, исходная совокупность рабочих, имеющих средний стаж 15 лет, со средним квадратическим отклонением s = 10 лет, «состарилась» еще на 15 лет. Теперь = 30 лет, а среднеквадратическое отклонение по-прежнему равно 10. Совокупность, ранее бывшая неоднородной (10/15 × 100 = 66,7%), со временем оказывается, таким образом, вполне однородной (10/30 × 100 = 33,3 %).

Боярский А.Я. Теоретические исследования по статистике: Сб. Науч. Трудов.– М.: Статистика,1974. С. 19–57.

Предыдущая

По дисциплине: Статистика

Вариант № 2

Средние величины, применяемые в статистике

Введение………………………………………………………………………….3

Теоретическое задание

Средняя величина в статистике, ее сущность и условия применения.

1.1. Сущность средней величины и условия применения………….4

1.2. Виды средних величин……………………………………………8

Практическое задание

Задача 1,2,3………………………………………………………………………14

Заключение……………………………………………………………………….21

Список используемой литературы……………………………………………...23

Введение

Данная контрольная работа состоит из двух частей – теоретической и практической. В теоретической части будет подробно рассмотрена такая важная статистическая категория как средняя величина с целью выявления её сущности и условий применения, а также выделения видов средних и способов их расчёта.

Статистика, как известно, изучает массовые социально-экономические явления. Каждое из этих явлений может иметь различное количественное выражение одного и того же признака. Например, заработная плата одной и той же профессии рабочих или цены на рынке на один и тот же товар и т.д. Средние величины характеризуют качественные показатели коммерческой деятельности: издержки обращения, прибыль, рентабельность и др.

Для изучения какой-либо совокупности по варьирующим (количественно изменяющимся) признакам статистика использует средние величины.

Сущность средней величины

Средняя величина - это обобщающая количественная характеристика совокупности однотипных явлений по одному варьирующему признаку. В экономической практике используется широкий круг показателей, вычисленных в виде средних величин.

Важнейшее свойство средней величины заключается в том, что она представляет значение определенного признака во всей совокупности одним числом, несмотря на количественные различия его у отдельных единиц совокупности, и выражает то общее, что присуще всем единицам изучаемой совокупности. Таким образом, через характеристику единицы совокупности она характеризует всю совокупность в целом.

Средние величины связаны с законом больших чисел. Суть этой связи заключается в том, что при осреднении случайные отклонения индивидуальных величин в силу действия закона больших чисел взаимопогашаются и в средней выявляется основная тенденция развития, необходимость, закономерность. Средние величины позволяют сравнивать показатели, относящиеся к совокупностям с различной численностью единиц.

В современных условиях развития рыночных отношений в экономике средние служат инструментом изучения объективных закономерностей социально-экономических явлений. Однако в экономическом анализе нельзя ограничиваться лишь средними показателями, так как за общими благоприятными средними могут скрываться и крупные серьезные недостатки в деятельности отдельных хозяйствующих субъектов, и ростки нового, прогрессивного. Например, распределение населения по доходу позволяет выявлять формирование новых социальных групп. Поэтому наряду со средними статистическими данными необходимо учитывать особенности отдельных единиц совокупности.

Средняя величина являются равнодействующей всех факторов, оказывающих влияние на изучаемое явление. То есть, при расчете средних величин взаимопогашаются влияние случайных (пертурбационных, индивидуальных) факторов и, таким образом, возможно определение закономерности, присущей исследуемому явлению. Адольф Кетле подчеркивал, что значение метода средних величин состоит в возможности перехода от единичного к общему, от случайного к закономерному, и существование средних величин является категорией объективной действительности.

Статистика изучает массовые явления и процессы. Каждое из таких явлений обладает как общими для всей совокупности, так и особенными, индивидуальными свойствами. Различие между индивидуальными явлениями называют вариацией. Другое свойство массовых явлений - присущая им близость характеристик отдельных явлений. Итак, взаимодействие элементов совокупности приводит к ограничению вариации хотя бы части их свойств. Эта тенденция существует объективно. Именно в её объективности заключается причина широчайшего применения средних величин на практике и в теории.

Средней величиной в статистике называется обобщающий показатель, характеризующий типичный уровень явления в конкретных условиях места и времени, отражающий величину варьирующего признака в расчёте на единицу качественно однородной совокупности.

В экономической практике используется широкий круг показателей, вычисленный в виде средних величин.

С помощью метода средних величин статистика решает много задач.

Главное значение средних состоит в их обобщающей функции, то есть замене множества различных индивидуальных значений признака средней величиной, характеризующей всю совокупность явлений.

Если средняя величина обобщает качественно однородные значения признака, то она является типической характеристикой признака в данной совокупности.

Однако неправильно сводить роль средних величин только к характеристике типичных значений признаков в однородных по данному признаку совокупностях. На практике значительно чаще современная статистика использует средние величины, обобщающие явно однородные явления.

Средняя величина национального дохода на душу населения, средняя урожайность зерновых культур по всей стране, среднее потребление разных продуктов питания – это характеристики государства как единой народнохозяйственной системы, это так называемые системные средние.

Системные средние могут характеризовать как пространственные или объектные системы, существующие одномоментно (государство, отрасль, регион, планета Земля и т.д.), так и динамические системы, протяжённые во времени (год, десятилетие, сезон и т.д.).

Важнейшее свойство средней величины заключается в том, что она отражает то общее, что присуще всем единицам исследуемой совокупности. Значения признака отдельных единиц совокупности колеблются в ту или иную сторону под влиянием множества факторов, среди которых могут быть как основные, так и случайные. Например, курс акций корпорации в целом определяется ее финансовым положением. В то же время, в отдельные дни и на отдельных биржах эти акции в силу сложившихся обстоятельств могут продаваться по более высокому или заниженному курсу. Сущность средней в том и заключается, что в ней взаимопогашаются отклонения значений признака отдельных единиц совокупности, обусловленные действием случайных факторов, и учитываются изменения, вызванные действием факторов основных. Это позволяет средней отражать типичный уровень признака и абстрагироваться от индивидуальных особенностей, присущих отдельным единицам.

Вычисление среднего - один из распространённых приёмов обобщения; средний показатель отражает то общее, что характерно (типично) для всех единиц изучаемой совокупности, в то же время он игнорирует различия отдельных единиц. В каждом явлении и его развитии имеет место сочетание случайности и необходимости.

Средняя – это сводная характеристика закономерностей процесса в тех условиях, в которых он протекает.

Каждая средняя характеризует изучаемую совокупность по какому-либо одному признаку, но для характеристики любой совокупности, описания её типических черт и качественных особенностей нужна система средних показателей. Поэтому в практике отечественной статистики для изучения социально-экономических явлений, как правило, исчисляется система средних показателей. Так, например, показатель средней заработной платы оцениваются совместно с показателями средней выработки, фондовооружённости и энерговооружённости труда, степенью механизации и автоматизации работ и др.

Средняя должна вычисляться с учётом экономического содержания исследуемого показателя. Поэтому для конкретного показателя, используемого в социально экономическом анализе, можно исчислить только одно истинное значение средней на базе научного способа расчёта.

Средняя величина это один из важнейших обобщающих статистических показателей, характеризующий совокупность однотипных явлений по какому-либо количественно варьирующему признаку. Средние в статистике это обобщающие показатели, числа, выражающие типичные характерные размеры общественных явлений по одному количественно варьирующему признаку.

Виды средних величин

Виды средних величин различаются прежде всего тем, какое свойство, какой параметр исходной варьирующей массы индивидуальных значений признака должен быть сохранен неизменным.

Средняя арифметическая

Средней арифметической величиной называется такое среднее значение признака, при вычислении которого общий объём признака в совокупности остаётся неизменным. Иначе можно сказать, что средняя арифметическая величина – среднее слагаемое. При её вычислении общий объём признака мысленно распределяется поровну между всеми единицами совокупности.

Средняя арифметическая применяется, если известны значения осредняемого признака (х) и количество единиц совокупности с определённым значением признака (f).

Средняя арифметическая бывает простой и взвешенной.

Средняя арифметическая простая

Простая используется, если каждое значение признака х встречается один раз, т.е. для каждого х значение признака f=1, или если исходные данные не упорядочены и неизвестно, сколько единиц имеют определённые значения признака.

Формула средней арифметической простой имеет вид:

где - средняя величина; х – значение осредняемого признака (варианта), - число единиц изучаемой совокупности.

Средняя арифметическая взвешенная

В отличие от простой средней средняя арифметическая взвешенная применяется, если каждое значение признака х встречается несколько раз, т.е. для каждого значения признака f≠1. Данная средняя широко используется при исчислении средней на основании дискретного ряда распределения:

где - число групп, х – значение осредняемого признака, f- вес значения признака (частота, если f – число единиц совокупности; частость, если f- доля единиц с вариантой х в общем объёме совокупности).

Средняя гармоническая

Наряду со средней арифметической, в статистике применяется средняя гармоническая величина, обратная средней арифметической из обратных значений признака. Как и средняя арифметическая, она может быть простой и взвешенной. Применяется она тогда, когда необходимые веса (f i) в исходных данных не заданы непосредственно, а входят сомножителем в одни из имеющихся показателей (т.е. тогда, когда известен числитель исходного соотношения средней, но неизвестен его знаменатель).

Средняя гармоническая взвешенная

Произведение xf даёт объём осредняемого признака х для совокупности единиц и обозначается w. Если в исходных данных имеются значения осредняемого признака х и объём осредняемого признака w, то для расчёта средней применяется гармоническая взвешенная:

где х – значение осредняемого признака х (варианта); w – вес варианты х, объем осредняемого признака.

Средняя гармоническая не взвешенная (простая)

Эта форма средней, используемая значительно реже, имеет следующий вид:

где х – значение осредняемого признака; n – число значений х.

Т.е. это обратная величина средней арифметической простой из обратных значений признака.

На практике средняя гармоническая простая применяется редко, в тех случаях, когда значения w для единиц совокупности равны.

Средняя квадратическая и средняя кубическая

В ряде случаев в экономической практике возникает потребность расчета среднего размера признака, выраженного в квадратных или кубических единицах измерения. Тогда применяется средняя квадратическая (например, для вычисления средней величины стороны и квадратных участков, средних диаметров труб, стволов и т.п.) и средняя кубическая (например, при определении средней длины стороны и кубов).

Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменной сумму квадратов исходных величин, то средняя будет являться квадратической средней величиной, простой или взвешенной.

Средняя квадратическая простая

Простая используется, если каждое значение признака х встречается один раз, в общем имеет вид:

где - квадрат значений осредняемого признака; - число единиц совокупности.

Средняя квадратическая взвешенная

Средняя квадратическая взвешенная применяется, если каждое значение осредняемого признака х встречается f раз:

,

где f – вес варианты х.

Средняя кубическая простая и взвешенная

Средняя кубическая простая является кубическим корнем из частного от деления суммы кубов отдельных значений признака на их число:

где - значения признака, n- их число.

Средняя кубическая взвешенная:

,

где f-вес варианты х.

Средние квадратическая и кубическая имеют ограниченное применение в практике статистики. Широко пользуется статистика средней квадратической, но не из самих вариантов x, и из их отклонений от средней при расчете показателей вариации.

Средняя может быть вычислена не для всех, а для какой-либо части единиц совокупности. Примером такой средней может быть средняя прогрессивная как одна из частных средних, вычисляемая не для всех, а только для "лучших" (например, для показателей выше или ниже средних индивидуальных).

Средняя геометрическая

Если значения осредняемого признака существенно отстоят друг от друга или заданы коэффициентами (темпы роста, индексы цен), то для расчёта применяют среднюю геометрическую.

Средняя геометрическая исчисляется извлечением корня степени и из произведений отдельных значений - вариантов признака х:

где n - число вариантов; П - знак произведения.

Наиболее широкое применение средняя геометрическая получила для определения средних темпов изменения в рядах динамики, а также в рядах распределения.

Средние величины - это обобщающие показатели, в которых находят выражения действие общих условий, закономерность изучаемого явления. Статистические средние рассчитываются на основе массовых данных правильно статистически организованного массового наблюдения (сплошного или выборочного). Однако статистическая средняя будет объективна и типична, если она рассчитывается по массовым данным для качественно однородной совокупности (массовых явлений). Применение средних должно исходить из диалектического понимания категорий общего и индивидуального, массового и единичного.

Сочетание общих средних с групповыми средними дает возможность ограничить качественно однородные совокупности. Расчленяя массу объектов, составляющих то или иное сложное явления, на внутренне однородные, но качественно различные группы, характеризуя каждую из групп своей средней, можно вскрыть резервы процесс нарождающегося нового качества. Например, распределения населения по доходу позволяет выявить формирование новых социальных групп. В аналитической части мы рассмотрели частный пример использования средней величины. Подводя итог можно сказать, что область применения и использования средних величин в статистике довольно широка.

Практическое задание

Задача №1

Определить средний курс покупки и средний курс продажи одного и $ США

Средний курс покупки

Средний курс продажи

Задача №2

Динамика объема собственной продукции общественного питания Челябинской области за 1996-2004 года представлена в таблице в сопоставимых ценах (млн. руб.)

Произвести смыкание рядов А и В. Для анализа ряда динамики производства готовой продукции вычислить:

1. Абсолютные приросты, темпы роста и прироста цепные и базисные

2. Среднегодовое производство готовой продукции

3. Среднегодовой темп роста и прироста продукции фирмы

4. Произвести аналитическое выравнивание ряда динамики и вычислить прогноз на 2005 год

5. Изобразить графически ряд динамики

6. Сделать вывод по результатам динамики

1) уi Б = уi-у1 уi Ц = уi-у1

y2 Б = 2,175 – 2,04 y2 Ц = 2,175 – 2, 04 = 0,135

y3Б = 2,505 – 2,04 y3 Ц = 2, 505 – 2,175 = 0,33

y4 Б = 2,73 – 2,04 y4 Ц = 2, 73 – 2,505 = 0,225

y5 Б = 1,5 – 2,04 y5 Ц = 1, 5 – 2,73 = 1,23

y6 Б = 3,34 – 2,04 y6 Ц = 3, 34 – 1,5 = 1,84

y7 Б = 3,6 3 – 2,04 y7 Ц = 3, 6 3 – 3,34 = 0,29

y8 Б = 3,96 – 2,04 y8 Ц = 3, 96 – 3,63 = 0,33

y9 Б = 4,41–2,04 y9 Ц = 4, 41 – 3,96 = 0,45

Тр Б2 Тр Ц2

Тр Б3 Тр Ц3

Тр Б4 Тр Ц4

Тр Б5 Тр Ц5

Тр Б6 Тр Ц6

Тр Б7 Тр Ц7

Тр Б8 Тр Ц8

Тр Б9 Тр Ц9

Тр Б = (ТпрБ *100%) – 100%

Тр Б2 = (1,066*100%) – 100% = 6,6%

Тр Ц3 = (1,151*100%) – 100% = 15,1%

2) yмлн.руб. – средняя производительность продукции

2,921 + 0,294*(-4) = 2,921-1,176 = 1,745

2,921 + 0,294*(-3) = 2,921-0,882 = 2,039

(yt-y) = (1,745-2,04) = 0,087

(yt-yt) = (1,745-2,921) = 1,382

(y-yt) = (2,04-2,921) = 0,776

Tp

Бy

y2005=2,921+1,496*4=2,921+5,984=8,905

8,905+2,306*1,496=12,354

8,905-2,306*1,496=5,456

5,456 2005 12,354


Задача №3

Статистические данные оптовых поставок продовольственных и непродовольственных и розничную торговую сеть области в 2003 и 2004 годах представлены в соответствующих графиках.

По данным таблицы 1 и 2 требуется

1. Найти общий индекс оптовой поставки продовольственных товаров в фактических ценах;

2. Найти общий индекс фактического объема поставки продовольственных товаров;

3. Сравнить общие индексы и сделать соответствующий вывод;

4. Найти общий индекс поставки непродовольственных товаров в фактических ценах;

5. Найти общий индекс физического объема поставки непродовольственных товаров;

6. Сравнить полученные индексы и сделать вывод по непродовольственным товарам;

7. Найти сводный общий индексы поставки всей товарной массы в фактических ценах;

8. Найти сводный общий индекс физического объема (по всей товарной массе товаров);

9. Сравнить полученный сводные индексы и сделать соответствующий вывод.

Базисный период

Отчетный период (2004)

Поставки отчетного периода в ценах базисного периода

1,291-0,681=0,61= - 39

Заключение

В заключении подведем итоги. Средние величины - это обобщающие показатели, в которых находят выражения действие общих условий, закономерность изучаемого явления. Статистические средние рассчитываются на основе массовых данных правильно статистически организованного массового наблюдения (сплошного или выборочного). Однако статистическая средняя будет объективна и типична, если она рассчитывается по массовым данным для качественно однородной совокупности (массовых явлений). Применение средних должно исходить из диалектического понимания категорий общего и индивидуального, массового и единичного.

Средняя отражает то общее, что складывается в каждом отдельном, единичном объекте благодаря этому средняя получает большое значение для выявления закономерностей присущих массовым общественным явлениям и незаметных в единичных явлениях.

Отклонение индивидуального от общего - проявление процесса развития. В отдельных единичных случаях могут быть заложены элементы нового, передового. В этом случае именно конкретных фактор, взятые на фоне средних величин, характеризует процесс развития. Поэтому в средней и отражается характерный, типичный, реальный уровень изучаемых явлений. Характеристики этих уровней и их изменений во времени и в пространстве являются одной из главных задач средних величин. Так, через средние проявляется, например, свойственная предприятиям на определенном этапе экономического развития; изменение благосостояния населения находит свое отражение в средних показателях заработной платы, доходов семьи в целом и по отдельным социальным группам, уровня потребления продуктов, товаров и услуг.

Средний показатель - это значение типичное (обычное, нормальное, сложившееся в целом), но таковым оно является по тому, что формируется в нормальных, естественных условиях существования конкретного массового явления, рассматриваемого в целом. Средняя отображает объективное свойство явления. В действительности часто существует только отклоняющиеся явления, и средняя как явления может и не существовать, хотя понятие типичности явления и заимствуется из действительности. Средняя величина является отражения значения изучаемого признака и, следовательно, измеряется в той же размеренности что и этот признак. Однако существуют различные способы приближенного определения уровня распределения численности для сравнения сводных признаков, непосредственно не сравнимых между собой, например средняя численность населения по отношению к территории (средняя плотность населения). В зависимости от того, какой именно фактор нужно элиминировать, будет находиться и содержание средней.

Сочетание общих средних с групповыми средними дает возможность ограничить качественно однородные совокупности. Расчленяя массу объектов, составляющих то или иное сложное явления, на внутренне однородные, но качественно различные группы, характеризуя каждую из групп своей средней, можно вскрыть резервы процесс нарождающегося нового качества. Например, распределения населения по доходу позволяет выявить формирование новых социальных групп. В аналитической части мы рассмотрели частный пример использования средней величины. Подводя итог можно сказать, что область применения и использования средних величин в статистике довольно широка

Список используемой литературы

1. Гусаров, В.М. Теория статистики качеством [Текст]: учеб. пособие / В.М.

Гусаров пособие для вузов. - М.,1998

2. Едронова, Н.Н. Общая теория статистики [Текст]: учебник / Под ред. Н.Н. Едроновой - М.: Финансы и статистика 2001 - 648 с.

3. Елисеева И.И., Юзбашев М.М. Общая теория статистики [Текст]: Учебник / Под ред. чл.-корр. РАН И.И.Елисеевой. – 4-е изд., перераб. и доп. - М.: Финансы и статистика, 1999. - 480с.: ил.

4. Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики: [Текст]: Учебник. - М.: ИНФРА-М, 1996. - 416с.

5. Ряузова, Н.Н. Общая теория статистики [Текст]: учебник / Под ред. Н.Н.

Ряузова­ - М.: Финансы и статистика, 1984.


Гусаров В.М. Теория статистики: Учебн. Пособие для вузов. - М.,1998.-С.60.

Елисеева И.И., Юзбашев М.М. Общая теория статистики. - М.,1999.-С.76.

Гусаров В.М. Теория статистики: Учебн. Пособие для вузов. -М.,1998.-С.61.

Сейчас поговорим о том, как рассчитывать среднюю величину .
В классическом виде общая теория статистики предлагает нам один вариант правил выбора средней величины.
Сначала необходимо составить правильно логическую формулу для расчета средней величины (ЛФС). Для каждой средней величины всегда есть только одна логическая формула ее расчета, поэтому ошибиться тут трудно. Но всегда надо помнить, что в числителе (это то, что сверху дроби) сумма всех явлений, а в знаменателе (то, что внизу дроби) общее количество элементов.

После того как составлена логическая формула можно пользоваться правилами (для простоты понимания упростим их и сократим):
1. Если в исходных данных (определяем по частоте) представлен знаменатель логической формулы, то расчет проводим по формуле средней арифметической взвешенной.
2. Если в исходных данных представлен числитель логической формулы, то расчет ведем по формуле средней гармонической взвешенной.
3. Если в задаче представлены сразу и числитель и знаменатель логической формулы (такое бывает редко), то расчет проводим по этой формуле или по формуле средней арифметической простой.
Это классическое представление о выборе верной формулы расчета средней величины. Далее представим последовательность действий при решении задач на расчет средней величины.

Алгоритм решения задач на расчет средней величины

А. Определяем способ расчета средней величины – простой или взвешенный . Если данные представлены в таблице то используем взвешенный способ, если данные представлены простым перечислением, то используем простой способ расчета.

Б. Определяем или расставляем условные обозначения – x – варианта, f – частота . Варианта это то, для какого явления требуется найти среднюю величину. Оставшиеся данные в таблице будут частотой.

В. Определяем форму расчета средней величины – арифметическая или гармоническая . Определение проводится по колонке частот. Арифметическая форма используется, если частоты заданы явным количеством (условно к ним можно подставить слово штук, количество элементов «штук»). Гармоническая форма используется, если частоты заданы не явным количеством, а сложным показателем (произведением осредняемой величины и частоты).

Самое сложное, это догадаться, где и какое количество задано, особенно неопытному в таких делах студенту. В такой ситуации можно воспользоваться одним из предлагаемых далее способов. Для некоторых задач (экономических) подходит наработанное годами практики утверждение (пункт В.1). В других же ситуациях придется пользоваться пунктом В.2.

В.1 Если частота задана в денежных единицах (в рублях), то используется для расчета средняя гармоническая, такое утверждение верно всегда, если выявленная частота задана в деньгах, в других ситуациях это правило не действует.

В.2 Воспользоваться правилами выбора средней величины указанными выше в этой статье. Если частота задана знаменателем логической формулы расчета средней величины, то рассчитываем по средней арифметической форме, если частота задана числителем логической формулы расчета средней величины, то рассчитываем по средней гармонической форме.

Рассмотрим на примерах использование данного алгоритма.

А. Так как данные представлены в строчку то используем простой способ расчета.

Б. В. Имеем только данные по величине пенсий, именно они и будут нашей вариантой – х. Данные представлены простым количеством (12 человек), для расчета используем среднюю арифметическую простую.

Средний размер пенсии пенсионера составляет 9208,3 рубля.

Б. Так как требуется найти средний размер выплаты на одного ребенка, то варианты находятся в первой колонке, туда ставим обозначение х , вторая колонка автоматически становится частотой f .

В. Частота (число детей) задана явным количеством (можно подставить слово штук детей, с точки зрения русского языка неверное словосочетание, но, по сути, очень удобно проверять), значит, для расчета используется средняя арифметическая взвешенная.

Эту же задачу модно решить не формульным способом, а табличным, то есть занести все данные промежуточных расчетов в таблицу.

В результате все, что нужно теперь сделать, это разделить два итоговых данных в правильно порядке.

Средний размер выплаты на одного ребенка в месяц составил 1910 рублей.

А. Так как данные представлены в таблице то для расчета используем взвешенную форму.

В. Частота (себестоимость выпуска) задана неявным количеством (частота задана в рублях пункт алгоритма В1 ), значит, для расчета используется средняя гармоническая взвешенная. Вообще же, по сути, себестоимость выпуска это сложный показатель, который получается перемножение себестоимости единицы изделия на количество таких изделий, вот это и есть суть средней гармонической величины.

Чтобы эта задача могла решаться по формуле средней арифметической необходимо, чтобы вместо себестоимости выпуска стояло число изделий с соответствующей себестоимостью.

Обратите внимание, что сумма в знаменателе, получившаяся после расчетов 410 (120+80+210) это и есть общее количество выпущенных изделий.

Средняя себестоимость единицы изделия составила 314,4 рубля.

А. Так как данные представлены в таблице то для расчета используем взвешенную форму.

Б. Так как требуется найти среднюю себестоимость единицы изделия, то варианты находятся в первой колонке, туда ставим обозначение х , вторая колонка автоматически становится частотой f .

В. Частота (общее число пропусков) задана неявным количеством (это произведение двух показателей числа пропусков и числа студентов, имеющих такое количество пропусков), значит, для расчета используется средняя гармоническая взвешенная. Будем использовать пункт алгоритма В2 .

Чтобы эта задача могла решаться по формуле средней арифметической необходимо, чтобы вместо общего числа пропусков стояло число студентов.

Составляем логическую формулу расчета среднего числа пропусков одного студента.

Частота по условию задачи Общее число пропусков. В логической формуле этот показатель находится в числителе, а значит, используем формулу средней гармонической.

Обратите внимание, что сумма в знаменателе, получившаяся после расчетов 31 (18+8+5) это и есть общее количество студентов.

Среднее число пропусков одного студента 13,8 дня.

В большинстве случаев данные концентрируются вокруг некоей центральной точки. Таким образом, чтобы описать любой набор данных, достаточно указать средне значение. Рассмотрим последовательно три числовые характеристики, которые используются для оценки среднего значения распределения: среднее арифметическое, медиана и мода.

Среднее арифметическое

Среднее арифметическое (часто называемое просто средним) - наиболее распространенная оценка среднего значения распределения. Она является результатом деления суммы всех наблюдаемых числовых величин на их количество. Для выборки, состоящей из чисел Х 1 , Х 2 , …, Х n , выборочное среднее (обозначаемое символом ) равно = (Х 1 + Х 2 + … + Х n ) / n , или

где - выборочное среднее, n - объем выборки, X i i-й элемент выборки.

Скачать заметку в формате или , примеры в формате

Рассмотрим вычисление среднего арифметического значения пятилетней среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска (рис. 1).

Рис. 1. Среднегодовая доходность 15 взаимных фондов с очень высоким уровнем риска

Выборочное среднее вычисляется следующим образом:

Это хороший доход, особенно по сравнению с 3–4% дохода, который получили вкладчики банков или кредитных союзов за тот же период времени. Если упорядочить значения доходности, то легко заметить, что восемь фондов имеют доходность выше, а семь - ниже среднего значения. Среднее арифметическое играет роль точки равновесия, так что фонды с низкими доходами уравновешивают фонды с высокими доходами. В вычислении среднего задействованы все элементы выборки. Ни одна из других оценок среднего значения распределения не обладает этим свойством.

Когда следует вычислять среднее арифметическое. Поскольку среднее арифметическое зависит от всех элементов выборки, наличие экстремальных значений значительно влияет на результат. В таких ситуациях среднее арифметическое может исказить смысл числовых данных. Следовательно, описывая набор данных, содержащий экстремальные значения, необходимо указывать медиану либо среднее арифметическое и медиану. Например, если удалить из выборки доходность фонда RS Emerging Growth, выборочное среднее доходности 14 фондов уменьшится почти на 1% и составит 5,19%.

Медиана

Медиана представляет собой срединное значение упорядоченного массива чисел. Если массив не содержит повторяющихся чисел, то половина его элементов окажется меньше, а половина - больше медианы. Если выборка содержит экстремальные значения, для оценки среднего значения лучше использовать не среднее арифметическое, а медиану. Чтобы вычислить медиану выборки, ее сначала необходимо упорядочить.

Эта формула неоднозначна. Ее результат зависит от четности или нечетности числа n :

  • Если выборка содержит нечетное количество элементов, медиана равна (n+1)/2 -му элементу.
  • Если выборка содержит четное количество элементов, медиана лежит между двумя средними элементами выборки и равна среднему арифметическому, вычисленному по этим двум элементам.

Чтобы вычислить медиану выборки, содержащей данные о доходности 15 взаимных фондов с очень высокий уровнем риска, сначала необходимо упорядочить исходные данные (рис. 2). Тогда медиана будет напротив номера среднего элемента выборки; в нашем примере №8. В Excel есть специальная функция =МЕДИАНА(), которая работает и с неупорядоченными массивами тоже.

Рис. 2. Медиана 15 фондов

Таким образом, медиана равна 6,5. Это означает, что доходность одной половины фондов с очень высоким уровнем риска не превышает 6,5, а доходность второй половины - превышает ее. Обратите внимание на то, что медиана, равная 6,5, ненамного больше среднего значения, равного 6,08.

Если удалить из выборки доходность фонда RS Emerging Growth, то медиана оставшихся 14 фондов уменьшится до 6,2%, то есть не так значительно, как среднее арифметическое (рис. 3).

Рис. 3. Медиана 14 фондов

Мода

Термин был впервые введен Пирсоном в 1894 г. Мода - это число, которое чаще других встречается в выборке (наиболее модное). Мода хорошо описывает, например, типичную реакцию водителей на сигнал светофора о прекращении движения. Классический пример использования моды - выбор размера выпускаемой партии обуви или цвета обоев. Если распределение имеет несколько мод, то говорят, что оно мультимодально или многомодально (имеет два или более «пика»). Мультимодальность распределения дает важную информацию о природе исследуемой переменной. Например, в социологических опросах, если переменная представляет собой предпочтение или отношение к чему-то, то мультимодальность может означать, что существуют несколько определенно различных мнений. Мультимодальность также служит индикатором того, что выборка не является однородной и наблюдения, возможно, порождены двумя или более «наложенными» распределениями. В отличие от среднего арифметического, выбросы на моду не влияют. Для непрерывно распределенных случайных величин, например, для показателей среднегодовой доходности взаимных фондов, мода иногда вообще не существует (или не имеет смысла). Поскольку эти показатели могут принимать самые разные значения, повторяющиеся величины встречаются крайне редко.

Квартили

Квартили - это показатели, которые чаще всего используются для оценки распределения данных при описании свойств больших числовых выборок. В то время как медиана разделяет упорядоченный массив пополам (50% элементов массива меньше медианы и 50% - больше), квартили разбивают упорядоченный набор данных на четыре части. Величины Q 1 , медиана и Q 3 являются 25-м, 50-м и 75-м перцентилем соответственно. Первый квартиль Q 1 - это число, разделяющее выборку на две части: 25% элементов меньше, а 75% - больше первого квартиля.

Третий квартиль Q 3 - это число, разделяющее выборку также на две части: 75% элементов меньше, а 25% - больше третьего квартиля.

Для расчета квартилей в версиях Excel до 2007 г. использовалась функция =КВАРТИЛЬ(массив;часть). Начиная с версии Excel2010 применяются две функции:

  • =КВАРТИЛЬ.ВКЛ(массив;часть)
  • =КВАРТИЛЬ.ИСКЛ(массив;часть)

Эти две функции дают немного различные значения (рис. 4). Например, при вычислении квартилей выборки, содержащей данные о среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска Q 1 = 1,8 или –0,7 для КВАРТИЛЬ.ВКЛ и КВАРТИЛЬ.ИСКЛ, соответственно. Кстати функция КВАРТИЛЬ, использовавшаяся ранее соответствует современной функции КВАРТИЛЬ.ВКЛ. Для расчета квартилей в Excel с помощью вышеприведенных формул массив данных можно не упорядочивать.

Рис. 4. Вычисление квартилей в Excel

Подчеркнем еще раз. Excel умеет рассчитывать квартили для одномерного дискретного ряда , содержащего значения случайной величины. Расчет квартилей для распределения на основе частот приведен ниже в разделе .

Среднее геометрическое

В отличие от среднего арифметического среднее геометрическое позволяет оценить степень изменения переменной с течением времени. Среднее геометрическое - это корень n -й степени из произведения n величин (в Excel используется функция =СРГЕОМ):

G = (X 1 * X 2 * … * X n) 1/n

Похожий параметр – среднее геометрическое значение нормы прибыли – определяется формулой:

G = [(1 + R 1) * (1 + R 2) * … * (1 + R n)] 1/n – 1,

где R i – норма прибыли за i -й период времени.

Например, предположим, что объем вложенных средств в исходный момент времени равен 100 000 долл. К концу первого года он падает до уровня 50 000 долл., а к концу второго года восстанавливается до исходной отметки 100 000 долл. Норма прибыли этой инвестиции за двухлетний период равна 0, поскольку первоначальный и финальный объем средств равны между собой. Однако среднее арифметическое годовых норм прибыли равно = (–0,5 + 1) / 2 = 0,25 или 25%, поскольку норма прибыли в первый год R 1 = (50 000 – 100 000) / 100 000 = –0,5, а во второй R 2 = (100 000 – 50 000) / 50 000 = 1. В то же время, среднее геометрическое значение нормы прибыли за два года равно: G = [(1–0,5) * (1+1)] 1/2 – 1 = ½ – 1 = 1 – 1 = 0. Таким образом, среднее геометрическое точнее отражает изменение (точнее, отсутствие изменений) объема инвестиций за двухлетний период, чем среднее арифметическое.

Интересные факты. Во-первых, среднее геометрическое всегда будет меньше среднего арифметического тех же чисел. За исключением случая, когда все взятые числа равны друг другу. Во-вторых, рассмотрев свойства прямоугольного треугольника, можно понять, почему среднее называется геометрическим. Высота прямоугольного треугольника, опущенная на гипотенузу, есть среднее пропорциональное между проекциями катетов на гипотенузу, а каждый катет есть среднее пропорциональное между гипотенузой и его проекцией на гипотенузу (рис. 5). Это даёт геометрический способ построения среднего геометрического двух (длин) отрезков: нужно построить окружность на сумме этих двух отрезков как на диаметре, тогда высота, восставленная из точки их соединения до пересечения с окружностью, даст искомую величину:

Рис. 5. Геометрическая природа среднего геометрического (рисунок из Википедии)

Второе важное свойство числовых данных - их вариация , характеризующая степень дисперсии данных. Две разные выборки могут отличаться как средними значениями, так и вариациями. Однако, как показано на рис. 6 и 7, две выборки могут иметь одинаковые вариации, но разные средние значения, либо одинаковые средние значения и совершенно разные вариации. Данные, которым соответствует полигон В на рис. 7, изменяются намного меньше, чем данные, по которым построен полигон А.

Рис. 6. Два симметричных распределения колоколообразной формы с одинаковым разбросом и разными средними значениями

Рис. 7. Два симметричных распределения колоколообразной формы с одинаковыми средними значениями и разным разбросом

Существует пять оценок вариации данных:

Размах

Размахом называется разность между наибольшим и наименьшим элементами выборки:

Размах = Х Max – Х Min

Размах выборки, содержащей данные о среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска, можно вычислить, используя упорядоченный массив (см. рис. 4): Размах = 18,5 – (–6,1) = 24,6. Это значит, что разница между наибольшей и наименьшей среднегодовой доходностью фондов с очень высоким уровнем риска равна 24,6% .

Размах позволяет измерить общий разброс данных. Хотя размах выборки является весьма простой оценкой общего разброса данных, его слабость заключается в том, что он никак не учитывает, как именно распределены данные между минимальным и максимальным элементами. Этот эффект хорошо прослеживается на рис. 8, который иллюстрирует выборки, имеющие одинаковый размах. Шкала В демонстрирует, что если выборка содержит хотя бы одно экстремальное значение, размах выборки оказывается весьма неточной оценкой разброса данных.

Рис. 8. Сравнение трех выборок, имеющих одинаковый размах; треугольник символизирует опору весов, и его расположение соответствует среднему значению выборки

Межквартильный размах

Межквартильный, или средний, размах - это разность между третьим и первым квартилями выборки:

Межквартильный размах = Q 3 – Q 1

Эта величина позволяет оценить разброс 50% элементов и не учитывать влияние экстремальных элементов. Межквартильный размах выборки, содержащей данные о среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска, можно вычислить, используя данные на рис. 4 (например, для функции КВАРТИЛЬ.ИСКЛ): Межквартильный размах = 9,8 – (–0,7) = 10,5. Интервал, ограниченный числами 9,8 и –0,7, часто называют средней половиной.

Следует отметить, что величины Q 1 и Q 3 , а значит, и межквартильный размах, не зависят от наличия выбросов, поскольку при их вычислении не учитывается ни одна величина, которая была бы меньше Q 1 или больше Q 3 . Суммарные количественные характеристики, такие как медиана, первый и третий квартили, а также межквартильный размах, на которые не влияют выбросы, называются устойчивыми показателями.

Хотя размах и межквартильный размах позволяют оценить общий и средний разброс выборки соответственно, ни одна из этих оценок не учитывает, как именно распределены данные. Дисперсия и стандартное отклонение лишены этого недостатка. Эти показатели позволяют оценить степень колебания данных вокруг среднего значения. Выборочная дисперсия является приближением среднего арифметического, вычисленного на основе квадратов разностей между каждым элементом выборки и выборочным средним. Для выборки Х 1 , Х 2 , … Х n выборочная дисперсия (обозначаемая символом S 2 задается следующей формулой:

В общем случае выборочная дисперсия - это сумма квадратов разностей между элементами выборки и выборочным средним, деленная на величину, равную объему выборки минус один:

где - арифметическое среднее, n - объем выборки, X i - i -й элемент выборки X . В Excel до версии 2007 для расчета выборочной дисперсии использовалась функция =ДИСП(), с версии 2010 используется функция =ДИСП.В().

Наиболее практичной и широко распространенной оценкой разброса данных является стандартное выборочное отклонение . Этот показатель обозначается символом S и равен квадратному корню из выборочной дисперсии:

В Excel до версии 2007 для расчета стандартного выборочного отклонения использовалась функция =СТАНДОТКЛОН(), с версии 2010 используется функция =СТАНДОТКЛОН.В(). Для расчета этих функций массив данных может быть неупорядоченным.

Ни выборочная дисперсия, ни стандартное выборочное отклонение не могут быть отрицательными. Единственная ситуация, в которой показатели S 2 и S могут быть нулевыми, - если все элементы выборки равны между собой. В этом совершенно невероятном случае размах и межквартильный размах также равны нулю.

Числовые данные по своей природе изменчивы. Любая переменная может принимать множество разных значений. Например, разные взаимные фонды имеют разные показатели доходности и убытков. Вследствие изменчивости числовых данных очень важно изучать не только оценки среднего значения, которые по своей природе являются суммарными, но и оценки дисперсии, характеризующие разброс данных.

Дисперсия и стандартное отклонение позволяют оценить разброс данных вокруг среднего значения, иначе говоря, определить, сколько элементов выборки меньше среднего, а сколько - больше. Дисперсия обладает некоторыми ценными математическими свойствами. Однако ее величина представляет собой квадрат единицы измерения - квадратный процент, квадратный доллар, квадратный дюйм и т.п. Следовательно, естественной оценкой дисперсии является стандартное отклонение, которое выражается в обычных единицах измерений - процентах дохода, долларах или дюймах.

Стандартное отклонение позволяет оценить величину колебаний элементов выборки вокруг среднего значения. Практически во всех ситуациях основное количество наблюдаемых величин лежит в интервале плюс-минус одно стандартное отклонение от среднего значения. Следовательно, зная среднее арифметическое элементов выборки и стандартное выборочное отклонение, можно определить интервал, которому принадлежит основная масса данных.

Стандартное отклонение доходности 15 взаимных фондов с очень высоким уровнем риска равно 6,6 (рис. 9). Это значит, что доходность основной массы фондов отличается от среднего значения не более чем на 6,6% (т.е. колеблется в интервале от – S = 6,2 – 6,6 = –0,4 до + S = 12,8). Фактически в этом интервале лежит пятилетняя среднегодовая доходность 53,3% (8 из 15) фондов.

Рис. 9. Стандартное выборочное отклонение

Обратите внимание на то, что в процессе суммирования квадратов разностей элементы выборки, лежащие дальше от среднего значения, приобретают больший вес, чем элементы, лежащие ближе. Это свойство является основной причиной того, что для оценки среднего значения распределения чаще всего используется среднее арифметическое значение.

Коэффициент вариации

В отличие от предыдущих оценок разброса, коэффициент вариации является относительной оценкой. Он всегда измеряется в процентах, а не в единицах измерения исходных данных. Коэффициент вариации, обозначаемый символами CV, измеряет рассеивание данных относительно среднего значения. Коэффициент вариации равен стандартному отклонению, деленному на среднее арифметическое и умноженному на 100%:

где S - стандартное выборочное отклонение, - выборочное среднее.

Коэффициент вариации позволяет сравнить две выборки, элементы которых выражаются в разных единицах измерения. Например, управляющий службы доставки корреспонденции намеревается обновить парк грузовиков. При погрузке пакетов следует учитывать два вида ограничений: вес (в фунтах) и объем (в кубических футах) каждого пакета. Предположим, что в выборке, содержащей 200 пакетов, средний вес равен 26,0 фунтов, стандартное отклонение веса 3,9 фунтов, средний объем пакета 8,8 кубических футов, а стандартное отклонение объема 2,2 кубических фута. Как сравнить разброс веса и объема пакетов?

Поскольку единицы измерения веса и объема отличаются друг от друга, управляющий должен сравнить относительный разброс этих величин. Коэффициент вариации веса равен CV W = 3,9 / 26,0 * 100% = 15%, а коэффициент вариации объема CV V = 2,2 / 8,8 * 100% = 25% . Таким образом, относительный разброс объема пакетов намного больше относительного разброса их веса.

Форма распределения

Третье важное свойство выборки - форма ее распределения. Это распределение может быть симметричным или асимметричным. Чтобы описать форму распределения, необходимо вычислить его среднее значение и медиану. Если эти два показателя совпадают, переменная считается симметрично распределенной. Если среднее значение переменной больше медианы, ее распределение имеет положительную асимметрию (рис. 10). Если медиана больше среднего значения, распределение переменной имеет отрицательную асимметрию. Положительная асимметрия возникает, когда среднее значение увеличивается до необычайно высоких значений. Отрицательная асимметрия возникает, когда среднее значение уменьшается до необычайно малых значений. Переменная является симметрично распределенной, если она не принимает никаких экстремальных значений ни в одном из направлений, так что большие и малые значения переменной уравновешивают друг друга.

Рис. 10. Три вида распределений

Данные, изображенные на шкале А, имеют отрицательную асимметрию. На этом рисунке виден длинный хвост и перекос влево, вызванные наличием необычно малых значений. Эти крайне малые величины смещают среднее значение влево, и оно становится меньше медианы. Данные, изображенные на шкале Б, распределены симметрично. Левая и правая половины распределения являются своими зеркальными отражениями. Большие и малые величины уравновешивают друг друга, а среднее значение и медиана равны между собой. Данные, изображенные на шкале В, имеют положительную асимметрию. На этом рисунке виден длинный хвост и перекос вправо, вызванные наличием необычайно высоких значений. Эти слишком большие величины смещают среднее значение вправо, и оно становится больше медианы.

В Excel описательные статистики можно получить с помощью надстройки Пакет анализа . Пройдите по меню Данные Анализ данных , в открывшемся окне выберите строку Описательная статистика и кликните Ok . В окне Описательная статистика обязательно укажите Входной интервал (рис. 11). Если вы хотите увидеть описательные статистики на том же листе, что и исходные данные, выберите переключатель Выходной интервал и укажите ячейку, куда следует поместить левый верхний угол выводимых статистик (в нашем примере $C$1). Если вы хотите вывести данные на новый лист или в новую книгу, достаточно просто выбрать соответствующий переключатель. Поставьте галочку напротив Итоговая статистика . По желанию также можно выбрать Уровень сложности, k-й наименьший и k-й наибольший .

Если на вкладе Данные в области Анализ у вас не отображается пиктограмма Анализ данных , нужно предварительно установить надстройку Пакет анализа (см., например, ).

Рис. 11. Описательные статистики пятилетней среднегодовой доходности фондов с очень высоким уровнями риска, вычисленные с помощью надстройки Анализ данных программы Excel

Excel вычисляет целый ряд статистик, рассмотренных выше: среднее, медиану, моду, стандартное отклонение, дисперсию, размах (интервал ), минимум, максимум и объем выборки (счет ). Кроме того, Excel вычисляет некоторые новые для нас статистики: стандартную ошибку, эксцесс и асимметричность. Стандартная ошибка равна стандартному отклонению, деленному на квадратный корень объема выборки. Асимметричность характеризует отклонение от симметричности распределения и является функцией, зависящей от куба разностей между элементами выборки и средним значением. Эксцесс представляет собой меру относительной концентрации данных вокруг среднего значения по сравнению с хвостами распределения и зависит от разностей между элементами выборки и средним значением, возведенных в четвертую степень.

Вычисление описательных статистик для генеральной совокупности

Среднее значение, разброс и форма распределения, рассмотренные выше, представляют собой характеристики, определяемые по выборке. Однако, если набор данных содержит числовые измерения всей генеральной совокупности, можно вычислить ее параметры. К числу таких параметров относятся математическое ожидание, дисперсия и стандартное отклонение генеральной совокупности.

Математическое ожидание равно сумме всех значений генеральной совокупности, деленной на объем генеральной совокупности:

где µ - математическое ожидание, X i - i -е наблюдение переменной X , N - объем генеральной совокупности. В Excel для вычисления математического ожидания используется та же функция, что и для среднего арифметического: =СРЗНАЧ().

Дисперсия генеральной совокупности равна сумме квадратов разностей между элементами генеральной совокупности и мат. ожиданием, деленной на объем генеральной совокупности:

где σ 2 – дисперсия генеральной совокупности. В Excel до версии 2007 для вычисления дисперсии генеральной совокупности используется функция =ДИСПР(), начиная с версии 2010 =ДИСП.Г().

Стандартное отклонение генеральной совокупности равно квадратному корню, извлеченному из дисперсии генеральной совокупности:

В Excel до версии 2007 для вычисления стандартного отклонения генеральной совокупности используется функция =СТАНДОТКЛОНП(), начиная с версии 2010 =СТАНДОТКЛОН.Г(). Обратите внимание на то, что формулы для дисперсии и стандартного отклонения генеральной совокупности отличаются от формул для вычисления выборочной дисперсии и стандартного отклонения. При вычислении выборочных статистик S 2 и S знаменатель дроби равен n – 1 , а при вычислении параметров σ 2 и σ - объему генеральной совокупности N .

Эмпирическое правило

В большинстве ситуаций крупная доля наблюдений концентрируется вокруг медианы, образуя кластер. В наборах данных, имеющих положительную асимметрию, этот кластер расположен левее (т.е. ниже) математического ожидания, а в наборах, имеющих отрицательную асимметрию, этот кластер расположен правее (т.е. выше) математического ожидания. У симметричных данных математическое ожидание и медиана совпадают, а наблюдения концентрируются вокруг математического ожидания, формируя колоколообразное распределение. Если распределение не имеет ярко выраженной асимметрии, а данные концентрируются вокруг некоего центра тяжести, для оценки изменчивости можно применять эмпирическое правило, которое гласит: если данные имеют колоколообразное распределение, то приблизительно 68% наблюдений отстоят от математического ожидания не более чем на одно стандартное отклонение, приблизительно 95% наблюдений отстоят от математического ожидания не более чем на два стандартных отклонения и 99,7% наблюдений отстоят от математического ожидания не более чем на три стандартных отклонения.

Таким образом, стандартное отклонение, представляющее собой оценку среднего колебания вокруг математического ожидания, помогает понять, как распределены наблюдения, и идентифицировать выбросы. Из эмпирического правила следует, что для колоколообразных распределений лишь одно значение из двадцати отличается от математического ожидания больше, чем на два стандартных отклонения. Следовательно, значения, лежащие за пределами интервала µ ± 2σ , можно считать выбросами. Кроме того, только три из 1000 наблюдений отличаются от математического ожидания больше чем на три стандартных отклонения. Таким образом, значения, лежащие за пределами интервала µ ± 3σ практически всегда являются выбросами. Для распределений, имеющих сильную асимметрию или не имеющих колоколообразной формы, можно применять эмпирическое правило Бьенамэ-Чебышева.

Более ста лет назад математики Бьенамэ и Чебышев независимо друг от друга открыли полезное свойство стандартного отклонения. Они обнаружили, что для любого набора данных, независимо от формы распределения, процент наблюдений, лежащих на расстоянии не превышающем k стандартных отклонений от математического ожидания, не меньше (1 – 1/ k 2)*100% .

Например, если k = 2, правило Бьенамэ-Чебышева гласит, что как минимум (1 – (1/2) 2) х 100% = 75% наблюдений должно лежать в интервале µ ± 2σ . Это правило справедливо для любого k , превышающего единицу. Правило Бьенамэ-Чебышева носит весьма общий характер и справедливо для распределений любого вида. Оно указывает минимальное количество наблюдений, расстояние от которых до математического ожидания не превышает заданной величины. Однако, если распределение имеет колоколообразную форму, эмпирическое правило более точно оценивает концентрацию данных вокруг математического ожидания.

Вычисление описательных статистик для распределения на основе частот

Если исходные данные недоступны, единственным источником информации становится распределение частот. В таких ситуациях можно вычислить приближенные значения количественных показателей распределения, таких как среднее арифметическое, стандартное отклонение, квартили.

Если выборочные данные представлены в виде распределения частот, приближенное значение среднего арифметического можно вычислить, предполагая, что все значения внутри каждого класса сосредоточены в средней точке класса:

где - выборочное среднее, n - количество наблюдений, или объем выборки, с - количество классов в распределении частот, m j - средняя точка j -гo класса, f j - частота, соответствующая j -му классу.

Для вычисления стандартного отклонения по распределению частот также предполагается, что все значения внутри каждого класса сосредоточены в средней точке класса.

Чтобы понять, как определяются квартили ряда на основе частот, рассмотрим расчет нижнего квартиля на основе данных за 2013 г. о распределении населения России по величине среднедушевых денежных доходов (рис. 12).

Рис. 12. Доля населения России со среднедушевыми денежными доходами в среднем за месяц, рублей

Для расчета первого квартиля интервального вариационного ряда можно воспользоваться формулой:

где Q1 – величина первого квартиля, хQ1 – нижняя граница интервала, содержащего первый квартиль (интервал определяется по накопленной частоте, первой превышающей 25%); i – величина интервала; Σf – сумма частот всей выборки; наверное, всегда равна 100%; SQ1–1 – накопленная частота интервала, предшествующего интервалу, содержащему нижний квартиль; fQ1 – частота интервала, содержащего нижний квартиль. Формула для третьего квартиля отличается тем, что во всех местах вместо Q1 нужно использовать Q3, а вместо ¼ подставить ¾.

В нашем примере (рис. 12) нижний квартиль находится в интервале 7000,1 – 10 000, накопленная частота которого равна 26,4%. Нижняя граница этого интервала – 7000 руб., величина интервала – 3000 руб., накопленная частота интервала, предшествующего интервалу, содержащему нижний квартиль – 13,4%, частота интервала, содержащего нижний квартиль – 13,0%. Таким образом: Q1 = 7000 + 3000 * (¼ * 100 – 13,4) / 13 = 9677 руб.

Ловушки, связанные с описательными статистиками

В этой заметке мы рассмотрели, как описать набор данных с помощью различных статистик, оценивающих его среднее значение, разброс и вид распределения. Следующим этапом является анализ и интерпретация данных. До сих пор мы изучали объективные свойства данных, а теперь переходим к их субъективной трактовке. Исследователя подстерегают две ошибки: неверно выбранный предмет анализа и неправильная интерпретация результатов.

Анализ доходности 15 взаимных фондов с очень высоким уровнем риска является вполне беспристрастным. Он привел к совершенно объективным выводам: все взаимные фонды имеют разную доходность, разброс доходности фондов колеблется от –6,1 до 18,5, а средняя доходность равна 6,08. Объективность анализа данных обеспечивается правильным выбором суммарных количественных показателей распределения. Было рассмотрено несколько способов оценки среднего значения и разброса данных, указаны их преимущества и недостатки. Как же выбрать правильную статистику, обеспечивающую объективный и беспристрастный анализ? Если распределение данных имеет небольшую асимметрию, следует ли выбирать медиану, а не среднее арифметическое? Какой показатель более точно характеризует разброс данных: стандартное отклонение или размах? Следует ли указывать на положительную асимметрию распределения?

С другой стороны, интерпретация данных является субъективным процессом. Разные люди приходят к разным выводам, истолковывая одни и те же результаты. У каждого своя точка зрения. Кто-то считает суммарные показатели среднегодовой доходности 15 фондов с очень высоким уровнем риска хорошими и вполне доволен полученным доходом. Другим может показаться, что эти фонды имеют слишком низкую доходность. Таким образом, субъективность следует компенсировать честностью, нейтральностью и ясностью выводов.

Этические проблемы

Анализ данных неразрывно связан с этическими вопросами. Следует критически относиться к информации, распространяемой газетами, радио, телевидением и Интерентом. Со временем вы научитесь скептически относиться не только к результатам, но и к целям, предмету и объективности исследований. Лучше всего об этом сказал известный британский политик Бенджамин Дизраэли: «Существуют три вида лжи: ложь, наглая ложь и статистика».

Как было отмечено в заметке этические проблемы возникают при выборе результатов, которые следует привести в отчете. Следует публиковать как положительные, так и отрицательные результаты. Кроме того, делая доклад или письменный отчет, результаты необходимо излагать честно, нейтрально и объективно. Следует различать неудачную и нечестную презентации. Для этого необходимо определить, каковы были намерения докладчика. Иногда важную информацию докладчик пропускает по невежеству, а иногда - умышленно (например, если он применяет среднее арифметическое для оценки среднего значения явно асимметричных данных, чтобы получить желаемый результат). Нечестно также замалчивать результаты, которые не соответствуют точке зрения исследователя.

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 178–209

Функция КВАРТИЛЬ оставлена для совмещения с более ранними версиями Excel

Просмотров