Формула за изчисляване на медианата в статистиката. Структурни характеристики на реда на вариационното разпределение

ТЕСТ

По темата: "Режим. Медиана. Методи за тяхното изчисляване"


Въведение

Средните стойности и свързаните с тях показатели за вариация играят много важна роля в статистиката, което се дължи на предмета на нейното изследване. Затова тази тема е една от централните в курса.

Средната стойност е много често срещана обобщена мярка в статистиката. Това се обяснява с факта, че само с помощта на средната стойност една съвкупност може да се характеризира с количествено вариращ признак. В статистиката средната стойност е обобщаваща характеристика на набор от подобни явления, основана на някаква количествено варираща характеристика. Средната стойност показва нивото на тази характеристика на единица от населението.

Когато изучават социалните явления и се опитват да идентифицират техните характерни, типични черти в конкретни условия на място и време, статистиците широко използват средни стойности. Използвайки средни стойности, можете да сравнявате различни популации една с друга според различни характеристики.

Средните стойности, използвани в статистиката, принадлежат към класа на степенните средни. От средните мощности най-често се използва средноаритметичното, по-рядко средното хармонично; Средната хармонична стойност се използва само при изчисляване на средните темпове на динамика, а средната квадратична стойност се използва само при изчисляване на индексите на вариация.

Средно аритметичното е частното от разделянето на сбора на вариантите на техния брой. Използва се в случаите, когато обемът на вариращ признак за цялата съвкупност се формира като сума от характерните стойности на отделните му единици. Средноаритметичната стойност е най-често срещаният вид средна стойност, тъй като тя съответства на естеството на социалните явления, където обемът на вариращите характеристики в съвкупността най-често се формира именно като сума от характерните стойности на отделните единици от съвкупността. .

Съгласно определящото си свойство хармоничната средна трябва да се използва, когато общият обем на атрибута се формира като сума от обратните стойности на варианта. Използва се, когато в зависимост от материала теглата не трябва да се умножават, а да се разделят на опции или, което е същото, да се умножат по реципрочната им стойност. Средната хармонична в тези случаи е реципрочната на средната аритметична стойност на реципрочните стойности на характеристиката.

Към хармоничната средна стойност трябва да се прибягва в случаите, когато като тегла се използват не единиците от съвкупността - носители на характеристиката, а произведенията на тези единици по стойността на характеристиката.


1. Дефиниция на режим и медиана в статистиката

Аритметичните и хармоничните средни са обобщаващи характеристики на съвкупността по един или друг вариращ признак. Спомагателни описателни характеристики на разпределението на вариращ признак са мода и медиана.

В статистиката модата е стойността на характеристика (вариант), която най-често се среща в дадена популация. В серия от варианти това ще бъде опцията с най-висока честота.

В статистиката медианата е опцията, която е в средата на вариационната серия. Медианата разделя серията наполовина; от двете й страни (нагоре и надолу) има еднакъв брой единици от съвкупността.

Режимът и медианата, за разлика от средните мощности, са специфични характеристики; тяхното значение се приписва на всяка конкретна опция в вариационната серия.

Режимът се използва в случаите, когато е необходимо да се характеризира най-често срещаната стойност на характеристика. Ако е необходимо, например, да се установи най-често срещаната работна заплата в предприятието, цената на пазара, на която са продадени най-голям брой стоки, размерът на обувките, който е в най-голямо търсене сред потребителите и т.н., в тези случаи те прибягват до модата.

Медианата е интересна с това, че показва количествената граница на стойността на варираща характеристика, която половината от членовете на съвкупността са достигнали. Нека средната заплата на банковите служители е 650 000 рубли. на месец. Тази характеристика може да бъде допълнена, ако кажем, че половината от работниците са получили заплата от 700 000 рубли. и по-висока, т.е. Нека дадем медианата. Модата и медианата са типични характеристики в случаите, когато популациите са хомогенни и големи на брой.


2. Намиране на модата и медианата в дискретна вариационна серия

Намирането на режима и медианата във вариационна серия, където стойностите на дадена характеристика са дадени с определени числа, не е много трудно. Нека разгледаме таблица 1 с разпределението на семействата по брой деца.

Таблица 1. Разпределение на семействата по брой деца

Очевидно в този пример модата ще бъде семейство с две деца, тъй като тази стойност на опцията съответства на най-голям брой семейства. Може да има разпределения, при които всички опции се срещат еднакво често, в който случай няма режим или, с други думи, можем да кажем, че всички опции са еднакво модални. В други случаи не една, а две опции могат да бъдат с най-висока честота. Тогава ще има два режима, разпределението ще бъде бимодално. Бимодалните разпределения могат да показват качествена хетерогенност на популацията според изследваната характеристика.

За да намерите медианата в серия от дискретни вариации, трябва да разделите сумата от честотите наполовина и да добавите ½ към резултата. И така, при разпределението на 185 семейства по броя на децата, медианата ще бъде: 185/2 + ½ = 93, т.е. 93-та опция, която разделя наредения ред наполовина. Какъв е смисълът на 93-та опция? За да разберете, трябва да натрупате честоти, като започнете от най-малките опции. Сумата от честотите на 1-ви и 2-ри вариант е 40. Ясно е, че тук няма 93 варианта. Ако добавим честотата на 3-та опция към 40, получаваме сума, равна на 40 + 75 = 115. Следователно 93-та опция съответства на третата стойност на вариращия признак, а медианата ще бъде семейство с две деца.

Режимът и медианата в този пример съвпадат. Ако имахме четна сума от честоти (например 184), тогава, използвайки горната формула, ще получим числото на средната опция, 184/2 + ½ =92,5. Тъй като няма дробни опции, резултатът показва, че медианата е по средата между 92 и 93 опции.

3. Изчисляване на мода и медиана в интервални вариационни серии

Описателният характер на модата и медианата се дължи на факта, че те не компенсират индивидуалните отклонения. Те винаги отговарят на конкретна опция. Следователно режимът и медианата не изискват изчисления, за да се установи дали всички стойности на атрибута са известни. Въпреки това, в серия от интервални вариации, изчисленията се използват за намиране на приблизителната стойност на модата и медианата в рамките на определен интервал.

За да изчислите определена стойност на модалната стойност на характеристика, съдържаща се в интервал, използвайте формулата:

M o = X Mo + i Mo *(f Mo – f Mo-1)/((f Mo – f Mo-1) + (f Mo – f Mo+1)),

Където XMo е минималната граница на модалния интервал;

i Mo – стойността на модалния интервал;

f Mo – честота на модалния интервал;

f Mo-1 – честота на интервала, предхождащ модалния;

f Mo+1 – честота на интервала, следващ модалния.

Нека покажем изчислението на режима, като използваме примера, даден в таблица 2.


Таблица 2. Разпределение на работниците в предприятието по изпълнение на производствените норми

За да намерим режима, първо определяме модалния интервал на тази серия. Примерът показва, че най-високата честота съответства на интервала, където вариантите са в диапазона от 100 до 105. Това е модалният интервал. Стойността на модалния интервал е 5.

Замествайки числовите стойности от таблица 2 в горната формула, получаваме:

M o = 100 + 5 * (104 -12)/((104 – 12) + (104 – 98)) = 108,8

Значението на тази формула е следното: стойността на тази част от модалния интервал, която трябва да се добави към минималната му граница, се определя в зависимост от големината на честотите на предходния и следващите интервали. В този случай добавяме 8,8 към 100, т.е. повече от половината интервал, защото честотата на предходния интервал е по-малка от честотата на следващия интервал.

Нека сега изчислим медианата. За да намерим медианата в серия от интервални вариации, първо определяме интервала, в който се намира (медианен интервал). Такъв интервал ще бъде този, чиято кумулативна честота е равна или по-голяма от половината от сбора на честотите. Кумулативните честоти се формират чрез постепенно сумиране на честотите, като се започне от интервала с най-ниската стойност на атрибута. Половината от сбора на честотите е 250 (500:2). Следователно, според таблица 3, средният интервал ще бъде интервалът със стойност на заплатата от 350 000 рубли. до 400 000 rub.

Таблица 3. Изчисляване на медианата в интервалните вариационни серии

Преди този интервал сумата от натрупаните честоти беше 160. Следователно, за да се получи средната стойност, е необходимо да се добавят още 90 единици (250 – 160).

Медиана Азте наричат ​​стойността на атрибута, който попада в средата на класираната серия и я разделя на две части, равни по брой единици. По този начин в класирания ред на разпределението едната половина от реда има стойности на атрибути, надвишаващи медианата, другата половина е по-малка от медианата.

Медианата се използва вместо средноаритметично, когато екстремните опции на класираната серия (най-малката и най-голямата) в сравнение с останалите се окажат прекалено големи или прекалено малки.

IN отделенв вариационна серия, съдържаща нечетен брой единици, медианата е равна на варианта на характеристиката, който има числото:
,
където N е броят единици на съвкупността.
В дискретна серия, състояща се от четен брой единици от съвкупността, медианата се определя като средна стойност на опциите, имащи числа и:
.
При разпределението на работниците по трудов стаж медианата е равна на средната стойност на вариантите с номера 10 в класираната серия: 2 = 5 и 10: 2 + 1 = 6. Вариантите за петата и шестата характеристика са равни до 4 години, така
на годината
При изчисляване на медианата в интервалред първа находка среден интервал, (т.е. съдържаща медианата), за която се използват натрупани честоти или честоти. Медианата е интервал, чиято натрупана честота е равна или по-голяма от половината от общия обем на популацията. След това средната стойност се изчислява по формулата:
,
където е долната граница на средния интервал;
– ширина на медианния интервал;
– натрупана честота на интервала, предхождащ медианата;
– честота на медианния интервал.
Нека изчислим медианата на разпределението на работниците по заплата (виж лекцията „Обобщение и групиране на статистически данни”).
Медианата е диапазонът на заплатите от 800-900 UAH, тъй като неговата кумулативна честота е 17, което надвишава половината от сумата на всички честоти (). Тогава
Аз=800+100 UAH.
Получената стойност показва, че половината от работниците имат заплати под 875 UAH, но това е над средното.
За да определите медианата, можете да използвате кумулативни честоти вместо кумулативни честоти.
Медианата, подобно на режима, не зависи от екстремните стойности на варианта, поради което се използва и за характеризиране на центъра в сериите на разпределение с несигурни граници.
Медианно свойство : сумата от абсолютните стойности на отклоненията от медианата е по-малка от всяка друга стойност (включително от средната аритметична):

Това свойство на медианата се използва в транспорта при проектиране на разположението на трамвайни и тролейбусни спирки, бензиностанции, сборни пунктове и др.
Пример.По дължината на 100 км магистрала има 10 гаража. За проектиране на изграждането на бензиностанция бяха събрани данни за броя на очакваните пътувания до бензиностанцията за всеки гараж.
Таблица 2 - Данни за броя пътувания до бензиностанция за всеки автосервиз.

Необходимо е да се инсталира бензиностанция, така че общият пробег на превозните средства за зареждане да е минимален.
Опция 1.Ако бензиностанция е поставена в средата на магистралата, т.е. на 50-ия километър (центърът на обхвата на промените в атрибута), тогава пробегът, като се вземе предвид броят на пътуванията, ще бъде:
а) в една посока:
;
б) в обратното:
;
в) общ пробег в двете посоки: .

Вариант 2.Ако бензиностанция е поставена на средния участък на магистралата, определена от средноаритметичната формула, като се вземе предвид броят на пътуванията:

Медианата може да се определи графично, като се използва кумулацията (виж лекцията „Обобщение и групиране на статистически данни”). За да направите това, последната ордината, равна на сумата от всички честоти или честоти, се разделя наполовина. От получената точка се възстановява перпендикуляр, докато се пресече с кумулата. Абсцисата на пресечната точка дава средната стойност.

Функцията MEDIAN в Excel се използва за анализиране на диапазон от числови стойности и връща число, което е средата на изследваното множество (медианата). Тоест тази функция условно разделя набор от числа на две подгрупи, първата от които съдържа числа, по-малки от медианата, а втората - повече. Медианата е един от няколкото метода за определяне на централната тенденция на диапазон от интереси.

Примери за използване на функцията MEDIAN в Excel

При изследване на възрастови групи студенти са използвани данни от произволно избрана група студенти в университет. Задачата е да се определи средната възраст на учениците.

Първоначални данни:

Формула за изчисление:


Описание на аргумента:

  • B3:B15 – диапазон от изследвани възрасти.

Резултат:

Тоест в групата има студенти, чиято възраст е под 21 години и над тази стойност.



Сравняване на функциите MEDIAN и AVERAGE за изчисляване на средната стойност

При вечерните обиколки в болницата на всеки пациент се измерва телесната температура. Демонстрирайте полезността от използването на медианния параметър вместо средната стойност за изследване на диапазон от получени стойности.

Първоначални данни:

Формула за намиране на средната стойност:

Формула за намиране на медианата:

Както се вижда от средната стойност, средно температурата на пациентите е по-висока от нормалната, но това не е вярно. Медианата показва, че поне половината от пациентите имат нормална телесна температура, не по-висока от 36,6.

внимание! Друг метод за определяне на централната тенденция е модата (най-често срещаната стойност в изследвания диапазон). За да определите централната тенденция в Excel, трябва да използвате функцията MODE. Моля, обърнете внимание, че в този пример стойностите на медианата и режима са еднакви:

Това означава, че средната стойност, която разделя един набор на подмножества от по-малки и по-големи стойности, също е най-често срещаната стойност в набора. Както можете да видите, повечето пациенти имат температура 36,6.

Пример за изчисляване на медианата при статистически анализ в Excel

Пример 3. В магазин работят 3-ма продавачи. Въз основа на резултатите от последните 10 дни е необходимо да се определи служителят, на когото ще бъде даден бонусът. При избора на най-добър служител се взема предвид степента на ефективност на работата му, а не броя на продадените стоки.

Оригинална таблица с данни:


За да характеризираме ефективността, ще използваме три показателя наведнъж: средна стойност, медиана и режим. Нека ги определим за всеки служител, като използваме съответно формулите AVERAGE, MEDIAN и MODE:


За да определим степента на разсейване на данните, използваме стойност, която е общата стойност на модула на разликата между средната стойност и режима, средната стойност и медианата, съответно. Тоест коефициентът x=|av-med|+|av-mod|, където:

  • av – средна стойност;
  • med – медиана;
  • мод - мода.

Нека изчислим стойността на коефициента x за първия продавач:

Ние ще извършим изчисления по подобен начин за други продавачи. Резултати:


Нека да определим продавача, на когото ще бъде даден бонусът:

Забележка: Функцията SMALL връща първата минимална стойност от разглеждания диапазон от стойности на коефициента x.


Коефициентът x е определена количествена характеристика на стабилността на работата на продавачите, въведена от икономиста на магазина. С негова помощ беше възможно да се определи диапазонът с най-малки отклонения в стойностите. Този метод демонстрира как три метода за определяне на централната тенденция могат да се използват наведнъж, за да се получат най-надеждните резултати.

Характеристики на използването на функцията MEDIAN в Excel

Функцията има следния синтаксис:

МЕДИАН(число1; [число2];...)

Описание на аргументите:

  • номер1 е задължителен аргумент, характеризиращ първата числова стойност, съдържаща се в изследвания диапазон;
  • [номер2] – незадължителен втори (и последващи аргументи, общо до 255 аргумента), характеризиращи втората и следващите стойности на изследвания диапазон.

Бележки 1:

  1. Когато правите изчисления, е по-удобно да прехвърлите целия диапазон от стойности, които се изучават наведнъж, вместо последователно да въвеждате аргументи.
  2. Приетите аргументи са числови данни, имена, съдържащи числа, данни от референтен тип и масиви (например =MEDIAN((1,2,3,5,7,10))).
  3. При изчисляване на медианата се вземат предвид клетки, съдържащи празни стойности или логическите TRUE, FALSE, които ще се интерпретират съответно като числови стойности 1 и 0. Например резултатът от изпълнението на функция с логически стойности в аргументите (TRUE; FALSE) е еквивалентен на резултата от изпълнението й с аргументи (1;0) и е равен на 0,5.
  4. Ако един или повече аргументи на функцията приемат текстови стойности, които не могат да бъдат преобразувани в числови стойности, или съдържат кодове за грешка, функцията ще върне кода за грешка #VALUE!.
  5. Други функции на Excel могат да се използват за определяне на медианата на извадка: PERCENTILE.IN, QUARTILE.IN, MAX Примери за употреба:
  • =PERCENTILE.IN(A1:A10;0.5), тъй като по дефиниция медианата е 50-ия персентил.
  • =QUARTILE.ON(A1:A10;2), тъй като медианата е 2-ри квартил.
  • =HIGH(A1:A9,COUNT(A1:A9)/2), но само ако броят на числата в диапазона е нечетно число.

Бележки 2:

  1. Ако в изследвания диапазон всички числа са разпределени симетрично около средната стойност, средната аритметична стойност и медианата за този диапазон ще бъдат еквивалентни.
  2. При големи отклонения на данните в диапазона („разсейване“ на стойностите), медианата отразява по-добре тенденцията в разпределението на стойностите, отколкото средната аритметична стойност. Отличен пример е използването на медианата за определяне на реалното ниво на заплати сред населението на държава, в която служителите печелят порядък повече от обикновените граждани.
  3. Обхватът на изследваните стойности може да съдържа:
  • Нечетен брой числа. В този случай медианата ще бъде едно число, разделящо диапазона на две подгрупи съответно с по-големи и по-малки стойности;
  • Четен брой числа. След това медианата се изчислява като средноаритметично от две числени стойности, разделящи набора на двете подгрупи, посочени по-горе.

Заплатите в различни сектори на икономиката, температурата и нивата на валежите на една и съща територия за съпоставими периоди от време, добивите от култури, отглеждани в различни географски региони и т.н. Средната стойност обаче съвсем не е единственият обобщаващ показател - в някои случаи за по-точна оценка подходяща стойност е медианата. В статистиката се използва широко като спомагателна описателна характеристика на разпределението на характеристика в определена популация. Нека да разберем как се различава от средния, както и защо е необходимо да го използваме.

Медиана в статистиката: определение и свойства

Представете си следната ситуация: 10 души работят в една фирма заедно с директора. Обикновените работници получават 1000 UAH, а техният мениджър, който е и собственик, получава 10 000 UAH. Ако изчислим средноаритметичната стойност, се оказва, че средната заплата в това предприятие е 1900 UAH. Ще бъде ли вярно това твърдение? Или да вземем този пример: в едно и също болнично отделение има девет души с температура 36,6 °C и един човек с температура 41 °C. Средната аритметична в този случай е равна на: (36,6*9+41)/10 = 37,04 °C. Но това не означава, че всички присъстващи са болни. Всичко това подсказва, че самата средна стойност често не е достатъчна и затова се използва медиана като допълнение към нея. В статистиката този индикатор се нарича опцията, която се намира точно в средата на подредената вариационна серия. Ако го изчислим за нашите примери, получаваме съответно 1000 UAH. и 36,6°С. С други думи, медианата в статистиката е стойност, която разделя серия наполовина по такъв начин, че от двете й страни (надолу или нагоре) има еднакъв брой единици в дадена популация. Поради това свойство този показател има няколко други имена: 50-ти персентил или 0,5 квантил.

Как да намерите медианата в статистиката

Методът за изчисляване на тази стойност до голяма степен зависи от това какъв тип вариационна серия имаме: дискретна или интервална. В първия случай медианата се намира съвсем просто в статистиката. Всичко, което трябва да направите, е да намерите сумата от честотите, да я разделите на 2 и след това да добавите ½ към резултата. Най-добре би било да обясните принципа на изчисление, като използвате следния пример. Да приемем, че сме групирали данни за раждаемостта и искаме да разберем каква е медианата.

Номер на семейната група по брой деца

Брой семейства

След няколко прости изчисления откриваме, че необходимият индикатор е: 195/2 + ½ = опция. За да разберете какво означава това, трябва последователно да натрупвате честоти, като започнете от най-малките опции. И така, сумата от първите два реда ни дава 30. Ясно е, че тук няма 98 опции. Но ако добавите честотата на третата опция (70) към резултата, ще получите сума, равна на 100. Тя съдържа точно 98-та опция, което означава, че медианата ще бъде семейство с две деца.

Що се отнася до интервалните серии, обикновено се използва следната формула:

M e = X Me + i Me * (∑f/2 - S Me-1)/f Me, в което:

  • X Me - първата стойност на медианния интервал;
  • ∑f - брой серии (сума от нейните честоти);
  • i Ме - стойността на медианния диапазон;
  • f Me - честота на медианния диапазон;
  • S Ме-1 е сумата от кумулативните честоти в диапазоните, предхождащи медианата.

Отново е доста трудно да се разбере без пример. Да предположим, че има данни за стойността

Заплата, хиляди рубли.

Натрупани честоти

За да използваме горната формула, първо трябва да определим средния интервал. Като такъв диапазон изберете този, чиято натрупана честота надвишава половината от общата сума от честоти или е равна на нея. И така, разделяйки 510 на 2, откриваме, че този критерий съответства на интервала със стойност на заплатата от 250 000 рубли. до 300 000 rub. Сега можете да замените всички данни във формулата:

M e = X Me + i Me * (∑f/2 - S Me-1)/f Me = 250 + 50 * (510/2 - 170) / 115 = 286,96 хиляди рубли.

Надяваме се, че нашата статия е била полезна и вече имате ясно разбиране какво е медиана в статистиката и как трябва да се изчислява.

Число, което характеризира извадка (например набор от числа). Ако всички елементи на извадката са различни, тогава медианата е номерът на извадката, така че точно половината от елементите на извадката са по-големи от нея, а другата половина са по-малки от нея. По-общо, медианата може да бъде намерена чрез подреждане на елементите на извадка във възходящ или низходящ ред и вземане на средния елемент. Например извадката (11, 9, 3, 5, 5) след подреждане се превръща в (3, 5, 5, 9, 11) и нейната медиана е числото 5. Ако извадката има четен брой елементи, медианата може да не е уникално определена: за числови данни най-често се използва полусумата от две съседни стойности (т.е. медианата на набора (1, 3, 5, 7) се приема равна на 4), за повече подробности вижте.

Медианата може да се дефинира и за случайни променливи: в този случай тя разделя разпределението наполовина. Грубо казано, медианата на случайна променлива е такова число, че вероятността да се получи стойността на случайната променлива вдясно от нея е равна на вероятността да се получи стойността вляво от нея (и двете са равни на 1/2); За по-точно определение вижте.

Медианата също може да се каже, че е 50-ия персентил, 0,5-квантил или втори квартил на извадка или разпределение.

Свойства на медианата за случайни променливи

F (x) = 0,5 (\displaystyle F(x) = 0,5)

Ако разпределението е непрекъсната строго нарастваща функция, тогава решението на уравнението е единствено. Ако разпределението има прекъсвания, тогава медианата може да съвпадне с минималната или максималната (екстремна) възможна стойност на случайната променлива, което противоречи на „геометричното“ разбиране на този термин.

Медианата е важна характеристика на разпределението на случайна променлива и, подобно на очакваната стойност, може да се използва за центриране на разпределението. Тъй като оценките на медианата са по-стабилни, нейната оценка може да бъде по-предпочитана за разпределения с т.нар. тежки опашки. Въпреки това, предимствата на оценката на медианата в сравнение с математическото очакване могат да се обсъждат само ако тези характеристики на разпределението съвпадат, по-специално за симетрични функции на плътност на вероятността.

Медианата се определя за всички разпределения, като в случай на неяснота естествено се дефинира допълнително, докато математическото очакване може да не бъде определено (например за разпределението на Коши).

Пример за употреба

Да предположим, че в една стая има 19 бедни и един милионер. Всеки беден има $5, а всеки милионер има $1 милион (10 6). Общата сума е $1 000 095. Ако разделим парите поравно между 20 души, получаваме $50 004,75. Това ще бъде средноаритметичната стойност на сумата пари, която са имали всички 20 души в тази стая.

Медианата в този случай ще бъде равна на $5 (половината от сумата на десетата и единадесетата, Медианастойности на класираната серия). Това може да се тълкува по следния начин. След като разделихме нашата компания на две равни групи от по 10 души, можем да кажем, че в първата група всеки има не повече от $5, а във втората не по-малко от $5. Като цяло можем да кажем, че медианата е колко е донесъл със себе си „средният“ човек. Напротив, средноаритметичното е неподходяща характеристика, тъй като значително надвишава размера на наличните пари в брой на обикновения човек.