statystyka: Miary położenia

WIĘCEJ INFORMACJI W: Statystyka po ludzku

Miary położenia (średnie, tendencji centralnej) w syntetyczny sposob charakteryzują

badaną zbiorowość statystyczną. Z uwagi na swoj syntetyczny

charakter nadają się one do porownań zbiorowości w czasie i przestrzeni.

Głowną zaletą tych miar – w odrożnieniu od wskaźnikow struktury – jest

wyrażanie ich wielkości w liczbach mianowanych, tj. w takich jednostkach

miary, w jakich wyrażona jest wartość danej cechy statystycznej Klasyczną miarą położenia jest średnia arytmetyczna. Należy zaznaczyć,

iż miara ta jest dostępna tylko dla cech mierzonych za pomocą skali prze -

działowej bądź ilorazowej. W statystyce matematycznej (zob. Wnioskowa -

nie statystyczne) istotne jest rozrożnienie średniej arytmetycznej dla proby

od średniej arytmetycznej dla populacji generalnej m (por. [3, s. 99]).

To, z jakiego wzoru należy obliczyć średnią arytmetyczną, zależy od tego,

czy dane zostały pogrupowane w szereg rozdzielczy czy też nie. I tak, dla

danych niepogrupowanych średnią arytmetyczną wyznacza się ze wzoru:

Oto przykład obliczania średniej arytmetycznej według powyższego wzoru:

Przykład. W ankiecie dla Czytelnikow (zob. rys. 1.6) w pytaniu nr 6 poproszono

respondentow m.in. o ocenę jakości treści niniejszego opracowania

na pięciostopniowej skali Stapela. Oto oceny uzyskane na podstawie

piętnastu ankiet internetowych (dane umowne):

5, 4, 4, 5, 3, 4, 2, 4, 3, 5, -1, -4, 1, -2, -5

W rozbudowanym przykładzie zamieszczonym w rozdziale pierwszym

(Trening i ewaluacja) powyższe dane uśredniono za pomocą Raportu

tabeli przestawnej (zob. aplikacja MS Excel: Przykłady – grupowanie

danych). Ponadto w programie MS Excel wśrod funkcji statystycznych

(Wstaw…, Funkcja…, a następnie określenie funkcji statystycznych)

dostępna jest wbudowana funkcja obliczająca średnią arytmetyczną dla

danych niepogrupowanych:

ŚREDNIA(zakres_danych) Aby tradycyjnie obliczyć średnią arytmetyczną, należy zsumować uzyskane

punkty, a następnie podzielić je przez liczbę obserwacji, tj. n = 15 (liczba

otrzymanych ankiet):

Przeciętna liczba punktow wskazuje na pozytywną ocenę prezentowanych

treści.

Dla danych pogrupowanych w szereg rozdzielczy punktowy oblicza się

ważoną średnią arytmetyczną według poniższego wzoru:

Przykład. Pewna szkoła prywatna ocenia swoją ofertę edukacyjną według

sporządzonej listy kryteriow. W ankiecie przeprowadzonej na reprezentatywnej

grupie 200 studentow zadano pytanie: Który z wymienionych czynników

jest dla Pana/Pani najistotniejszy? (tylko jedna opcja odpowiedzi):

a) cena kursu,

b) zrożnicowanie oferty edukacyjnej,

c) wiedza i umiejętności kadry dydaktycznej,

d) możliwość nauki przez Internet,

e) dogodna lokalizacja,

f) materiały dydaktyczne wliczone w cenę kursu.

Ocena oferty według każdego z powyższych kryteriow została dokonana

przez właściciela szkoły w skali od 0 do 10. Aby obliczyć średnią arytmetyczną

ważoną, konieczne jest wprowadzenie dodatkowej kolumny xi ni.

Oto niezbędne obliczenia:

Na podstawie sporządzonej tabeli pomocniczej można stosunkowo łatwo

obliczyć niezbędne sumy xi ni, a następnie podstawić do wzoru na średnią

ważoną:

Z uwagi na dysjunktywny charakter pytania ankiety (wymagane wskazanie

tylko jednego czynnika) liczba wskazań jest równa liczbie respondentów

(n = 200). Uzyskana ważona ocena punktowa – gdzie wagami ni są liczby

wskazań – sugeruje, iż oferta szkoły jest przeciętna. W związku z tym należałoby

podjąć pewne działania zmierzające do uczynienia tej oferty bardziej

atrakcyjną (np. poszerzenie oferty o dodatkowe kursy).

Podstawowym błędem jest niestosowanie odpowiedniego wzoru dla danych

pogrupowanych, tj. nieuwzględnianie wag, czyli liczebności cząstkowych

ni. W związku z tym – zamiast dzielenia przez liczbę wszystkich obserwacji

n (w powyższym przykładzie liczbę wskazań), niektórzy studenci

dzielą przez liczbę wariantów k (na zasadzie analogii do wzoru na tradycyjną

średnią). Należy więc pamiętać o uwzględnianiu wag w przypadku danych

pogrupowanych w szereg punktowy bądź z przedziałami klasowymi.

Dla danych pogrupowanych w szereg rozdzielczy z przedziałami klasowy -

mi średnią arytmetyczną ważoną oblicza się wśrednią dla szeregu punktowego, przy czym zamiast wartości xi zastosowanie

znajdują środki przedziałów klasowych:

Środki przedziałów klasowych były już wyznaczane przy prezentacji materiału

statystycznego (zob. diagram). Stanowią one średnią arytmetyczną

dolnej i górnej granicy przedziału klasowego.

Przykład. Inwestor rozważa zakup akcji spółki Żywiec. W związku z tym

interesuje go przeciętna wartość tygodniowych stóp zwrotu tych akcji, uzyskanych

w pierwszym półroczu 2006 r. (zob. Dane_do_analizy.xls, zakładka:

Akcje). Dane pogrupowaneow szereg rozdzielczy z przedziałami klasowymi

(zob. Przykłady – grupowanie danych). Na podstawie pogrupowanych

danych należy wyznaczyć ważoną średnią arytmetyczną tygodniowych

stóp zwrotu akcji spółki Żywiec. W tabeli poniżej znajdują się niezbędne

obliczenia:

Tabela 2.6. Oczekiwana stopa zwrotu z inwestycji w akcje spółki Żywiec (proc. tygodniowo).

Stopy zwrotu Liczba tygodni Środki klas Obliczenia pomocnicze

1 –10,00 – –7,51 1 –8,75 1 ´ (–8,75) = –8,75

2 –7,50 – –5,01 1 –6,25 –6,25

3 –5,00 – –2,51 1 –3,75 –3,75

4 –2,50 – –0,01 9 –1,25 –11,25

5 0,00 – 2,49 11 1,25 13,75

6 2,50 – 4,99 1 3,75 3,75

7 5,00 – 7,50 1 6,25 6,25

S 25 –6,25

Źródło: Obliczenia własne na podstawie danych pochodzących z Serwisu Internetowego

Gazety Parkiet, http://www.parkiet.com/dane/dane_atxt.jsp analogiczny sposób jak

Należy wyjaśnić, iż wartość gornego przedziału klasowego odpowiada

wartości dolnego przedziału następnej klasy (rożnice z dokładnością do

0,01 informują, że przedziały są lewostronnie domknięte). Przykładowo,

środek pierwszego przedziału klasowego obliczono następująco:

Wartość średnią obliczono w oparciu o wyznaczone sumy w powyższej tabeli:

Przeciętna tygodniowa stopa zwrotu akcji społki Żywiec wyniosła –0,25

proc., stąd w pierwszym połroczu 2006 r. inwestycje w te walory nie przyniosły

zyskow w dłuższym horyzoncie czasu (niewielka strata).

Wagami we wzorach na średnie ważone – oprocz liczebności ni – mogą też

być wskaźniki struktury (frakcje – fi). Wowczas wzory będą miały postać:

a) szereg punktowy:

b) szereg klasowy:

Przykład. Praktycznym przykładem zastosowania pierwszego z zaprezentowanych

powyżej wzorow na średnią ważoną (szereg punktowy) jest określenie

oczekiwanej stopy zwrotu portfela akcji. Wagami są udziały poszczegolnych

walorow. Oto sposob obliczeń:

Średnia stopa zwrotu portfela wyniosła 25,78 proc. rocznie. Jak widać,

wartość średniej została odczytana bezpośrednio z tabeli, bez konieczności

dodatkowych obliczeń.

Ponieważ miary klasyczne dla danych pogrupowanych w szereg rozdzielczy

punktowy oraz dla danych pogrupowanych w szereg z przedziałami

klasowymi wyznacza się w sposob analogiczny, stąd w dalszej części

teoretycznej będą pojawiać się przykłady obliczeń tego typu miar dla

szeregu z przedziałami klasowymi (kontynuacja przykładu z tygodniowymi

stopami zwrotu akcji społki Żywiec).

Jeżeli dane występują w postaci wskaźnikow natężenia, to do wyznaczenia

ich wartości przeciętnej – jak już zasygnalizowano – stosuje się średnią

harmoniczną. Rozrożnia się średnią harmoniczną prostą oraz ważoną (por.

[21, s. 54]):

a) średnia harmoniczna prosta:

b) średnia harmoniczna ważona:

Przykład 1. Student postanowił przeznaczyć 300 zł na korepetycje ze statystyki.

Wybrał losowo trzech korepetytorow (n = 3), oferujących odpowiednio

ceny za godzinę korepetycji: 25 zł, 40 zł i 50 zł. U każdego z nich

postanowił zakupić lekcje za kwotę 100 zł. Przeznaczone kwoty pozwoliły

odpowiednio na zakup 4 godzin u pierwszego korepetytora, 2,5 godziny

u drugiego oraz 2 godzin u trzeciego (w sumie 8,5 godziny). Ponieważ poszczegolne

kwoty są sobie rowne (po 100 zł), stąd przeciętną cenę jednej

godziny korepetycji można obliczyć ze wzoru na prostą średnią harmoniczną:

Przeciętna cena korepetycji to 35,29 zł/godz. Wartość tę można uzyskać,

dzieląc łączne wydatki na korepetycje (300 zł) przez zakupioną liczbę godzin

ogołem (8,5 godz.). Średnią harmoniczną prostą można wyznaczyć

w Excelu, posługując się funkcją:

ŚREDNIA.HARMONICZNA(25; 40; 50)

Możliwe jest oczywiście podanie zakresu komorek, do ktorych wpisano ceny

korepetycji (w trzech sąsiadujących wierszach lub kolumnach).

Przykład 2. Wracając do przykładu dotyczącego wydajności pracy (wartość

przychodow na 1 zatrudnionego): można stwierdzić, że mamy tu do

czynienia ze średnią harmoniczną ważoną. Jako wagi ni cechy będącej relacją

dwoch wielkości należy przyjąć wartości jej licznika – w tym przykładzie

będą to przychody wyrażone w zł (w mianowniku występuje liczba zatrudnionych).

Oto sposob obliczenia średniej harmonicznej ważonej:

Na podstawie obliczeń pomocniczych zawartych w powyższej tabeli można

wyznaczyć w prosty sposob średnią harmoniczną ważoną:

Suma wag stanowi ogolną wartość przychodow przedsiębiorstwa (n = 70

000). Wartość średniej harmonicznej informuje, że przeciętna wydajność

pracy w badanym przedsiębiorstwie to 1000 zł na 1 zatrudnionego.

Kolejną grupę – obok klasycznych – stanowią pozycyjne miary średnie. Ich

niewątpliwą zaletą jest to, że mogą być one – w przeciwieństwie do średniej

arytmetycznej – wyznaczone rownież dla cech mierzonych za pomocą

skal słabszych (zob. skala nominalna i skala porządkowa), przy czym dominantę

można określić nawet dla cechy mierzonej na skali nominalnej. Inną

zaletą jest to, że miary te można obliczyć w oparciu o ograniczony zbior

danych (ma to znaczenie, gdy np. skrajne przedziały klasowe nie są domknięte).

Dominantą (modalną, modą) w zbiorze danych jakościowych jest występujący

najczęściej i-ty wariant cechy (por. [3, s. 116-117]):

decydujący o atrakcyjności oferty edukacyjnej. W tym celu poproszono

grupę losowo wybranych studentow o określenie jednego z sześciu

sugerowanych czynnikow. Po zliczeniu odpowiedzi okazało się, że aż 92

respondentow (wielkość proby to n = 200 studentow) wskazało na cenę

(zob. tabela 2.5). Zatem cena okazała się czynnikiem najważniejszym.

W przypadku danych ilościowych dominantę można wyznaczyć przy założeniu,

że rozkład cechy jest jedno- lub wielomodalny, nie zaś amodalny

(zob. rys. 2.1). Sposob obliczania dominanty zależy od tego czy dane pogrupowano

w szereg rozdzielczy punktowy czy też z przedziałami klasowymi

(dominanty nie można obliczyć dla danych niepogrupowanych).

W szeregu rozdzielczym punktowym wartość dominanty można wskazać

od razu, tak jak w przypadku danych jakościowych.

Przykład. Rozkład liczby kont e-mail (zob. rys. 1.18) jest rozkładem jednomodalnym

prawostronnie asymetrycznym (zob. rys. 1.18). Na podstawie

sporządzonego histogramu łatwo zauważyć, iż najwięcej ankietowanych

internautow posiadało jedno konto e-mail.

W tym miejscu warto podkreślić, iż dominanta to wartość cechy, a nie odpowiadająca

jej liczebność. Niejednokrotnie zamiast podania wartości dominanty

(w tym przypadku jedno konto e-mail) zdarza się, że student podaje

liczebność (w tym przykładzie liczba internautow).

W szeregu rozdzielczym z przedziałami klasowymi wyznaczenie wartości

dominanty wymaga zastosowania wzoru interpolacyjnego (zob. szacunek

statystyczny). Bardzo pomocne jest graficzne wyznaczenie dominanty.

W tym celu należy sporządzić histogram (dla rownych przedziałow klasowych

jest to histogram liczebności lub histogram częstości względnych),

2.2:

Rysunek 2.2. Rozkład tygodniowych stóp zwrotu akcji spółki Żywiec w I półroczu

2006 r.

Źródło: Opracowanie na podstawie danych pochodzących z Serwisu Internetowego Gazety

Parkiet, http://www.parkiet.com/dane/dane_atxt.jsp

Po zrzutowaniu argumentow punktu, w ktorym przecięły się wyznaczone

linie, na oś OX otrzymano wartość dominanty (por. [3, s. 119]). Analitycznie

wielkość tę można wyznaczyć ze wzoru dla danych pogrupowanych

w szereg rozdzielczy z rownymi przedziałami klasowymi:

Przykład. Na podstawie danych dotyczących tygodniowych stop zwrotu

akcji społki Żywiec należy obliczyć dominantę, czyli najczęstszą tygodniową

stopę zwrotu. W oparciu o sporządzony histogram (zob. rys. 2.2) nietrudno

stwierdzić, iż przedziałem dominanty jest przedział: [0-2,5 proc.).

Do obliczenia dominanty niezbędne są następujące informacje (zob. tabela

2.6):

-12,5 -10 -7,5 -5 -2,5 0 2,5 5 7,5 10

tygodniowe stopy zwrotu (proc.)

liczba

a) dolna granica przedziału dominanty: x0 = 0,

b) liczebność przedziału dominanty: nd = 11,

c) liczebność przedziału sąsiedniego poprzedzającego: nd-1 = 9,

d) liczebność przedziału sąsiedniego następnego: nd+1 = 1,

e) rozpiętość przedziału klasowego (wszystkie przedziały są sobie rowne):

h = 2,5.

Po podstawieniu do wzoru należy pamiętać, że otrzymaną liczbę na końcu

dodajemy do dolnej granicy (w tym przykładzie nie ma to znaczenia, bo

wartość ta jest rowna zeru):

Zatem w pierwszym połroczu 2006 r. najczęstsza tygodniowa stopa zysku

z akcji społki Żywiec była wielkością dodatnią (0,42 proc.), tj. ok. 1,7 proc.

miesięcznie.

Szczegolną ostrożność przy wyznaczaniu miar pozycyjnych, w tym dominanty,

należy zachować w przypadku szeregu rozdzielczego z nierownymi

przedziałami klasowymi. Zwrocono już na ten fakt uwagę przy omawianiu

wykresow statystycznych. Wracając do przykładu z rozkładem wieku budynkow

mieszkalnych w Polsce (stan na 2002 r.): w tym wypadku można

obliczyć dominantę na podstawie rys. 1.20. Jak stwierdzono, dominanta zawiera

się w przedziale 1971-1979 (zob. tabela 1.18). Znajduje tu zastosowanie

wzor analogiczny do wzoru na dominantę w szeregu rozdzielczym

z rownymi przedziałami klasowymi, przy czym pojawią się tu wskaźniki

natężenia liczebności li:

CopyrightPodstawiamy do wzoru następujące wartości:

a) dolna granica przedziału dominanty: x0 = 1971,

b) natężenie liczebności przedziału dominanty: ld = 3493,

c) natężenie liczebności przedziału sąsiedniego poprzedzającego:

ld-1 = 1582,

d) natężenie liczebności przedziału sąsiedniego następnego: ld+1 = 2857,

e) rozpiętość przedziału dominanty: hd = 8.

Jak wynika z obliczeń przeprowadzonych na podstawie danych Narodowego

Spisu Powszechnego z 2002 r. – najwięcej mieszkań w Polsce wybudowano

w 1977 r. Są to na ogoł piętrowe budynki, wznoszone z betonowych

płyt.

W szeregach rozdzielczych z nierownymi przedziałami klasowymi wyznaczenie

dominanty niejednokrotnie może okazać się sprawą trudną. Podstawowy

błąd polega na nieodpowiednim sporządzeniu histogramu (dla liczebności

zwykłych zamiast dla natężenia liczebności) i co się z tym wiąże

niestosowaniu wzoru uwzględniającego wskaźniki natężenia liczebności –

stąd kluczowe znaczenie ma prawidłowe sporządzenie histogramu.

Dla danych opartych minimum na skali porządkowej można – obok dominanty

– obliczyć kwantyle. Kwantyle to „wartości cechy badanej w zbiorowości,

ktore dzielą ją na określone części pod względem liczby jednostek.

Części te mogą być rowne lub pozostawać do siebie w określonych proporcjach”

[19, s. 43]. W szczegolności wśrod kwantyli wyrożnia się

percentyle (dzielące zbiorowość na 100 części), decyle (10 części) i

kwartyle (4 części). W przypadku danych indywidualnych (niepogrupowanych) istotne jest to,

aby warianty cechy były uporządkowane rosnąco. Ogolnie k-tym percentylem

w uporządkowanym zbiorze wartości cechy jest taka wartość, poniżej

ktorej znajduje się k-ty procent wartości z tego zbioru (por. [13, s. 29]):

Przykładowo, 28 percentyl (k = 0,28) dzieli zbiorowość w ten sposob, że

28 proc. jednostek statystycznych posiada wartości nie większe niż wartość

tego kwantyla.

W wielu sytuacjach wartość danego percentyla nie pokrywa się z wartością

danego wyrazu w uporządkowanym rosnąco szeregu statystycznym, lecz

z wielkością znajdującą się pomiędzy dwoma wyrazami:

W tej sytuacji należy skorzystać z bardziej zaawansowanego wzoru interpolacyjnego:

Pozycję percentyla ustala się analogicznie jak numer obserwacji w pierwszym

prezentowanym wzorze na k-ty percentyl:

Jedynie w przypadku szczegolnym, gdzie pozycja percentyla jest liczbą

całkowitą, jej wartość można wyznaczyć od razu: Pk = xi.

Medianę, będącą drugim kwartylem (5 decylem, 50 percentylem), można

obliczyć z następujących (uproszczonych) wzorow:

a) liczba obserwacji nieparzysta:

b) liczba obserwacji parzysta:

Wielkość ta dzieli populację na dwie części. Dla parzystej liczby obserwacji

jest to wyraz środkowy uporządkowanego ciągu (szereg szczegołowy),

zaś dla nieparzystej liczby obserwacji – średnia arytmetyczna z dwoch

środkowych wartości tego ciągu. Oto przykłady:

Przykład 1. Wyznaczyć medianę i pozostałe kwartyle przeciętnej ceny jednego

metra kwadratowego mieszkania 1-pokojowego na rynku wtornym

w większych miastach Polski (zob. Dane_do_analizy.xls; zakładka: Mieszkania).

Punktem wyjścia jest uporządkowanie danych rosnąco:

1. Poznań: 3606 zł/m2.

2. Gdańsk: 3630 zł/m2.

3. Wrocław: 4500 zł/m2.

4. Krakow: 5843 zł/m2.

5. Warszawa: 5993 zł/m2.

Z uwagi na nieparzystą liczbę danych (n = 5) – medianę wyznacza się według

wzoru:

Wartością środkową, czyli medianą, okazała się przeciętna cena 1 metra

kw. mieszkania 1-pokojowego we Wrocławiu. W dwoch porownywanych

miastach ceny w analogicznym okresie okazały się niższe (Poznań,

Gdańsk), a w pozostałych dwoch – wyższe (Krakow, Warszawa).

Pozostałe kwartyle, tj. kwartyl pierwszy (dolny) i trzeci (gorny) można wyznaczyć

z ogolnego wzoru na k-ty percentyl:

a) kwartyl pierwszy (25 percentyl):

b) kwartyl trzeci (75 percentyl):

W przypadku jednej czwartej miast objętych analizą cena 1 metra kw. kawalerki

nie przekroczyła 3630 zł (Poznań) – w pozostałych miastach ceny

w badanym okresie były wyższe. Analogicznie interpretuje się kwartyl

trzeci: ceny 1 metra kw. kawalerki w 75 proc. analizowanej zbiorowości

nie przekroczyły 5843 zł – w pozostałych 25 proc. porownywanych miast

były one wyższe (Warszawa). Analizę tę można uogolnić na większą liczbę

miast.

Przykład 2. W pierwszym pytaniu kwestionariusza ankiety dla Czytelnikow

(wzor kwestionariusza zaprezentowano na rys. 1.6) respondenci mieli

określić czy niniejsza publikacja pomogła im w przygotowaniu się do egzaminu.

Dane umowne zawiera arkusz Dane_do_analizy.xls (zakładka Ankiety).

Przyjęto następujący sposob kodowania danych:

–2 – zdecydowanie nie,

–1 – raczej nie,

0 – trudno powiedzieć,

+1 – raczej tak,

+2 – zdecydowanie tak.

Należy obliczyć medianę i pierwszy kwartyl na podstawie wybranych ankiet.

Tak jak w przykładzie poprzednim, najpierw należy posortować odpowiedzi

rosnąco:

Wartości wyrazow xi -2 -1 -1 0 0 0 1 1 1 1 2 2

Z uwagi na parzystą liczbę objętych analizą formularzy (n = 12) – do obliczenia

mediany znajduje zastosowanie drugi z prezentowanych wyżej wzorow:

Zatem połowa respondentow nie miała zdania (0) lub stwierdziła, że e-book

nie był pomocny w przygotowaniu się do egzaminu ze statystyki (-2,

-1). Jednocześnie co drugi ankietowany przyznał, że publikacja okazała się

przydatna w zdaniu egzaminu (+1, +2). Jeśli chodzi o kwartyl pierwszy, to

w tym przykładzie szukana wartość znajduje się pomiędzy trzecim (i = 3)

a czwartym wyrazem uporządkowanego rosnąco ciągu liczb:

W tej sytuacji należy posłużyć się wzorem interpolacyjnym.

Zdaniem co czwartego Czytelnika publikacja nie była lub raczej nie była

mu pomocna w przygotowaniu się do egzaminu.

Dane w postaci szeregu punktowego należy tak traktować, jak dane w postaci

omowionego szeregu szczegołowego (analogiczny sposob wyznaczania

percentyli). W programie MS Excel wbudowana jest funkcja, ktorą

można stosować do wyznaczania wartości k-tego percentyla dla danych

niepogrupowanych:

PERCENTYL(zakres_danych; k)

Dla danych pogrupowanych w szereg rozdzielczy z przedziałami klasowymi

– jak już zasygnalizowano – kwartyle można wyznaczyć graficznie poprzez

narysowanie wykresu kumulanty (zob. rys. 1.23). Poniżej przedstawiono sposob graficznego wyznaczania wartości kwartyli (analogicznie

można wyznaczyć dowolny percentyl) dla danych będących kontynuacją

przykładu dotyczącego tygodniowych stop zysku cen akcji społki Żywiec:

Rysunek 2.3. Wykres kumulanty tygodniowych stóp zwrotu akcji spółki Żywiec w I

półroczu 2006 r.

Źródło: Opracowanie na podstawie danych pochodzących z Serwisu Internetowego Gazety

Parkiet, http://www.parkiet.com/dane/dane_atxt.jsp.

Po zrzutowaniu punktow przecięcia się pozycji kwartyli (poziome linie

przerywane) z kumulantą – otrzyma się wartości kwartyli (odczyt z osi

OX). Wielkości te można obliczyć, stosując wzor interpolacyjny dla danych

pogrupowanych w szereg rozdzielczy z przedziałami klasowymi

(uogolnienie interpolacyjnego wzoru dla danych niepogrupowanych):

Pozycję percentyla wyznacza się natomiast ze wzoru:

Przy obliczaniu kwartyli najpierw należy ustalić ich pozycje:

1. Pierwszy kwartyl to wartość cechy, dzieląca daną zbiorowość w ten sposob,

że 25 proc. jednostek przyjmuje wartości mniejsze lub rowne tej

wartości, a pozostałe – większe; stąd pozycja tego kwartyla wynosi

0,25×n.

2. Drugi kwartyl (mediana) to wartość cechy, dzieląca populację na połowę

– stąd pozycja 0,5×n.

3. Trzeci kwartyl to wartość cechy, dzieląca populację w proporcji: 75

proc. jednostek przyjmuje wartości nie większe od trzeciego kwartylu,

a pozostałe 25 proc. wartości większe – dlatego pozycja tego kwartyla

to 0,75×n.

Następnie należy określić przedziały klasowe, w ktorych znajdują się poszczegolne

kwartyle. Pomocne jest tu graficzne wyznaczenie kwartyli (zob.

rys. 2.3). Niemniej jednak przedział kwartyla można wyznaczyć bezpośrednio

z tabeli danych (zob. tabela 2.9). Jeśli suma liczebności przekroczy poziom

pozycji kwartyla, to w danym przedziale zawiera się kwartyl, ktorego

szukamy. Oto określenie przedziału mediany (pozycja mediany to 12,5):

Mając już określone przedziały kwartyli, w kolejnym kroku należy określić

dolną granicę, liczebność i rozpiętość przedziału danego kwartyla (zakładamy

tu rowne klasy). Potrzebne są także liczebności skumulowane – do

przedziału poprzedzającego włącznie. Oto zestawienie danych niezbędnych

do obliczenia pierwszego kwartyla:

a) pozycja pierwszego kwartyla: 6,25

b) dolna granica przedziału pierwszego kwartyla: –2,5

c) liczebność przedziału pierwszego kwartyla: 9

d) suma liczebności trzech klas poprzedzających przedział pierwszego

kwartyla: 3

e) rozpiętość przedziału pierwszego kwartyla: 2,5

Podstawiamy do wzoru:

Jedna czwarta tygodniowych stop zwrotu to spadki na poziomie minimum

1,6 proc.

a) pozycja mediany: 12,5

b) dolna granica przedziału mediany: 0

c) liczebność przedziału mediany: 11

d) suma liczebności czterech klas poprzedzających przedział mediany: 12

e) rozpiętość przedziału mediany: 2,5

Połowa osiągniętych tygodniowych stop zysku przekroczyła poziom 1,1

proc.

W przedziale czwartym znajduje się także trzeci kwartyl, stąd w porownaniu

z medianą zmieni się tu tylko pozycja kwartyla:

W przypadku 25 proc. tygodni miały miejsce stopy zysku przekraczające

1,5 proc.

Pomiędzy wyznaczonymi miarami tendencji centralnej mogą zachodzić następujące

zależności (por. [7, s. 121]):

a) rozkład symetryczny:

b) rozkład lewostronnie asymetryczny:

c) rozkład prawostronnie asymetryczny:

Z powyższego porownania wynika, że miary pozycyjne są znacznie mniej

„czułe” na obserwacje nietypowe, stąd jest postulowane ich zastosowanie

w przypadku rozkładow cechy o znacznej asymetrii. Ponadto – jak już

wspomniano – zastosowanie tych miar nie wymaga zaangażowania do obliczeń

wszystkich obserwacji, co jest ważne w przypadku niedomkniętych

skrajnych przedziałow klasowych.

Średnią arytmetyczną można zastosować w przypadku, gdy rozkład cechy

nie jest skrajnie asymetryczny czy wielomodalny. Dużym atutem tej miary

jest jej stosunkowo proste obliczanie. Poza tym stanowi ona podstawę do

wyznaczania innych miar klasycznych.

WIĘCEJ INFORMACJI W: Statystyka po ludzku

czwartek, 25 czerwca 2015

Miary położenia