Štatistika: Charakteristiky náhodnej veličiny (1.diel)

Na úvod by som sa chcel zamerať na konkrétnu problematiku. Ako som spomenul, je dôležité objektívne posúdiť pravdivosť/nepravdivosť informácií, ktoré vám každodenne niekto strká do hlavy či v novinách, televízii alebo internete. Nakoľko sa medzi nami študentmi diskutujú aj záležitosti kvality škôl a ich rivalita, poukážem na článok s názvom Velké srovnání pražských ekonomických škol.

Dovolím si citovať nasledujúce riadky: “Zajímavé je také poznamenat, že úroveň vědy je výrazně pozitivně korelovaná s úrovní pozdějších příjmů. Jejich závislost je statisticky signifikantní a vysvětluje až 50% rozptylu hodnot průměrných příjmů.” Niektorí ste už možno počuli o korelácii alebo rozptyle, no mojim zámerom je tieto povedzme pojmy definovať a HLAVNE dodať im praktický význam! Za pozornosť určite stojí aj tabuľka s hodnotami výzkumu, ktorú si dovolím priložiť ako obrázok:

Už na prvý pohľad si všimnete, že v priemernom plate absolventa vedú ľudia z IES. No nesmieme prehliadnuť počet študentov, teda výberový súbor! Je evidentné, že ľudí z IES je malé množstvo, čo sa o absolventoch VŠE povedať nedá! Každopádne diferencia platov absolventov UK a jednotlivých fakúlt VŠE v niektorých prípadoch (FMV, FFÚ a FIS) nie je dramatická.

Keďže aj plat absolventov rôznych škôl sa správa stochasticky, môžeme ho označiť ako náhodnú veličinu. Našou úlohou a koniec koncov aj úlohou autorov článku bolo túto náhodnú veličinu popísať. Začnime tým, že budeme mať k dispozícii sample file, na ktorom budem mať vygenerované dáta, povedzme odpovedajúce možným príjmom absolventov IES.

Charakteristiky polohy

Vytvoríme si jednoduché grafy scenárov. Označme si

oblasť dát s názvom IES-kvalitný a prejdime na zložku Insert pole Charts a vyberieme základný Line graf. Objaví sa nám plocha s grafom. Túto procedúru budeme opakovať jednak pre dáta IES-stredne kvalitný a IES-málo kvalitný. Finálne by sme mali obdŕžať v liste 4 podobné grafy. Pre prehľadnosť si urobíme grafický list jednoduchým stlačením klávesy F11. Pomenujeme si ho napríklad GRAFY. Potom

sa vrátime na pôvodný list, v ktorom sa nachádzajú grafy a klikneme na jeden z nich. Po kliknutí by sa mal zobraziť panel Chart Tools, v ktorom

klikneme na možnosť Design. Potom klikneme na možnosť Move Chart a v okne Object in vyberieme náš grafický list s menom GRAFY. Túto procedúru budeme opakovať až kým sa liste GRAFY nebudú nachádzať všetky, ktoré

sme si vytvorili. Po presunutí a následných úpravách budeme mať zoradené grafy od najkvalitnejších po najmenej kvalitné dáta. Vymažeme postranné legendy a upravíme si formát ypsilonovej osi. Prejdeme individuálne každým grafom, klikneme pravým tlačidlom na os a vyberieme Format Axis.

V položke zmeníme rozhranie podľa obrázka. Samozrejme si tieto nastavenie môžete pozmeniť individuálne podľa potrieb. Účelom je, aby všetky tri grafy mali rovnaký formát osi. Potom môžete po ďalších, povedzme kozmetických úpravách docieliť takýto grafický výstup:

Z grafu je evidentné, že názvy dát sú koherentné s ich skutočnou kvalitou. Ak si vezmeme v úvahu, že jednotlivé hodnoty sú absolventské platy, tak by sme rozhodne nechceli aby kolísali u jednotlivých absolventov. A následne vás uistím, že takto diametrálne odlišné náhodné veličiny majú rovnaké charakteristiky polohy, ktoré opisuje tabuľka z článku!

Priemer vs. Stredná hodnota

Tento, pre väčšinu z vás známy vzorec a pojem je celkom zložité definovať na zrozumiteľnej úrovni. Väčšina dostupných zdrojov sa ho pokúša nazvať ako povedzme strednú hodnotu nejakého súboru. V bežnej reči byť priemerný znamená ako je väčšina prípadov, bez extrémne dobrých alebo extrémne slabých.

V skutočnosti je to tak trošku komplikovanejšie! My totiž veľmi radi hľadáme strednú hodnotu náhodnej veličiny prostredníctvom výberového súboru. A neexistuje iný spôsob ako túto strednú hodnotu odhadovať! V podstate sa stredná hodnota v nespojitom svete (izolované hodnoty – plat jednotlivca) uvádza ako najčastejšia hodnota výskytu. V spojitom svete (izolované hodnoty sú tak malé, že ich pravdepodobnosť výskytu konverguje k nule, takže môžeme uvažovať interval hodnôt; napríklad objem kvapaliny v nádobe – nikdy nedokážeme naliať do fľaše presne 1,00… litra kvapaliny, no interval od 0,99.. do 1,01 už áno) je to hodnota, pri ktorej integrál funkcie, ktorá náhodnú veličinu popisuje nadobúda maximum.

Celkom zložité, ale nezúfajte. Budeme sa tomu venovať neskôr, pri popise náhodných veličín inak ako charakteristikami. No vrátim sa k ODHADU strednej hodnoty! My obecne môžeme použiť na odhad rôzny vzorec, algoritmus. Avšak v mnohých prípadoch je najlepším odhadom strednej hodnoty aritmetický priemer. To samozrejme NEZNAMENÁ, že tento fakt môžeme zovšeobecniť pre všetky prípady! Viď napríklad Paretovo rozdelenie náhodnej veličiny (budeme rozoberať neskôr).

Medián a iné kvantily

Ďalším spôsobom, ako odhadovať našu strednú hodnotu je prostredníctvom mediánu. Principiálne ide o to určiť hranicu, kam ďaleko sa dostalo 50% prípadov! V našom prípade na akej hornej platovej úrovni sa nachádza až 50% absolventov. Stačí hodnoty zoradiť od najmenších po najväčšie a vyhľadať hodnotu v strede súboru( n/2, v prípade párneho počtu [n-1]/2 +1).

Kvantily obecne sú prospešné a to z dôvodu uvedenia obrazu (predstavy) o type súboru pri nižších alebo vyšších hodnotách jeho podielu. V praxi sa uvažuje dolný (25% prípadov je menších alebo rovných) a horný kvartil (75% prípadov je menších alebo rovných).

Aby sme neostali len pri definíciách, použijeme všetky charakteristiky polohy a momentov na dátach. Pre priemer použijeme funkciu =AVERAGE(“hodnoty”) a momentové charakteristiky =QUARTILE.EXC(“hodnoty”;1 alebo 2 alebo 3). Číslo 1 znamená Dolný kvartil, 2 Medián a 3 horný kvartil. Výsledky budeme interpretovať pomocou grafu:

Takto môžeme konštatovať kvalitu študentov pomocou polohových a momentových charakteristík. Čo z toho plynie? Nakoľko všetky typy IES absolventov majú rovnaký priemer aj medián (ako v článku), predsa typ “IES-kvalitný” výberový súbor by bol snom každého študenta o absolventských platoch! Ak sa zamyslíte nad tabuľkou z článku, je lepšie byť v skupine, ktorá má síce najvyššiu priemernú hodnotu aj medián platov bez znalosti kvartilov? Alebo zvoliť si menší priemerný plat no mať povedzme pokojnejšiu myseľ, lebo dolný kvartil je pomerne vysoký? Ťažko odvodzovať závery bez znalosti reálnych dát! Každopádne už pomocou týchto charakteristík si môžeme vytvoriť obraz o kvalite! Nasledujúce charakteristiky variability a tvaru túto kvalitu ešte spresnia!

V nasledujúcom článku si ukážeme Histogram a budeme pokračovať v charakteristikách náhodných veličín.

Štatistika

nedeľa 23. septembra 2012

Charakteristiky náhodnej veličiny (1.diel)

Charakteristiky polohy

Žiadne komentáre:

Zverejnenie komentára