Mediana

Mediana: samprata, savybės ir taikymas tyrimuose

Mediana yra vienas svarbiausių statistinių duomenų centrinės tendencijos rodiklių kartu su aritmetiniu vidurkiu ir moda. Ji apibrėžiama kaip reikšmė, kuri lygiagrečiai padalija surikiuotą imtį į dvi lygias dalis – 50 % stebinių yra mažesni arba lygūs medianai, o likę 50 % – didesni arba lygūs

Medianą plačiai naudoja įvairiose mokslo srityse, ypač tais atvejais, kai duomenys yra netolygūs, turi ekstremalių reikšmių (angl. outliers) ar neatitinka normaliojo skirstinio prielaidų. Šiame straipsnyje nuodugniai aptarsime medianą, jos teorinius pagrindus, savybes ir taikymą moksliniuose tyrimuose

1. Medianos apibrėžimas ir matematinė interpretacija

Tai yra duomenų skirstinio centrinės tendencijos matas, kuris identifikuoja centrinę reikšmę ne pagal aritmetinį vidurkį, o pagal poziciją.

1.1. Formalus apibrėžimas

Tarkime, turime surikiuotą imtį:

x(1),x(2),…,x(n)x_{(1)}, x_{(2)}, \dots, x_{(n)}

Tada mediana MeMe apibrėžiama taip:

  • Jei nn yra nelyginis:

Me=x(n+12)Me = x_{\left(\frac{n+1}{2}\right)}

  • Jei nn yra lyginis:

Me=x(n/2)+x(n/2+1)2Me = \frac{x_{(n/2)} + x_{\left(n/2 + 1\right)}}{2}

Šis apibrėžimas rodo, kad jinai nepriklauso nuo konkrečių duomenų reikšmių dydžių, o tik nuo jų eilės

2. Medianos savybės

Pasižymi tomis savybėmis, kurios ją išskiria iš kitų centrinės tendencijos matų

2.1. Robustumas ekstremalių reikšmių atžvilgiu

Jinai itin atspari anomalijoms. Jeigu į duomenų aibę įtraukiama labai didelė ar labai maža reikšmė, mediana keičiasi mažai arba visai nesikeičia

Aritmetinis vidurkis tokiu atveju tampa nepatikimu, nes jį stipriai iškraipo ekstremalūs taškai

2.2. Minimalus bendrasis nuokrypis

Minimalizuoja sumą absoliutinių nuokrypių:

∑i=1n∣xi−c∣\sum_{i=1}^{n} |x_i - c|

Kai c=Mec = Me, ši suma mažiausia. Vidurkis minimalizuoja kvadratinių nuokrypių sumą, todėl jinai naudojama, kai reikšmių paskirstymas yra netolygus arba labiau išsklaidytas.

2.3. Invariantinė monotoniniams transformavimams

Jeigu funkcija ff yra griežtai didėjanti, tai:

Me(f(X))=f(Me(X))Me(f(X)) = f(Me(X))

Ši savybė leidžia ją taikyti nestandartiniams duomenims arba transformacijoms (pvz., logaritminėms)

2.4. Egzistuoja visada

Skirtingai nuo kai kurių kitų rodiklių, medianą galima apskaičiuoti bet kokiam matavimų rinkiniui, net esant netolygiai pasiskirsčiusiems, nežinomiems ar diskretiems duomenims.

3. Mediana ir skirstinių tipai

Ypač naudinga tam tikruose skirstiniuose:

3.1. Asimetriški skirstiniai

Kai skirstinys nėra simetriškas, jinai tiksliau atspindi centrinę tendenciją nei vidurkis. Pavyzdžiai:

Šiuose atvejuose vidurkis dažnai būna aukštesnis už medianą dėl dešiniosios uodegos (angl. right-skew).

3.2. Daugiamodžiai skirstiniai

Išlieka informatyvi, net jei moda yra neapibrėžta arba pasiskirstymas turi kelias modas. Tokiais atvejais jinai nurodo „centrinę“ duomenų masę.

4. Mediana statistiniuose modeliuose ir analitinėse procedūrose

4.1. Regresijoje

Naudojama kvantilinėje regresijoje, kai siekiama modeliuoti sąlyginę medianą, o ne vidurkį. Tai leidžia:

  • geriau valdyti išskirtis,

  • analizuoti nevienodą dispersiją,

  • taikyti modelius, kuriems netinka klasikinės OLS (mažiausiųjų kvadratų) prielaidos.

4.2. Mediana ir neparametriniai testai

Kai duomenys neatitinka normalaus skirstinio, naudojami medianos testai:

  • Wilcoxon rangų suma testas,

  • Mann–Whitney U testas,

  • Sign test.

Šiuose metoduose medianos pokyčiai naudojami grupių palyginimui.

4.3. Laiko eilučių analizėje

Laiko eilutėse naudojama:

  • triukšmo mažinimui (medianinis filtras),

  • nelygių svyravimų glodinimui,

  • išskirčių šalinimui signalų apdorojime.

Medianiniai filtrai ypač populiarūs inžinerijoje ir medicininiuose signaluose.

5. Taikymo sritys

Plačiai naudojama įvairiose mokslo ir praktikos srityse dėl savo atsparumo ir paprasto interpretavimo:

5.1. Ekonomikoje ir finansuose

  • pajamų nelygybės analizei (medianinės pajamos),

  • būsto kainų tyrimuose,

  • finansinių rodiklių išskirčių valdymui.

5.2. Medicinoje

  • biomarkerių reikšmių vertinimui,

  • pacientų sveikatos rodiklių apibendrinimui,

  • klinikinių tyrimų duomenų analizėje, kur rezultatai dažnai būna asimetriški.

5.3. Socialiniuose moksluose

Naudojama apklausų duomenyse, kai:

  • skalės yra ranginės (Likerto skalė),

  • respondentai turi stipriai išsiskiriančias vertes.

5.4. Inžinerijoje

  • signalų filtravime,

  • triukšmingų duomenų apdorojime.

 

6. Grafikai: medianos ir vidurkio palyginimas

Toliau pateikiami du tipiniai grafikai, kurie aiškiai iliustruoja medianos ir vidurkio skirtumus esant skirtingiems duomenų skirstiniams

6.1. Simetriškas skirstinys

Grafiko aprašymas

  • Horizontalioje ašyje – duomenų reikšmės (pvz., nuo 0 iki 100).

  • Vertikalioje – duomenų tankis.

  • Pasirenkamas normalus skirstinys.

  • Ant grafiko pažymimi du taškai: vidurkis ir mediana.

Rezultatas

Simetriškame skirstinyje vidurkis = mediana. Tai rodo, kad simetriškoje aplinkoje vidurkis veikia taip pat efektyviai

6.2. Asimetriškas (dešinius sparnu turintis) skirstinys

Grafiko aprašymas

  • Tankio kreivė pasislinkusi į kairę, o „uodega“ tęsiasi į dešinę.

  • Tokie skirstiniai būdingi pajamoms, būsto kainoms, laukimo laikams.

Rezultatas

Grafike aiškiai matoma:

  • vidurkis pasislenka į dešinę, jį „patraukia“ didelės reikšmės,

  • mediana išlieka centrinėje, stabilioje pozicijoje.

Tokiu būdu pabrėžiama medianos robustiškumo savybė.

7. Praktiniai skaičiavimo pavyzdžiai

Toliau – trys skirtingų situacijų pavyzdžiai.

7.1. Nelyginis skaičius duomenų

Turime duomenų rinkinį:

6, 1, 9, 4, 76,\ 1,\ 9,\ 4,\ 7

  1. Rikiuojame:

1, 4, 6, 7, 91,\ 4,\ 6,\ 7,\ 9

  1. Kadangi n=5n = 5 (nelyginis), mediana yra trečia reikšmė:

Me=6Me = 6

7.2. Lyginis skaičius duomenų

Turime:

8, 2, 5, 108,\ 2,\ 5,\ 10

  1. Rikiuojame:

2, 5, 8, 102,\ 5,\ 8,\ 10

  1. Vidurys tarp dviejų centrinių reikšmių:

Me=5+82=6.5Me = \frac{5 + 8}{2} = 6.5

7.3. Duomenys su ekstremalia reikšme

Turime:

3, 4, 4, 5, 1003,\ 4,\ 4,\ 5,\ 100

  1. Rikiuojame:

3, 4, 4, 5, 1003,\ 4,\ 4,\ 5,\ 100

  1. Mediana = 4.

7.4. Paliginimas su vidurkiu:

Vidurkis:

3+4+4+5+1005=23.2\frac{3 + 4 + 4 + 5 + 100}{5} = 23.2

Išvada: Mediana išlieka realistiška, o vidurkis – dramatiškai iškreiptas dėl vienos išskirties.

8. Algoritmai  jai apskaičiuoti

Ją galima apskaičiuoti įvairiais metodais, priklausomai nuo duomenų dydžio, tipų ir reikalaujamo tikslumo. Žemiau pateikiami pagrindiniai algoritmai.

8.1. Paprastas rikiavimas (Sorting-based method)

Procedūra:

  1. Surikiuoti duomenis (O(nlog⁡n)O(n \log n))

  2. Jei nn nelyginis – imti vidurinę reikšmę

  3. Jei nn lyginis – imti dviejų vidurinių reikšmių vidurkį

Privalumai:

  • Tikslus

  • Paprastas

Trūkumai:

  • Lėtas, kai nn labai didelis (milijonai ar daugiau įrašų)

8.2. „Quickselect“ algoritmas (Hoare’s algorithm)

Greitas, dažnai naudojamas algoritmas, paremtas „Quicksort“ skaidymo principu

Sudėtingumas:

  • Vidutinis atvejis: O(n)

  • Blogiausias atvejis: O(n²)

Principas:

  1. Parenkamas atraminis elementas (pivot)

  2. Duomenys padalijami į mažesnes ir didesnes grupes

  3. Rekursyviai ieškoma medianos esančioje grupėje

Tai itin efektyvus metodas, naudojamas praktinėse sistemose

8.3. „Median of Medians“ (Blum–Floyd–Pratt–Rivest–Tarjan) algoritmas

Tai vienas svarbiausių medianos skaičiavimo algoritmų, užtikrinantis deterministinį O(n) laiką net blogiausiu atveju.

Algoritmo idėja

  1. Duomenys suskirstomi į mažas grupes (dažniausiai po 5 elementus)

  2. Kiekvienai grupei apskaičiuojama grupės mediana

  3. Iš gautų medianų rekursyviai apskaičiuojama grupių mediana – vadinamoji „median of medians“

  4. Ši naudojama kaip patikimas atraminis elementas “Quickselect” tipo parinkimui

  5. Dalyba į grupes garantuoja, kad atraminis elementas yra „pakankamai geras“ ir, svarbiausia blogiausiu atveju pasiekiamas tiesinis laikas

Kodėl šis metodas svarbus?

  • Yra teorinis pagrindas daugeliui optimizuotų paieškos algoritmų

  • Naudojamas sistemose, kur būtina garantuoti greičio ribą (real-time sistemos)

  • Užtikrina efektyvumą net labai dideliuose duomenų rinkiniuose

 

9. Tarpinių medianų metodai srautiniams duomenims

Kai duomenys yra stream tipo (ateina nuolat, realiuoju laiku), naudojami du „heap“ (krūvų) metodai:

  • Didžiausioji krūva (max-heap) saugo mažesnes reikšmes

  • Mažiausioji krūva (min-heap) saugo didesnes reikšmes

9.1. Privalumai:

  • Leidžia apskaičiuoti medianą dinamiškai

  • Sudėtingumas: O(log n) kiekvienam įrašui

9.2. Šis metodas naudojamas:

  • finansų rinkų analizėje,

  • sensorių duomenyse,

  • interneto srautų analitikoje,

  • realaus laiko duomenų apdorojime.

 

10. Privalumai ir trūkumai

Privalumai

  • Atspari išskirtims

  • Paprasta apskaičiuoti

  • Veiksminga net esant asimetriškiems skirstiniams

  • Tinka ranginiams duomenims

  • Stabilus rodiklis nestruktūruotuose duomenyse

Trūkumai

  • Nereaguoja į duomenų pasiskirstymo formą

  • Mažiau informatyvi nei vidurkis, kai skirstinys simetriškas

  • Nepatogi kai kuriuose matematinio modeliavimo procesuose dėl nenuoseklių išvestinių

 

Išvada

Mediana yra vienas esminių centrinės tendencijos rodiklių, pasižymintis dideliu robustiškumu ir pritaikomumu įvairiuose tyrimuose. Skirtingai nei aritmetinis vidurkis, jinai išlieka stabilus ir patikimas matas net esant ekstremalioms reikšmėms ar asimetriškiems skirstiniams. Dėl šių priežasčių tai yra nepakeičiama ekonomikoje, medicinoje, socialiniuose moksluose ir duomenų analizėje.

Tyrimų praktika rodo, kad tai yra ne tik paprastas centro matas, bet ir galingas analitinis įrankis, padedantis išvengti klaidinančių interpretacijų ir pateikti tikslesnius statistinius apibendrinimus.