Mediana yra vienas svarbiausių statistinių duomenų centrinės tendencijos rodiklių kartu su aritmetiniu vidurkiu ir moda. Ji apibrėžiama kaip reikšmė, kuri lygiagrečiai padalija surikiuotą imtį į dvi lygias dalis – 50 % stebinių yra mažesni arba lygūs medianai, o likę 50 % – didesni arba lygūs
Medianą plačiai naudoja įvairiose mokslo srityse, ypač tais atvejais, kai duomenys yra netolygūs, turi ekstremalių reikšmių (angl. outliers) ar neatitinka normaliojo skirstinio prielaidų. Šiame straipsnyje nuodugniai aptarsime medianą, jos teorinius pagrindus, savybes ir taikymą moksliniuose tyrimuose
1. Medianos apibrėžimas ir matematinė interpretacija
Tai yra duomenų skirstinio centrinės tendencijos matas, kuris identifikuoja centrinę reikšmę ne pagal aritmetinį vidurkį, o pagal poziciją.
1.1. Formalus apibrėžimas
Tarkime, turime surikiuotą imtį:
x(1),x(2),…,x(n)x_{(1)}, x_{(2)}, \dots, x_{(n)}
Tada mediana MeMe apibrėžiama taip:
Jei nn yra nelyginis:
Me=x(n+12)Me = x_{\left(\frac{n+1}{2}\right)}
Jei nn yra lyginis:
Me=x(n/2)+x(n/2+1)2Me = \frac{x_{(n/2)} + x_{\left(n/2 + 1\right)}}{2}
Šis apibrėžimas rodo, kad jinai nepriklauso nuo konkrečių duomenų reikšmių dydžių, o tik nuo jų eilės
2. Medianos savybės
Pasižymi tomis savybėmis, kurios ją išskiria iš kitų centrinės tendencijos matų
2.1. Robustumas ekstremalių reikšmių atžvilgiu
Jinai itin atspari anomalijoms. Jeigu į duomenų aibę įtraukiama labai didelė ar labai maža reikšmė, mediana keičiasi mažai arba visai nesikeičia
Aritmetinis vidurkis tokiu atveju tampa nepatikimu, nes jį stipriai iškraipo ekstremalūs taškai
2.2. Minimalus bendrasis nuokrypis
Minimalizuoja sumą absoliutinių nuokrypių:
∑i=1n∣xi−c∣\sum_{i=1}^{n} |x_i - c|
Kai c=Mec = Me, ši suma mažiausia. Vidurkis minimalizuoja kvadratinių nuokrypių sumą, todėl jinai naudojama, kai reikšmių paskirstymas yra netolygus arba labiau išsklaidytas.
2.3. Invariantinė monotoniniams transformavimams
Jeigu funkcija ff yra griežtai didėjanti, tai:
Me(f(X))=f(Me(X))Me(f(X)) = f(Me(X))
Ši savybė leidžia ją taikyti nestandartiniams duomenims arba transformacijoms (pvz., logaritminėms)
2.4. Egzistuoja visada
Skirtingai nuo kai kurių kitų rodiklių, medianą galima apskaičiuoti bet kokiam matavimų rinkiniui, net esant netolygiai pasiskirsčiusiems, nežinomiems ar diskretiems duomenims.
3. Mediana ir skirstinių tipai
Ypač naudinga tam tikruose skirstiniuose:
3.1. Asimetriški skirstiniai
Kai skirstinys nėra simetriškas, jinai tiksliau atspindi centrinę tendenciją nei vidurkis. Pavyzdžiai:
pajamų pasiskirstymas,
nekilnojamojo turto kainos,
laukimo laikas eilėje.
Šiuose atvejuose vidurkis dažnai būna aukštesnis už medianą dėl dešiniosios uodegos (angl. right-skew).
3.2. Daugiamodžiai skirstiniai
Išlieka informatyvi, net jei moda yra neapibrėžta arba pasiskirstymas turi kelias modas. Tokiais atvejais jinai nurodo „centrinę“ duomenų masę.
4. Mediana statistiniuose modeliuose ir analitinėse procedūrose
4.1. Regresijoje
Naudojama kvantilinėje regresijoje, kai siekiama modeliuoti sąlyginę medianą, o ne vidurkį. Tai leidžia:
geriau valdyti išskirtis,
analizuoti nevienodą dispersiją,
taikyti modelius, kuriems netinka klasikinės OLS (mažiausiųjų kvadratų) prielaidos.
4.2. Mediana ir neparametriniai testai
Kai duomenys neatitinka normalaus skirstinio, naudojami medianos testai:
Wilcoxon rangų suma testas,
Mann–Whitney U testas,
Sign test.
Šiuose metoduose medianos pokyčiai naudojami grupių palyginimui.
4.3. Laiko eilučių analizėje
Laiko eilutėse naudojama:
triukšmo mažinimui (medianinis filtras),
nelygių svyravimų glodinimui,
išskirčių šalinimui signalų apdorojime.
Medianiniai filtrai ypač populiarūs inžinerijoje ir medicininiuose signaluose.
5. Taikymo sritys
Plačiai naudojama įvairiose mokslo ir praktikos srityse dėl savo atsparumo ir paprasto interpretavimo:
5.1. Ekonomikoje ir finansuose
pajamų nelygybės analizei (medianinės pajamos),
būsto kainų tyrimuose,
finansinių rodiklių išskirčių valdymui.
5.2. Medicinoje
biomarkerių reikšmių vertinimui,
pacientų sveikatos rodiklių apibendrinimui,
klinikinių tyrimų duomenų analizėje, kur rezultatai dažnai būna asimetriški.
5.3. Socialiniuose moksluose
Naudojama apklausų duomenyse, kai:
skalės yra ranginės (Likerto skalė),
respondentai turi stipriai išsiskiriančias vertes.
5.4. Inžinerijoje
signalų filtravime,
triukšmingų duomenų apdorojime.
6. Grafikai: medianos ir vidurkio palyginimas
Toliau pateikiami du tipiniai grafikai, kurie aiškiai iliustruoja medianos ir vidurkio skirtumus esant skirtingiems duomenų skirstiniams
6.1. Simetriškas skirstinys
Grafiko aprašymas
Horizontalioje ašyje – duomenų reikšmės (pvz., nuo 0 iki 100).
Vertikalioje – duomenų tankis.
Pasirenkamas normalus skirstinys.
Ant grafiko pažymimi du taškai: vidurkis ir mediana.
Rezultatas
Simetriškame skirstinyje vidurkis = mediana. Tai rodo, kad simetriškoje aplinkoje vidurkis veikia taip pat efektyviai
6.2. Asimetriškas (dešinius sparnu turintis) skirstinys
Grafiko aprašymas
Tankio kreivė pasislinkusi į kairę, o „uodega“ tęsiasi į dešinę.
Tokie skirstiniai būdingi pajamoms, būsto kainoms, laukimo laikams.
Rezultatas
Grafike aiškiai matoma:
vidurkis pasislenka į dešinę, jį „patraukia“ didelės reikšmės,
mediana išlieka centrinėje, stabilioje pozicijoje.
Tokiu būdu pabrėžiama medianos robustiškumo savybė.
7. Praktiniai skaičiavimo pavyzdžiai
Toliau – trys skirtingų situacijų pavyzdžiai.
7.1. Nelyginis skaičius duomenų
Turime duomenų rinkinį:
6, 1, 9, 4, 76,\ 1,\ 9,\ 4,\ 7
Rikiuojame:
1, 4, 6, 7, 91,\ 4,\ 6,\ 7,\ 9
Kadangi n=5n = 5 (nelyginis), mediana yra trečia reikšmė:
Me=6Me = 6
7.2. Lyginis skaičius duomenų
Turime:
8, 2, 5, 108,\ 2,\ 5,\ 10
Rikiuojame:
2, 5, 8, 102,\ 5,\ 8,\ 10
Vidurys tarp dviejų centrinių reikšmių:
Me=5+82=6.5Me = \frac{5 + 8}{2} = 6.5
7.3. Duomenys su ekstremalia reikšme
Turime:
3, 4, 4, 5, 1003,\ 4,\ 4,\ 5,\ 100
Rikiuojame:
3, 4, 4, 5, 1003,\ 4,\ 4,\ 5,\ 100
Mediana = 4.
7.4. Paliginimas su vidurkiu:
Vidurkis:
3+4+4+5+1005=23.2\frac{3 + 4 + 4 + 5 + 100}{5} = 23.2
Išvada: Mediana išlieka realistiška, o vidurkis – dramatiškai iškreiptas dėl vienos išskirties.
8. Algoritmai jai apskaičiuoti
Ją galima apskaičiuoti įvairiais metodais, priklausomai nuo duomenų dydžio, tipų ir reikalaujamo tikslumo. Žemiau pateikiami pagrindiniai algoritmai.
8.1. Paprastas rikiavimas (Sorting-based method)
Procedūra:
Surikiuoti duomenis (O(nlogn)O(n \log n))
Jei nn nelyginis – imti vidurinę reikšmę
Jei nn lyginis – imti dviejų vidurinių reikšmių vidurkį
Privalumai:
Tikslus
Paprastas
Trūkumai:
Lėtas, kai nn labai didelis (milijonai ar daugiau įrašų)
8.2. „Quickselect“ algoritmas (Hoare’s algorithm)
Greitas, dažnai naudojamas algoritmas, paremtas „Quicksort“ skaidymo principu
Sudėtingumas:
Vidutinis atvejis: O(n)
Blogiausias atvejis: O(n²)
Principas:
Parenkamas atraminis elementas (pivot)
Duomenys padalijami į mažesnes ir didesnes grupes
Rekursyviai ieškoma medianos esančioje grupėje
Tai itin efektyvus metodas, naudojamas praktinėse sistemose
8.3. „Median of Medians“ (Blum–Floyd–Pratt–Rivest–Tarjan) algoritmas
Tai vienas svarbiausių medianos skaičiavimo algoritmų, užtikrinantis deterministinį O(n) laiką net blogiausiu atveju.
Algoritmo idėja
Duomenys suskirstomi į mažas grupes (dažniausiai po 5 elementus)
Kiekvienai grupei apskaičiuojama grupės mediana
Iš gautų medianų rekursyviai apskaičiuojama grupių mediana – vadinamoji „median of medians“
Ši naudojama kaip patikimas atraminis elementas “Quickselect” tipo parinkimui
Dalyba į grupes garantuoja, kad atraminis elementas yra „pakankamai geras“ ir, svarbiausia blogiausiu atveju pasiekiamas tiesinis laikas
Kodėl šis metodas svarbus?
Yra teorinis pagrindas daugeliui optimizuotų paieškos algoritmų
Naudojamas sistemose, kur būtina garantuoti greičio ribą (real-time sistemos)
Užtikrina efektyvumą net labai dideliuose duomenų rinkiniuose
9. Tarpinių medianų metodai srautiniams duomenims
Kai duomenys yra stream tipo (ateina nuolat, realiuoju laiku), naudojami du „heap“ (krūvų) metodai:
Didžiausioji krūva (max-heap) saugo mažesnes reikšmes
Mažiausioji krūva (min-heap) saugo didesnes reikšmes
9.1. Privalumai:
Leidžia apskaičiuoti medianą dinamiškai
Sudėtingumas: O(log n) kiekvienam įrašui
9.2. Šis metodas naudojamas:
finansų rinkų analizėje,
sensorių duomenyse,
interneto srautų analitikoje,
realaus laiko duomenų apdorojime.
10. Privalumai ir trūkumai
Privalumai
Atspari išskirtims
Paprasta apskaičiuoti
Veiksminga net esant asimetriškiems skirstiniams
Tinka ranginiams duomenims
Stabilus rodiklis nestruktūruotuose duomenyse
Trūkumai
Nereaguoja į duomenų pasiskirstymo formą
Mažiau informatyvi nei vidurkis, kai skirstinys simetriškas
- Nepatogi kai kuriuose matematinio modeliavimo procesuose dėl nenuoseklių išvestinių
Išvada
Mediana yra vienas esminių centrinės tendencijos rodiklių, pasižymintis dideliu robustiškumu ir pritaikomumu įvairiuose tyrimuose. Skirtingai nei aritmetinis vidurkis, jinai išlieka stabilus ir patikimas matas net esant ekstremalioms reikšmėms ar asimetriškiems skirstiniams. Dėl šių priežasčių tai yra nepakeičiama ekonomikoje, medicinoje, socialiniuose moksluose ir duomenų analizėje.
Tyrimų praktika rodo, kad tai yra ne tik paprastas centro matas, bet ir galingas analitinis įrankis, padedantis išvengti klaidinančių interpretacijų ir pateikti tikslesnius statistinius apibendrinimus.





