klasterinė analizė
klasternė anãlizė, viena matematinės analizės formų – objektų skirstymas pagal jų savybes (panašumą) į grupes, arba klasterius.
Samprata
Skirstant objektus į klasterius pasirenkami objektų požymiai, pagal kuriuos jie bus lyginami (pavyzdžiui, tiriamų žmonių rasė, akių, odos spalva, ūgis, svoris, amžius arba jų nuostatos, įpročiai ir kita), vertinimo kriterijai, pagal kuriuos bus nustatomi objektų tarpusavio panašumai arba skirtumai, ir skirstymo metodai.
Panašumui arba skirtumui vertinti taikomi objektų savybių koreliacijos koeficientai, metriniai atstumo matai (tai yra taisyklės, kaip matuoti skirtumą arba atstumą tarp objektų požymių erdvėje), asociatyvieji koeficientai, tikimybiniai panašumo matai (jeigu du objektai painiojami, tikimybė juos painioti nusakys šių objektų panašumą, pavyzdžiui, jeigu du būdvardžiai vartojami tai pačiai savybei apibūdinti, jų bendro vartojimo tikimybė nusakys jų semantinį panašumą).
Pagrindiniai metodai
Metodas pasirenkamas priklausomai nuo analizės tikslų, nuo to, kokios informacijos siekiama gauti. Pagrindiniai klasterinės analizės metodai: hierarchiniai jungimo, hierarchiniai skaidymo, iteraciniai dalijimo, faktorinės analizės, kohezinis (sulipimo), grafų teorijos.
Hierarchiniais jungimo metodais klasteriai formuojami laipsniškai. Iš pradžių laikomasi nuostatos, kad kiekvienas objektas priklauso tam tikram klasteriui, po to randami artimiausi vienas kitam objektai ir jie jungiami į naują, didesnį, klasterį, tai yra klasterių skaičius sumažėja, jie tampa didesni. Toliau kiekvienas klasterio elementas vėl lyginamas su kiekvienu kito klasterio elementu. Jeigu skirtumai tarp dviejų skirtingų klasterio elementų atitinka pasirinktas taisykles, šie klasteriai sujungiami ir vėl gaunamas naujas didesnis klasteris. Analizės procesas baigiasi, kai visi elementai įtraukiami į vieną didžiausią klasterį. Hierarchiniai jungimo metodai skirstomi pagal tai, kokiomis taisyklėmis vadovaujamasi jungiant du klasterius. Paprasčiausia taisyklė – iš objektų, turinčių n klasterių, parenkami tokie, kuriuose yra bent du maksimaliai tarpusavyje panašūs elementai. Suradus tokius 2 klasterius jie sujungiami į naują, didesnį, klasterį, po to procedūra kartojama. Ji nutraukiama, kai visi elementai sujungiami į vieną didelį klasterį. Šis metodas dar vadinamas vienetinės jungties metodu. Kiti jungimo metodai remiasi kitais objektų panašumo kriterijais, pavyzdžiui, visos jungties metodas – jeigu lyginant tarpusavyje visus klasterius randamos tokios jų poros, kurių objektų maksimalus skirtumas yra mažiausias, šie klasteriai sujungiami ir gaunamas naujas klasteris. Procedūra baigiama, kai visi objektai patenka į vieną klasterį. Taikant vidutinės jungties metodą įvertinamas klasterių elementų skirtumų vidurkis, centroidų metodą – nuotolis tarp klasterių centrų, taikant Wardo metodą (1963 sukūrė Jungtinių Amerikos Valstijų psichologas Joe Wardas) stengiamasi taip suformuoti klasterius, kad požymių skirtumai klasterių viduje būtų kuo mažesni. Elementų jungimą į klasterius vaizduoja grafikas, tai yra nupiešiama vadinamoji dendrograma, iš kurios sprendžiama, kiek ir kokių klasterių galima sudaryti. Nuo pasirinkto metodo priklauso klasterių skaičius ir kokie elementai patenka į klasterius.
Hierarchiniai skaidymo metodai skiriasi nuo jungties metodų tuo, kad iš pradžių pasirenkamas vienas klasteris, kuriame yra visi analizuojami objektai, po to jis laipsniškai skaidomas į mažesnius klasterius, tai yra jų skaičius didėja ir mažėja objektų skirtumai. Tada gaunama tiek klasterių, kiek yra elementų. Šis metodas taikomas ekologijoje, archeologijoje, kai vertinami požymiai yra binariniai (tai yra nustatoma, ar požymis yra, ar jo nėra).
Iteraciniais dalijimo metodais klasterių skaičius nustatomas iš anksto, toliau stengiamasi taip suformuoti klasterius, kad skirtumai tarp vieno klasterio elementų būtų kuo mažesni, o skirtumai tarp elementų, priklausančių skirtingiems klasteriams, – kuo didesni (palankiausių klasterių paieškai reikia daug skaičiavimų; tai didžiausias šių metodų trūkumas).
Faktorinės analizės metodu iš pradžių sudaroma objektų savybių koreliacinė matrica, po to atliekama jos faktorinė analizė. Gaunami objektų faktorių svorio įverčiai, tai yra jų koordinatės faktorių erdvėje. Šis metodas plačiai taikomas psichologijoje.
Koheziniai (arba sulipimo) metodai ir grafų teorijos metodai taikomi lingvistikoje, semantinės atminties analizėje, kai žodžiai arba objektai gali vienu metu pagal vienus požymius priklausyti vienam klasteriui, pagal kitus – kitam.
Istorija
Klasterinė analizė pradėta taikyti 20 amžiaus pradžioje antropologijoje. Pradininkas – lenkų antropologas J. Czekanowskis. Jis žmonių bendruomenes suskirstė kultūriniu požiūriu į tam tikras grupes.
Jungtinių Amerikos Valstijų psichologas Robertas Tryonas pirmasis pritaikė šiuos metodus psichologijoje ir pavartojo klasterinės analizės terminą (knyga Klasterinė analizė / Cluster Analysis 1939). Dėl labai didelės skaičiavimų apimties šiuos metodus dažniau imta taikyti atsiradus pigesniems ir spartesniems skaičiavimo įrenginiams.
Klasterinės analizės metodams didelę įtaką turėjo Jungtinių Amerikos Valstijų mokslininkų Roberto Sokalo ir Peterio Sneatho knyga Skaitmeninės taksonomijos principai (Principles of Numerical Taxonomy 1963).
Taikymo sritys
21 amžiaus pradžioje klasterinė analizė taikoma archeologijoje, ekologijoje, ekonomikoje, psichologijoje, medicinoje ir kituose moksluose.
L: V. Čekanavičius, G. Murauskas Statistika ir jos taikymai Vilnius 2000.
779