Adatbányászati technikák házi feladat

Katona Gyula (kiskat@cs.bme.hu), Tóth Ágnes (tothagi@cs.bme.hu)

3. rész


A feladat a következő adathalmaz klaszterezése: economics.arff. (Az adatokat innen gyűjtöttem ki: http://www.nationmaster.com.)
Találjatok minél jobb klaszterezést és indokoljátok meg, hogy miért az tűnik a legjobbnak. Az indokláshoz mellékeljetek gnuplottal PDF formátumba mentett 3D grafikon(okat) is.



Az attribútumok jelentése:

country Az ország neve.
birth_rate Születési ráta, azaz születések száma évente 1000 lakosonként.
health_expenditure Egészségügyi kiadások a GDP százalékában.
life_expectency Várható életkor.
GDP_per_capita Egy főre eső GDP.
inflation Inflációs ráta.
education_expenditure Oktatásügyi kiadások a GDP százalékában.
turism Turisták száma évente 1000 lakosonként.

Néhány hasznos tanács:
  1. Adott k-ra minél több random seedet érdemes megpróbálni és a legkisebb hibát adót venni.
  2. Hogy melyik k a legjobb, azt az eredmény értelmezéséből lehet látni, illetve abból, hogy a különböző k értékek esetén hogyan változik a hiba. Ha nem csökken lényegesen, akkor valószínű egy csoportot osztunk (értelmetlenül) többre. Az értelmezéshez egyrészt meg lehet nézni a középpontok vektorait az eredményben. Másrészt a következő trükkel meg lehet nézni könnyedén, hogy melyik országot hova soroltuk:
  1. Az ábrázolásnál az a cél, hogy a különböző kluszterek valamely nézetben jól elkülönüljenek. Alap esetben a dimenziók közül 3-at értelmesen kiválasztva érdemes próbálkozni. (De meg lehet próbálni nem csak a koordináta-tengelyekkel párhuzamos 3D hipersíkra is vetíteni, azaz az attributumokból lineáris kombinációkat képezni.)

Beadandó a szükséges lépések összefoglalása, az eredmények és ábrák.
A végső határidő az utolsó labor, de bármikor előtte is be lehet adni, akár a laboron, akár e-mailben. Számítsatok arra is, hogy esetlegesen szóban ellenőrizzük, hogy a munkát tényleg magatok csináltátok.