Adatbányászati technikák 6. labor
Április 28., csütörtök 8:15-9:45, R4M labor
Órai feladatok: Klaszterezés, gyakori elemhalmazok
- Indítsuk el az xservert: XWin
Server (az asztalon), fog kelleni a gnuplothoz.
- Indítsuk el a WEKA-t (D:/Program Files/weka ...).
- Töltsük le a pont2d1.csv filet.
- Nyissuk meg a WEKA-ban.
- Klaszterezzük a Cluster/SimpleKMeans
algoritmussal. Próbálkozzunk különféle beállításokkal (seed!!,
kluszterek száma, távolság mértéke)!
Az eredményt a Visualize
Cluster
Assignment-nél tudjuk megnézni. Hány klasztert érdemes
választani?
- A
klaszterezés eredménye is elmenthető file-ba a Visualize Cluster
Assignment-nél. Az így kapott file-t megfelelő konvertálás után
kirajzolhatjuk gnuplottal (a különböző kluszterek legyenek különböző
színűek, bejelölhetjük a klaszterek középpontját is). A konvertáláshoz
használható ez az awk file: arff2gnuplot.awk
(awk -f arff2gnuplot.awk input.arff
> output.dat)
- Ugyanezen az adathalmazon próbáljuk ki a Cluster/DBScan algoritmussal is a klaszterezést,
kísérletezzünk a paraméterekkel. (Ha túl lassú, lehet csökkenteni az
adathalmaz méretét a Resample
filterrel.)
- További adathalmazok 3 és 4 dimenzióban: pont2d2.csv,
pont3d2.csv, pont3d3.csv,
pont3d4.csv, pont4d5.csv
Gyakori elemhamazok, asszociációs szabályok
- Töltsük be a FoodMart.arff
adathalmazt, majd az Associate/Apriori
algoritmust futtassuk le a következő paraméterekkel: delta=0.001,
lowerBoundMinSupport=0.003, minMetric=0.5, significanceLevel=0.01. (A
futás eltarthat egy darabig.) Értelmezzük az eredményt!
- Egy X elemhalmaz támogatottsága
(support, supp(X)) az azt tartalmazó vásárlói kosarak aránya a kosarak
összszámához viszonyítva (tapasztalati valószínűség).
Egy X=>Y asszociációs szabály azt fejezi ki, hogy ha az X halmaz
megtalálható egy kosárban, akkor valószínűleg az Y halmaz is. Egy ilyen
szabály támogatottsága:
supp(X unió Y), bizonyossága
(confidence): supp(X unió Y)/supp(X).
Asszociációs szabályok további mérőszámai a következők: lift=supp(X
unió Y)/(supp(X)supp(Y)), leverage=supp(X unió Y)-(supp(X)supp(Y)),
conviction=supp(X)supp(nemY)/supp(X unió nemY), mindegyik valahogy azt
fejezi ki, hogy az X jelenléte hatással van-e Y jelenlétére.
- Használjuk az Apriori algoritmust az adult.arff
adatra.
Miért nem lehet rögtön alkalmazni? Módosítsuk megfelelően az
adathalmazt!
Hogyan működik a Wekaban lévő Apriori implementáció? Mit jelentenek az
algoritmus paraméterei:
- lowerBoundMinSupport, upperBoundMinSupport, delta, outputItemSets?
- továbbá: metricType, minMetric, numRules?
- valamint: car, classIndex?
Változtassuk a paramétereket, keressünk hasznos szabályokat.
A különböző mutatók szerint ugyanazok a szabályok lesznek a legjobbak?
- Gyakorolhatunk a market-basket.arff
fájlon.