Adatbányászati technikák 6. labor

Katona Gyula (kiskat@cs.bme.hu), Tóth Ágnes (tothagi@cs.bme.hu)

Április 28.,  csütörtök 8:15-9:45, R4M labor


Órai feladatok:  Klaszterezés, gyakori elemhalmazok

  1. Indítsuk el az xservert: XWin Server (az asztalon), fog kelleni a gnuplothoz.
  2. Indítsuk el a WEKA-t (D:/Program Files/weka ...).
  3. Töltsük le a pont2d1.csv filet.
  4. Nyissuk meg a WEKA-ban.
  5. Klaszterezzük a Cluster/SimpleKMeans algoritmussal. Próbálkozzunk különféle beállításokkal (seed!!, kluszterek száma, távolság mértéke)!
    Az eredményt a Visualize Cluster Assignment-nél tudjuk megnézni. Hány klasztert érdemes választani?
  6. A klaszterezés eredménye is elmenthető file-ba a Visualize Cluster Assignment-nél. Az így kapott file-t megfelelő konvertálás után kirajzolhatjuk gnuplottal (a különböző kluszterek legyenek különböző színűek, bejelölhetjük a klaszterek középpontját is). A konvertáláshoz használható ez az awk file: arff2gnuplot.awk (awk -f arff2gnuplot.awk input.arff > output.dat)
  7. Ugyanezen az adathalmazon próbáljuk ki a Cluster/DBScan algoritmussal is a klaszterezést, kísérletezzünk a paraméterekkel. (Ha túl lassú, lehet csökkenteni az adathalmaz méretét a Resample filterrel.)
  8. További adathalmazok 3 és 4 dimenzióban: pont2d2.csv, pont3d2.csv, pont3d3.csv, pont3d4.csv, pont4d5.csv



Gyakori elemhamazok, asszociációs szabályok

  1. Töltsük be a FoodMart.arff adathalmazt, majd az Associate/Apriori algoritmust futtassuk le a következő paraméterekkel: delta=0.001, lowerBoundMinSupport=0.003, minMetric=0.5, significanceLevel=0.01. (A futás eltarthat egy darabig.) Értelmezzük az eredményt!
  2. Egy X elemhalmaz támogatottsága (support, supp(X)) az azt tartalmazó vásárlói kosarak aránya a kosarak összszámához viszonyítva (tapasztalati valószínűség).
    Egy X=>Y asszociációs szabály azt fejezi ki, hogy ha az X halmaz megtalálható egy kosárban, akkor valószínűleg az Y halmaz is. Egy ilyen szabály támogatottsága: supp(X unió Y), bizonyossága (confidence): supp(X unió Y)/supp(X).
    Asszociációs szabályok további mérőszámai a következők: lift=supp(X unió Y)/(supp(X)supp(Y)), leverage=supp(X unió Y)-(supp(X)supp(Y)), conviction=supp(X)supp(nemY)/supp(X unió nemY), mindegyik valahogy azt fejezi ki, hogy az X jelenléte hatással van-e Y jelenlétére.
  3. Használjuk az Apriori algoritmust az adult.arff adatra. Miért nem lehet rögtön alkalmazni? Módosítsuk megfelelően az adathalmazt!
    Hogyan működik a Wekaban lévő Apriori implementáció? Mit jelentenek az algoritmus paraméterei:
    - lowerBoundMinSupport, upperBoundMinSupport, delta, outputItemSets?
    - továbbá: metricType, minMetric, numRules?
    - valamint: car, classIndex?
    Változtassuk a paramétereket, keressünk hasznos szabályokat.
    A különböző mutatók szerint ugyanazok a szabályok lesznek a legjobbak?
  4. Gyakorolhatunk a market-basket.arff fájlon.