[Buza Krisztián weblapja] [Tárgy weblapja]

Adatbányászati technikák - 1. Gyakorlat



Órai feladatok

Config
RunWeka.ini: maxheap=512M, fileEncoding=utf-8

Vizualizáció
1. Töltsük be a WEKAba a bank-data.csv állományt.
2. A Visualize fülre kattintva vizsgáljuk meg a lehetőségeket és az eszközöket.
3. Keressünk érdekesnek tűnő összefüggéseket.
4. Mi probléma a nemek fizetési grafikonjával? Hogyan lehetne ezt áthidalni?

Adattisztítás alapok 1
1. Próbáljuk meg betölteni a telco.csv állományt! Mit tapasztalunk?
2. Tisztítás: cygwin, tr
3. Vizualizáció, keressünk könnyen értelmezhető összefüggéseket. Ehhez a telcoattributes.txt áll rendelkezésre.

Preprocesszálás 1: Feature selection
1. Nézzük meg a Preprocess fül lehetőségeit!
2. Töröljük a log-normált attribútumokat.
3. Még így is sok az attribútum és esetleg redundánsak is lehetnek. Kapcsolódó statisztikai módszerek: főkomponens analízis (PCA), faktor analízis.
4. Nézzük meg a Select Attributes fület és a lehetőségeket. Vizsgáljuk meg a kiértékelő függvényeket, nézzük meg leírásukat.
5. Próbáljuk ki az alapbeállítást: CfsSubsetEval + GreedyStepwise, cross-validation 10:1, célváltozó: churn
6. Az eredmény alapján válasszuk ki a legfontosabb attribútumokat a Preprocess fülön. (Azaz: töröljük a többit. Kivéve: custcat, az még fontos lehet.)

Preprocesszálás 2: Level of measurement
1. Milyen level of measurement típusokat ismersz? Miért fontos ezeket megkülönböztetni?
2. Vizsgáljuk meg az asszociációs szabályokat.
3. A telcoattributes.txt állomány alapján próbáljuk megbecsülni, melyik attribútum milyen LOM-mal reprezentálható a legjobban és hajtsuk végre a transzformációt.
4. Vizsgáljuk meg az eredményeket. Milyen statisztikákat látunk a nominális és milyet a numerikus attribútumoknál? Miért?

Adattisztítás alapok 2
1. Készítsünk ARFF headert a telco.csv fájlhoz és mentsük .arff kiterjesztéssel. Milyen előnyei lesznek ennek a formátumnak?

Adatok

dmlab1.zip

Kapcsolódó anyagok

Néhány további linuxos adatfeldolgozási parancs, ARFF fájlok leírása
http://dms.sztaki.hu/~daroczyb/adatb_lab_bsc_1.pdf
(Ez a fólia eredetileg egy másik tárgyhoz készült, ezért pl. az ebben leírt tárgykövetemények értelemszerüen irrelevánsak.)