[Buza Krisztián weblapja] | [Tárgy weblapja] |
Órai feladatok | |
Config RunWeka.ini: maxheap=512M, fileEncoding=utf-8 Vizualizáció 1. Töltsük be a WEKAba a bank-data.csv állományt. 2. A Visualize fülre kattintva vizsgáljuk meg a lehetőségeket és az eszközöket. 3. Keressünk érdekesnek tűnő összefüggéseket. 4. Mi probléma a nemek fizetési grafikonjával? Hogyan lehetne ezt áthidalni? Adattisztítás alapok 1 1. Próbáljuk meg betölteni a telco.csv állományt! Mit tapasztalunk? 2. Tisztítás: cygwin, tr 3. Vizualizáció, keressünk könnyen értelmezhető összefüggéseket. Ehhez a telcoattributes.txt áll rendelkezésre. Preprocesszálás 1: Feature selection 1. Nézzük meg a Preprocess fül lehetőségeit! 2. Töröljük a log-normált attribútumokat. 3. Még így is sok az attribútum és esetleg redundánsak is lehetnek. Kapcsolódó statisztikai módszerek: főkomponens analízis (PCA), faktor analízis. 4. Nézzük meg a Select Attributes fület és a lehetőségeket. Vizsgáljuk meg a kiértékelő függvényeket, nézzük meg leírásukat. 5. Próbáljuk ki az alapbeállítást: CfsSubsetEval + GreedyStepwise, cross-validation 10:1, célváltozó: churn 6. Az eredmény alapján válasszuk ki a legfontosabb attribútumokat a Preprocess fülön. (Azaz: töröljük a többit. Kivéve: custcat, az még fontos lehet.) Preprocesszálás 2: Level of measurement 1. Milyen level of measurement típusokat ismersz? Miért fontos ezeket megkülönböztetni? 2. Vizsgáljuk meg az asszociációs szabályokat. 3. A telcoattributes.txt állomány alapján próbáljuk megbecsülni, melyik attribútum milyen LOM-mal reprezentálható a legjobban és hajtsuk végre a transzformációt. 4. Vizsgáljuk meg az eredményeket. Milyen statisztikákat látunk a nominális és milyet a numerikus attribútumoknál? Miért? Adattisztítás alapok 2 1. Készítsünk ARFF headert a telco.csv fájlhoz és mentsük .arff kiterjesztéssel. Milyen előnyei lesznek ennek a formátumnak? |
|
Adatok | |
dmlab1.zip |
|
Kapcsolódó anyagok | |
Néhány további linuxos adatfeldolgozási parancs, ARFF fájlok leírása http://dms.sztaki.hu/~daroczyb/adatb_lab_bsc_1.pdf (Ez a fólia eredetileg egy másik tárgyhoz készült, ezért pl. az ebben leírt tárgykövetemények értelemszerüen irrelevánsak.) |