Adatbányászati technikák
2014 tavasz


               
Előadás:


          Előadó: Csima Judit (csima at cs.bme.hu)
          Előadás: minden szerdán 8:30-10:00  QBF10, páratlan heteken csütörtökön 10.30- 12.00 is, QBF11
         

Labor


Laborvezetők: Csima Judit és Bagyinszki Bence (bagyibence at gmail.com)
Labor:  csütörtökön 8:30-10:00, R4J, 01-es kurzus páratlan heteken, 02-es kurzus páros heteken


Eredmények: első zh,   második zh,  pótzh és egész éves eredmények egyben, pótpótzh eredmények

Tankönyv

        Leginkább ez: Pang-Ning Tan, Michael Steinbach, Vipin Kumar:  Introduction to Data Mining (könyv és slide-ok) http://www-users.cs.umn.edu/~kumar/dmbook/index.php

          További forrás: Bodon Ferenc: Adatbányászati algoritmusok, BME Számítástudományi és Információelmélet tanszék. Budapest, 2007, Online jegyzet



Mi volt az előadáson?

A ZH anyaga az, ami az előadáson elhangzott. Ezt az alábbi órai fóliák a kNN osztályozóig bezárólag elég jól visszaadják, ez után azonban a fóliák csak egy részletes vázlatnak tekintendők.

1. előadás (február 12., szerda): Adminisztratív tudnivalók: jegyszerzés, követelmények ; R története, jellemzői
2. előadás (február 13., csütörtök): Bevezetés; Mindenféle az adatról (távolságfogalmak)
3. előadás (február 19., szerda): Előfeldolgozás (ismerkedés az adattal, ábrázolás, attribútumok átdolgozása); Egy érdekes előadás arról, hogy hogyan lehet érthetően prezentálni az eredményeket
4. előadás (február 26., szerda): Az előfeldolgozás részből a maradék, ami a múltkor nem volt (attribútumok átalakítása, transzformálása, dimenziócsökkentés); Döntési fák, alapok (az első 20 slide fedi le nagyjából a mai anyagot)
5. előadás (február 27., csütörtök): A döntési fás slide-okból  a 28. diáig, sok-sok feladatmegoldással
6. előadás (március 5., szerda): A  döntési fás slide-okból 29-től 46-ig (gain ratio, overfiiting, generalized error, pruning)
7. előadás (március 12., szerda): A döntési fás slide-ok egy része, aztán pedig Bayes-osztályozók (az első pár slide)
8. előadás (március 13., csütörtök): Bayes maradék része, feladatmegoldás
9. előadás (március 19., szerda): Feladatmegoldás, készülés a zhra
10. előadás (március 26., szerda): ZH 8.30-10.00, QBF10
11. előadás (március 27., csütörtök): JAVA bevezető óra azoknak, akik nem járatosak a JAVA-ban: slide-ok
12. előadás (április 2., szerda): kNN osztályozó és neurális hálózatok
13. előadás (április 9., szerda): Neurális hálózatok befejezése,
röviden az  SVM-ről;
14. előadás (április 10., csütörtök):
Ensemble módszerek;  Klaszterezés
15. előadás (április 16., szerda): Klaszterezés maradék része
16. előadás (április 23., szerda): Asszociációs szabályok keresése az Apriori algo-ig
17. előadás (április 24., csütörtök): Asszociációs szabályok keresése még mindig
18. előadás (április 30., szerda): A múltkori slide-ok befejezése
19. előadás (május 7., szerda): Újabb slide-ok az asszociációs szabályokról (FP-fa építés)
20. előadás (május 8., csütörtök): A múlt órai  slide-ok vége (Lift-mutató) (az ECLAT algora nem jut idő), aztán meg feladatmegoldás, készülés a zhra
21. előadás (május 14., szerda): ZH 8.30-10.00, QBF10

Laborhoz anyagok:

Első rész (R): 
 
 
rstudio letölthető  innen

1. labor: Alapokhelp , feladatsor itt
2. labor: Adatok beolvasása, Függvények, apply-ok, feladatsor itt, a feladatsorhoz kellő csv file
3. labor: Grafika,  egy demo file a három grafikus csomagról

A 2. labor feladatsorának lehetséges megoldásait tartalmazó R script

Az R-es részhez tartozó házifeladat feladatkitűzése és a szükséges tömörített file-ok: specdata.zip és korhaz.zip

Második rész (Weka, Java):

A JAVA-s gyakorlat feladati és megoldásai itt
A második rész házijának feladatkitűzése



 
Követelmények

      Két ZH az előadás idejében (március 26. és május 14.), mindkettő 35 pontot ér, mindkettőn  legalább 14 pontot el kell érni.
      Legalább az egyik ZHnak elsőre (az eredeti időpontban) sikerülnie kell, a másik pótolható a pótZHval május 21-én. Utolsó pótlási alkalom a pótlási héten később.

     A laboron két beadandó házi van, mindkettő 15 pontot ér. A házik ellenőrzése az utolsó laboron történik.
   
     A laboron az első hat alkalomból legalább ötön részt kell venni.
   
     Összesen 100 pont szerezhető, 40 ponttól elégséges, 55-től közepes, 70-tól jó, 85-től jeles a félévközi jegy.