Adatbányászati technikák
2015 tavasz


               
Előadás:


          Előadó: Csima Judit (csima at cs.bme.hu)
          Előadás: minden szerdán 8:30-10:00  QB104, páratlan heteken csütörtökön 10.30- 12.00 is, QB105
         

Labor


Laborvezetők: Csima Judit és Bagyinszki Bence (bagyibence at gmail.com)
Labor:  csütörtökön 8:30-10:00, R4J, 11-es kurzus páratlan heteken, 12-es kurzus páros heteken


Zárthelyik:
1.zh: Eredmények: itt
2. zh:  Eredmények: itt,
pótzh: 
Eredmények: itt, a dolgozatok megtekinthetők május 22-én, pénteken  13.30-kor (vagy írjanak emailt, ha ez nem jó)
pótpótzh: LQUAPR: 33 pont, P9W45O: 29 pont, STP4U7: 29 pont

Mi volt az előadáson?

Az alábbi fóliák segítenek tájékozódni a tanult témákról. Az előadásokon főleg a táblát használom, a fóliák csak egy részletes vázlatnak tekinthetők.
A ZH anyaga az, ami az előadáson elhangzik, ha lényeges eltérés van a fólia és az órai anyag között, azt jelzem.

1. előadás (február 11., szerda): Adminisztratív tudnivalók: jegyszerzés, követelményekAz R története és jellemzői,  Bevezetés (24. fóliáig)
2. előadás (február 12., csütörtök): a múlt óráról maradt  pár fólia a bevezetésből; Adatról minden;
3. előadás (február 18., szerda):   Előfeldolgozás (ismerkedés az adattal, ábrázolás, attribútumok átdolgozása); Egy érdekes előadás arról, hogy hogyan lehet érthetően prezentálni az eredményeket
4. előadás (február 25., szerda): elmaradt
5. előadás (február 26., csütörtök): Az előfeldolgozásos diák vége (oszlopok és sorok számának csökkentése);  Osztályozás (alapfeladat, példák, döntési fák alapfogalmai, nagyjából a 20. diáig)
6. előadás (március 4., szerda): Osztályozás még
(nagyjából a 28. diáig) : inhomogenitási mértékek (gini, entrópia, classification error), vágás jóságának mérése, feladatmegoldás
7. előadás (március 11., szerda): Osztályozás még mindig (a 38. fóliáig, de volt sok feladatmegoldás is): gain ratio, overfitting
8. előadás (március 12., csütörtök): Osztályozás  (a maradék fóliák)
9. előadás (március 18., szerda): feladatmegoldás, készülés a zhra
10. előadás (március 25., szerda): kNN osztályozók; naív Bayes osztályozók
11. előadás (március 26, csütörtök): JAVA bevezető előadás a labor második részéhez
12. előadás (április 1., szerda): naív Bayes osztályozók, mesterséges neurális hálózatok
13. előadás (április 8., szerda): mesterséges neurális hálózatok még mindig;
14. előadás (április 9., csütörtök): 
Záró megjegyzések az osztályozókról (SVM, ensemble módszerek); Klaszterezés  eleje
15. előadás (április 15., szerda):  Klaszterezés  második része
16. előadás (április 22., szerda):  
Klaszterezés  vége; Asszociációs szabályok keresése, 1. rész
17. előadás (április 23., csütörtök):  Asszociációs szabályok még mindig (az előző fóliasorról)
18. előadás (április 29., szerda):  Asszociációs szabályok még mindig (az előző fóliasor vége)
19. előadás (május 6., szerda):  Asszociációs szabályok második rész eleje
20. előadás (május 7., csütörtök):  Asszociációs szabályok második rész vége
 
Laborhoz anyagok:

Első rész (R): 
 
 
rstudio letölthető  innen

1. labor:  Help, alapok feladatsor itt
2. labor: Adatok beolvasása, Függvények, apply-ok, feladatsor itt, a feladatsorhoz kellő csv file
Az első feladatsor  és a 2. feladatsor első két feladatának megoldása itt
A 2. labor feladatsorának lehetséges megoldásait tartalmazó R script
3. labor: Grafika,  egy demo file a három grafikus csomagról

Az R-es részhez tartozó házifeladat feladatkitűzése és a szükséges tömörített file-ok: specdata.zip és korhaz.zip

 
Második rész (Weka, Java):

A házik mintamegoldásai (tömörített file)

A második részhez tartozó házifeladat feladatkitűzése



Követelmények

      Két ZH az előadás idejében (március 24. és május 14.), mindkettő 35 pontot ér, mindkettőn  legalább 14 pontot el kell érni.
      Legalább az egyik ZHnak elsőre (az eredeti időpontban) sikerülnie kell, a másik pótolható a pótZHval május 21-én. Utolsó pótlási alkalom valamikor később.

     A laboron két beadandó házi van, mindkettő 15 pontot ér. A házik ellenőrzése az utolsó laboron történik.
   
     A laboron az első hat alkalomból legalább ötön részt kell venni.
   
     Összesen 100 pont szerezhető, 40 ponttól elégséges, 55-től közepes, 70-tól jó, 85-től jeles a félévközi jegy.

Tankönyv

        Leginkább ez: Pang-Ning Tan, Michael Steinbach, Vipin Kumar:  Introduction to Data Mining (könyv és slide-ok) http://www-users.cs.umn.edu/~kumar/dmbook/index.php

          További forrás: Bodon Ferenc: Adatbányászati algoritmusok, BME Számítástudományi és Információelmélet tanszék. Budapest, 2007, Online jegyzet

Az előadások és így a zh anyagát is az órán elhangzottak alkotják.