Adatbányászati technikák
2016 tavasz


               
Előadás:


          Előadó: Csima Judit (csima at cs.bme.hu)
          Előadás: minden hétfőn 8:15-10:00  IB134, páratlan heteken csütörtökön 10.15- 12.00 is, IB134
         
Labor


Laborvezetők: Csima Judit és Kabódi László  (kabodil at gmail.com)
Labor:  csütörtökön 8:15-9:45, R4K, 11-es kurzus páratlan heteken, 12-es kurzus páros heteken


Zárthelyik:

   1.zh: március 31., Eredmények: itt
 

   2. zh: május 10., 18:15 - 19:45, Eredmények itt, megtekintés a csütörtöki előadáson (május 12., 10-12) vagy ha ez nem jó, akkor írjanak emailt
 
    pótzh: május 24., 10:15 - 11:45, Eredmények itt (zh, pótzh, laborpontok, végleges jegyek mindenkinek)
 
    pótpótzh:  nem lesz, mert nincs pótolandó zhja senkinek

Mi volt az előadáson?

    Az alábbi fóliák segítenek tájékozódni a tanult témákról. Az előadásokon főleg a táblát használom, a fóliák csak egy részletes vázlatnak tekinthetők.
    A ZH anyaga az, ami az előadáson elhangzik, ha lényeges eltérés van a fólia és az órai anyag között, azt jelzem.

    1. előadás (február 15., hétfő): Adminisztratív tudnivalók: jegyszerzés, követelményekAz R története és jellemzői,  Bevezetés (a 8. slide-ig)
    2. előadás (február 18., csütörtök):  Bevezetés (minden ami, maradt a múlt óráról); Adatról (a 24. fóliáig)
   
3. előadás (február 22., hétfő):   Adatról (minden, ami maradt a múlt óráról); Előfeldolgozás (27. fóliáig);
    4. előadás (február 29., hétfő):   Előfeldolgozás (minden, ami a múlt órán nem volt); Egy érdekes előadás arról, hogy hogyan lehet érthetően prezentálni az eredményeket
    5. előadás (március 3., csütörtök): Osztályozás  (a 27. diáig)
    6. előadás (március 5., szombat): Osztályozás  (a 28. diától a 30. diáig, de volt sok feladatmegoldás)  
    
7. előadás (március 7., hétfő): Osztályozás  (a 31. diától a 48. diáig)  
   
8. előadás (március 17., csütörtök): Osztályozás  (minden, ami még maradt)Bayes-osztályozó  (a 6. fóliáig)
    9. előadás (március 21., hétfő):
Bayes-osztályozó (minden, ami maradt)
  
10. előadás (március 31., csütörtök): Feladatmegoldás a zh előtt  
    11. előadás (április 4., hétfő): JAVA bevezető előadás
    12. előadás (április 11., hétfő): kNN osztályozók, mesterséges neurális hálózatok
     13. előadás (április 14., csütörtök): mesterséges neurális hálók (ami a múltkor kimaradt)
    14. előadás (április 18., hétfő): Záró megjegyzések az osztályozókról; Klaszteretés (eleje, kmeans-ig)
    15. előadás (április 25., hétfő): Kmeansről minden (itt), hierarchikus kalaszterezés eleje (16. slide-ig)
    16. előadás (április 28., csütörtök): Klaszeterezésről minden maradék innen
    17. előadás (május 2., hétfő): Asszociációs szabályok keresése minden slide
    18. előadás (május 9., hétfő): Feladatmegoldás a zh előtt, feladatsor itt
    

  


Laborhoz anyagok:


Első rész (R): 
 
    rstudio letölthető  innen

1. labor:  Help, alapok feladatsor itt, az első hét feladat megoldása
2. labor: Adatok beolvasása, Függvények, apply-ok, feladatsor itt, a feladatsorhoz kellő csv file,  a második hét feladatainak megoldásai
3. labor:  Grafika, egy  demo file a grafikus csomagokról, az előző feladatsor utolsó két feladatának megoldásai
 

Beadandó házi az R-es részből (határidő május 2. hétfő, reggel 8 óra): a feladatkiírás, a felhasználandó adatok: specdata.zip  és korhaz.zip


Második rész (Weka):
 

Beadandó házi a labor második részéből: feladatkiírás

Java-s anyagok: fibonacci_iterfibonacci_rechow_to_wekaszoszamlalo

Követelmények

      Két ZH, mindkettő 35 pontot ér, mindkettőn  legalább 14 pontot el kell érni.
      Legalább az egyik ZHnak elsőre (az eredeti időpontban) sikerülnie kell, a másik pótolható a pótZHval. Utolsó pótlási alkalom valamikor később a pótlási héten.

     A laboron két beadandó házi van, mindkettő 15 pontot ér. A házik ellenőrzése az utolsó laboron történik.
   
     A laboron az első hat alkalomból legalább ötön részt kell venni.
   
     Összesen 100 pont szerezhető, 40 ponttól elégséges, 55-től közepes, 70-tól jó, 85-től jeles a félévközi jegy.

Tankönyv

        Leginkább ez: Pang-Ning Tan, Michael Steinbach, Vipin Kumar:  Introduction to Data Mining (könyv és slide-ok) http://www-users.cs.umn.edu/~kumar/dmbook/index.php

Az előadások és így a zh anyagát is az órán elhangzottak alkotják.