Adatbányászati technikák
2017 tavasz


               
Előadás:


          Előadó: Csima Judit (csima at cs.bme.hu)
          Előadás: minden hétfőn 8:15-10:00  (QBF09), és  páros heteken csütörtökön 8.15- 10.00 is (QBF08)
          
Labor


Laborvezetők: Csima Judit és Kabódi László  (kabodil at gmail.com)
Labor:  mindhárom csoportnak csütörtökön, 11-es kurzus páratlan heteken 8:15-9:45, 13-as kurzus páratlan heteken 10.15- 11.45, 12-es kurzus páros heteken 10.30-12.00, terem mindig  R4K
            


Zárthelyik:

   1.zh: március 23., eredmények A dolgozatok megtekinthetők március 30-án az előadás után. Ha ez nem jó, akkor írjanak emailt.
 

   2. zh: május 2., eredmények
A dolgozatok megtekinthetők a hétfői (május 8.) előadáson vagy később előzetes megbeszélés alapján
 
    pótzh: május 16., eredmények  Aki meg szeretné nézni a dolgozatát, az írjon emailt!
 
  
Félév végi jegyek (Ha valaki úgy érzi, hogy hiba van a táblázatban, akkor írjon emailt!)

    pótpótzh:  május 23., kedd, 10.15-11.45,  terem: az érintettek írjanak emailt (a Neptunban jelentkezni kell rá!)


Mi volt az előadáson?

    Az alábbi fóliák segítenek tájékozódni a tanult témákról. Az előadásokon főleg a táblát használom, a fóliák csak egy részletes vázlatnak tekinthetők.
    A ZH anyaga az, ami az előadáson elhangzik, ha lényeges eltérés van a fólia és az órai anyag között, azt jelzem.

    1. előadás (február 6., hétfő):  KövetelményekBevezetés az R-hez, Bevezetés az adatbányászathoz (a 23. slide-ig)
     2. előadás (február 13., hétfő): Bevezetés az adatbányászathoz (a maradék slide-ok); Az adatról mindenféle (a Mahalanobis távolságig)
     3. előadás (február 16., csütörtök): Az adatos fóliasorozatról minden, ami nem volt, Előfeldolgozás
(a 21.slide-ig), Egy érdekes előadás arról, hogy hogyan lehet érthetően prezentálni az eredményeket
     4. előadás (február 20., hétfő): Az előfeldolgozás vége (minden slide, ami a múltkor nem volt)
     5. előadás (február 27., hétfő): Az osztályozás eleje (a 27. slide-ig)
     6. előadás (március 2., csütörtök): Osztályozás még mindig (30. slide-ig, de volt sok feladatmegoldás is)
     7. előadás (március 6., hétfő): Osztályozás még mindig (46. slide-ig)
     8. előadás (március 13., hétfő):  Bevezető előadás Python-hoz (a laborhoz kell majd Python, ennek előkészítésére lesz ez az óra)
     9. előadás (március 16., csütörtök): Osztályozás (az összes slide), kNN osztályozó
    10. előadás (március 20., hétfő): Feladatmegoldás a zh előtt
   11. előadás (március 27., hétfő): Bayes-osztályozók
  
12. előadás (március 30., csütörtök): Bayes-osztályozós feladatok,  Mesterséges neurális hálózatok (7. slide-ig)
   13. előadás (április 3., hétfő): Mesterséges neurális hálózatok (15. slide-ig)
  
  14. előadás (április 10., hétfő): Mesterséges neurális hálózatok (utolsó két slide), Záró megjegyzések az osztályozókról
   
15. előadás (április 13., csütörtök): Klaszterezés (a 28. slide-ig)

     16. előadás (április 24., hétfő): Klaszterezés (minden maradék)klaszterezés még mindig
 
  17. előadás (április 27., csütörtök): gyakorló feladatsor  a 2. zh anyagából
   
18. előadás (május 8., hétfő): Asszociációs szabályok
     
19. előadás (május 11., csütörtök): Asszociációs szabályok, második rész
 
Laborhoz anyagok:

Első rész (R):  feladatkiírás
 
    rstudio letölthető  innen   

1. labor:  rstudio felépítése, help, Alapokelső feladatsor, az első 7 feladat megoldása
2. labor: Beolvasás, kiírás, Függvények, a második feladatsor,  a feladatsorban használt  adatfile, az első feladatsor utolsó 3 feladatának megoldása, a második feladatsor megoldásai
3. labor: Apply-okharmadik  feladatsor az apply-okról, Grafika, egy demo file  a grafikához, a harmadik feladatsor megoldásai
 

Beadandó házifeladat
az R-es részből (határidő április 24., hétfő, reggel 8 óra): feladatkiírás  és a megoldáshoz szükséges adatfile-ok: specdata.zip és korhaz.zip

Második rész (Weka):

Saját gépre kell: Weka 3.6 
(van jre és jre nélküli változat is, ha valakinek van a gépén java, akkor elég a jre nélküli) és python 3, meg numpy Ez utóbbi részhez  a jupyter-t ajánljuk letölteni, abban alapból van minden, ami kell, de ha valaki mást szeretne, lehet nyugodtan más is. Itt egy link az anaconda-hoz, abban benne van  a python és a jupyter is és egyszerű telepíteni.

Bevezető a Pythonhoz

Segédanyagok a gyakorlatokhoz:  
2. gyakorlathoz anyagok, 2. gyakorlat jupyter,  3. gyakorlat

Beadandó házifeladat: a félév második feléhez

Követelmények

      Két ZH, mindkettő 35 pontot ér, mindkettőn  legalább 14 pontot el kell érni.
      Legalább az egyik ZHnak elsőre (az eredeti időpontban) sikerülnie kell, a másik pótolható a pótZHval. Utolsó pótlási alkalom valamikor később a pótlási héten.

     A laboron két beadandó házi van, mindkettő 15 pontot ér.  A házik ellenőrzése az utolsó laboron történik.
   
     A laboron az első hat alkalomból legalább ötön részt kell venni.
   
     Összesen 100 pont szerezhető, 40 ponttól elégséges, 55-től közepes, 70-tól jó, 85-től jeles a félévközi jegy.

Tankönyv

        Leginkább ez: Pang-Ning Tan, Michael Steinbach, Vipin Kumar:  Introduction to Data Mining (könyv és slide-ok) http://www-users.cs.umn.edu/~kumar/dmbook/index.php

Az előadások és így a zh anyagát is az órán elhangzottak alkotják.