Adatbányászati technikák
2018 tavasz


               
Előadás:


          Előadó: Csima Judit (csima at cs.bme.hu)
          Előadás: minden hétfőn 8:15-9:55   (10 perc szünettel) a QBF08-ban, és  páratlan heteken csütörtökön 10.15- 12.00 is (15 perc szünettel) a QBF08-ban
          
Labor


Laborvezetők: Csima Judit és Kabódi László  (kabodil at gmail.com)
Labor:  mindkét csoportnak csütörtökön, 12-es kurzus páratlan heteken 8:15-9:45, 11-as kurzus páros heteken 8.15- 9.45, terem mindig  R4K
            

Zárthelyik:

  
1.zh: Eredmények: itt
 

  
2. zh: Eredmények: itt, 

   pótzh:
eredmények itt,  a dolgozatok megtekinthetők előzetes emailes egyeztetés után
 
   az összes pont és a félév végi jegyek itt vannak
 
   pótpótzh:  május 29, 10.15-12.00, tanszék, erre a Neptunban jelentkezni kell


Mi volt az előadáson?

    Az alábbi fóliák segítenek tájékozódni a tanult témákról. Az előadásokon főleg a táblát használom, a fóliák csak egy részletes vázlatnak tekinthetők.
    A ZH anyaga az, ami az előadáson elhangzik, ha lényeges eltérés van a fólia és az órai anyag között, azt jelzem.

    1. előadás (február 5., hétfő): Adminisztratív tudnivalók órákról, jegyszerzésről
Bevezető az R-hez,   Bevezetés    
    2. előadás (február 8., csütörtök): Az adatról minden (de ezzel még ma nem végeztünk)
    3. előadás (február 12., hétfő): Az adatos slideok  végig, Az előfeldolgozás a 28. slide-ig
    4. előadás (február 19., hétfő): Az  előfeldolgozás összes slide-ja
    5. előadás (február 22., csütörtök): Osztályozók  (nagyjából a 28. slide-ig)
    6. előadás (február 26., hétfő): Sok feladatmegoldás, egy részéhez ez a feladatsor  volt
    7. előadás (március 5., hétfő): Még mindig osztályozás (a 46. slideig)
    8. előadás (március 8., csütörtök): Osztályozás (minden slide), Bayes-osztályozók (1.-6., 9. és 11.-12. slide), egy feladat
    9. előadás (március 12., hétfő):
 
Bayes-osztályozókról minden slide,  még egy feladatkNN osztályozó
    10. előadás (március 19., hétfő): Python bevezető
    11. előadás (március 22., csütörtök): Gyakorló feladatsor
    12. előadás (március 26., hétfő): Mesterséges neurális hálózatok
    13. előadás (április 9., hétfő): Mesterséges neurális hálózatok
    14. előadás (április 12., csütörtök): Záró megjegyzések osztályozókról és Klaszterezés eleje
    15. előadás (április 16., hétfő): Hierarchikus klaszterezés és a klaszterezés értékelése
    16. előadás (április 21., szombat): Elmaradt 
    17. előadás (április 23., hétfő): Associációs szabályok keresése
(23. slide-ig)
    18. előadás (április 26., csütörtök): Asszociációs szabályok keresése
    19. előadás (május 7., hétfő): Asszociációs szabályok keresése még mindig
    20. előadás (május 10., csütörtök): Asszociációs szabályok, utolsó rész
    21. előadás (május 14., hétfő): Gyakorló feladatok a 2. zhra


  
 
Laborhoz anyagok:

Első rész (R): 
 
    Ha saját gépet használnak, akkor arra kell R (letölthető innen) és rstudio (letölthető  innen, a desktop verzió kell)

1. labor: Rstudio alapok, help, R alapok, típusok, kiválasztás1. feladatsor,  Az első feladatsor első 7 példájának megoldása  Az első feladatsor végének megoldása
2. labor: Beolvasás, kiírás,  Függvények 2. feladatsor Letöltendő adatfile a feladatsorhoz, A második feladatsor megoldása
3. labor:
Apply-ok3. feladatsor,  Megoldások  a 3. feladatsorhoz,  Grafika (slideok), Demo file a grafikához
 
Beadandó házifeladat az R-es részből: Feladatkiírás, a szükséges adatok: specdata.zip  és korhaz.zip (határidő: május 2., szerda, reggel 8 óra)


  
Második rész (Weka):

Saját gépre kell: Weka 3.6 
(van jre és jre nélküli változat is, ha valakinek van a gépén java, akkor elég a jre nélküli) és python 3, meg numpy Ez utóbbi részhez  a jupyter-t ajánljuk letölteni, abban alapból van minden, ami kell, de ha valaki mást szeretne, lehet nyugodtan más is. Itt egy link az anaconda-hoz, abban benne van  a python és a jupyter is és egyszerű telepíteni.


5. labor: a labor anyaga

Beadandó házifeladat a Weka, Python részből: feladatkiírás  (határidő: a bemutató előtti vasárnap, azaz május 6. és 13.)

Követelmények

      Két ZH, mindkettő 35 pontot ér, mindkettőn  legalább 14 pontot el kell érni.
      Legalább az egyik ZHnak elsőre (az eredeti időpontban) sikerülnie kell, a másik pótolható a pótZHval. Utolsó pótlási alkalom valamikor később a pótlási héten.

     A laboron két beadandó házi van, mindkettő 15 pontot ér, itt nincs mimimumkövetelmény.  A házik ellenőrzése az utolsó laboron történik.
   
     A laboron az első hat (illetve a 11-es kurzusnak az első öt) alkalomból legfeljebb egyszer lehet hiányozni.
   
     Összesen 100 pont szerezhető, 40 ponttól elégséges, 55-től közepes, 70-tól jó, 85-től jeles a félévközi jegy.

Tankönyv

        Leginkább a slide-ok, de ha más forrás is kell, akkor ez: Pang-Ning Tan, Michael Steinbach, Vipin Kumar:  Introduction to Data Mining (könyv és slide-ok) http://www-users.cs.umn.edu/~kumar/dmbook/index.php

Az előadások és így a zh anyagát is az órán elhangzottak alkotják.


Kapcsolódó érdekes linkek

R Ladies meetups

Datacamp platform