Adatbányászati technikák
2018 tavasz
Előadás:
Előadó: Csima Judit (csima at
cs.bme.hu)
Előadás: minden hétfőn 8:15-9:55
(10 perc szünettel) a QBF08-ban, és páratlan heteken csütörtökön 10.15- 12.00
is (15 perc szünettel) a QBF08-ban
Labor
Laborvezetők: Csima Judit és Kabódi
László (kabodil at gmail.com)
Labor: mindkét csoportnak csütörtökön, 12-es kurzus páratlan
heteken 8:15-9:45, 11-as kurzus páros heteken 8.15- 9.45, terem
mindig R4K
Zárthelyik:
1.zh: Eredmények: itt
2. zh: Eredmények: itt,
pótzh: eredmények itt, a
dolgozatok megtekinthetők előzetes emailes egyeztetés után
az összes pont és a félév végi jegyek itt vannak
pótpótzh: május 29, 10.15-12.00,
tanszék, erre a Neptunban
jelentkezni kell
Mi volt az előadáson?
Az alábbi fóliák segítenek tájékozódni a tanult
témákról. Az előadásokon főleg a táblát használom, a fóliák csak egy
részletes vázlatnak tekinthetők.
A ZH anyaga az, ami az előadáson elhangzik, ha
lényeges eltérés van a fólia és az órai anyag között, azt jelzem.
1. előadás (február 5., hétfő): Adminisztratív tudnivalók órákról,
jegyszerzésről, Bevezető az R-hez, Bevezetés
2. előadás (február 8., csütörtök): Az adatról minden (de ezzel még ma nem végeztünk)
3. előadás (február
12., hétfő): Az adatos
slideok végig, Az előfeldolgozás
a 28. slide-ig
4. előadás (február
19., hétfő): Az előfeldolgozás
összes slide-ja
5. előadás (február
22., csütörtök): Osztályozók
(nagyjából a 28. slide-ig)
6. előadás (február
26., hétfő): Sok feladatmegoldás,
egy részéhez ez a feladatsor
volt
7. előadás (március
5., hétfő): Még mindig osztályozás (a 46. slideig)
8. előadás (március 8.,
csütörtök): Osztályozás (minden slide), Bayes-osztályozók (1.-6., 9.
és 11.-12. slide), egy feladat
9. előadás (március
12., hétfő): Bayes-osztályozókról minden
slide, még egy feladat,
kNN osztályozó
10. előadás (március
19., hétfő): Python bevezető
11. előadás (március
22., csütörtök): Gyakorló
feladatsor
12. előadás (március 26., hétfő): Mesterséges neurális hálózatok
13. előadás (április 9., hétfő): Mesterséges neurális hálózatok
14. előadás (április 12., csütörtök): Záró megjegyzések
osztályozókról és Klaszterezés
eleje
15. előadás (április 16., hétfő): Hierarchikus klaszterezés és a
klaszterezés értékelése
16. előadás (április 21., szombat):
Elmaradt
17. előadás (április 23., hétfő): Associációs szabályok keresése (23. slide-ig)
18. előadás (április 26., csütörtök): Asszociációs szabályok keresése
19. előadás (május 7., hétfő): Asszociációs szabályok keresése még
mindig
20. előadás (május 10., csütörtök): Asszociációs szabályok, utolsó rész
21. előadás (május 14., hétfő): Gyakorló feladatok a 2. zhra
Laborhoz
anyagok:
Első rész (R):
Ha saját gépet használnak,
akkor arra kell R (letölthető innen)
és rstudio (letölthető innen, a desktop verzió kell)
1. labor: Rstudio alapok, help, R alapok, típusok, kiválasztás, 1. feladatsor, Az első
feladatsor első 7 példájának megoldása Az
első feladatsor végének
megoldása
2. labor: Beolvasás, kiírás,
Függvények 2. feladatsor Letöltendő adatfile a
feladatsorhoz, A második feladatsor megoldása
3. labor: Apply-ok, 3. feladatsor, Megoldások a 3.
feladatsorhoz, Grafika (slideok),
Demo file a grafikához
Beadandó házifeladat az R-es részből: Feladatkiírás, a szükséges adatok: specdata.zip és korhaz.zip (határidő: május 2.,
szerda, reggel 8 óra)
Második rész
(Weka):
Saját gépre kell: Weka 3.6 (van jre
és jre nélküli változat is, ha valakinek van a gépén
java, akkor elég a jre nélküli) és
python 3,
meg numpy Ez utóbbi
részhez a jupyter-t ajánljuk letölteni, abban alapból
van minden, ami kell, de ha
valaki mást szeretne, lehet nyugodtan más
is. Itt egy link az anaconda-hoz, abban benne van a python és
a jupyter is és egyszerű telepíteni.
5. labor: a labor anyaga
Beadandó házifeladat a Weka,
Python részből: feladatkiírás (határidő: a bemutató előtti
vasárnap, azaz május 6. és 13.)
Követelmények
Két ZH, mindkettő 35 pontot ér,
mindkettőn legalább 14 pontot el kell érni.
Legalább az egyik ZHnak elsőre (az
eredeti időpontban) sikerülnie kell, a másik pótolható a pótZHval.
Utolsó pótlási alkalom valamikor később a pótlási héten.
A laboron két beadandó házi van,
mindkettő 15 pontot ér, itt nincs mimimumkövetelmény. A
házik ellenőrzése az utolsó laboron történik.
A laboron az első hat (illetve a 11-es
kurzusnak az első öt) alkalomból legfeljebb egyszer lehet
hiányozni.
Összesen 100 pont szerezhető, 40 ponttól
elégséges, 55-től közepes, 70-tól jó, 85-től jeles a félévközi
jegy.
Tankönyv
Leginkább a slide-ok, de ha más forrás is
kell, akkor ez: Pang-Ning Tan, Michael
Steinbach, Vipin Kumar:
Introduction to Data Mining (könyv és slide-ok) http://www-users.cs.umn.edu/~kumar/dmbook/index.php
Az előadások és így a zh anyagát is
az órán elhangzottak alkotják.
Kapcsolódó érdekes linkek
R Ladies
meetups
Datacamp
platform