Adatbányászati technikák
2017 tavasz
Előadás:
Előadó: Csima Judit (csima at
cs.bme.hu)
Előadás: minden hétfőn 8:15-10:00
(QBF09), és páros heteken csütörtökön 8.15-
10.00 is (QBF08)
Labor
Laborvezetők: Csima Judit és Kabódi
László (kabodil at gmail.com)
Labor: mindhárom csoportnak csütörtökön, 11-es kurzus
páratlan heteken 8:15-9:45, 13-as kurzus páratlan heteken 10.15-
11.45, 12-es kurzus páros heteken 10.30-12.00, terem mindig
R4K
Zárthelyik:
1.zh: március 23., eredmények A
dolgozatok megtekinthetők március 30-án az előadás
után. Ha ez nem jó, akkor írjanak emailt.
2. zh: május 2., eredmények A dolgozatok
megtekinthetők a hétfői (május 8.) előadáson vagy később előzetes
megbeszélés alapján
pótzh: május 16., eredmények
Aki meg szeretné nézni a dolgozatát, az írjon emailt!
Félév végi
jegyek (Ha valaki úgy érzi, hogy hiba van a táblázatban, akkor
írjon emailt!)
pótpótzh: május 23., kedd,
10.15-11.45, terem: az érintettek írjanak emailt (a Neptunban jelentkezni kell rá!)
Mi volt az előadáson?
Az alábbi fóliák segítenek tájékozódni a tanult
témákról. Az előadásokon főleg a táblát használom, a fóliák csak egy
részletes vázlatnak tekinthetők.
A ZH anyaga az, ami az előadáson elhangzik, ha
lényeges eltérés van a fólia és az órai anyag között, azt jelzem.
1.
előadás (február 6., hétfő): Követelmények,
Bevezetés
az R-hez,
Bevezetés
az
adatbányászathoz
(a 23.
slide-ig)
2.
előadás
(február 13.,
hétfő): Bevezetés
az
adatbányászathoz
(a
maradék
slide-ok); Az adatról mindenféle (a Mahalanobis távolságig)
3. előadás (február
16.,
csütörtök): Az adatos fóliasorozatról minden, ami nem volt,
Előfeldolgozás (a 21.slide-ig),
Egy érdekes előadás arról,
hogy hogyan lehet érthetően prezentálni az eredményeket
4. előadás
(február 20., hétfő): Az előfeldolgozás vége
(minden slide, ami a múltkor nem volt)
5.
előadás (február 27., hétfő): Az osztályozás
eleje (a 27. slide-ig)
6. előadás (március 2.,
csütörtök): Osztályozás
még mindig (30. slide-ig, de volt sok
feladatmegoldás is)
7.
előadás (március 6.,
hétfő): Osztályozás még mindig (46. slide-ig)
8.
előadás (március 13., hétfő): Bevezető
előadás Python-hoz (a laborhoz kell majd Python, ennek
előkészítésére lesz ez az óra)
9. előadás
(március 16., csütörtök): Osztályozás (az összes slide), kNN
osztályozó
10.
előadás (március 20.,
hétfő): Feladatmegoldás a zh előtt
11.
előadás (március
27., hétfő): Bayes-osztályozók
12. előadás (március 30.,
csütörtök):
Bayes-osztályozós
feladatok, Mesterséges neurális
hálózatok (7.
slide-ig)
13. előadás (április 3., hétfő): Mesterséges neurális
hálózatok (15.
slide-ig)
14. előadás (április 10.,
hétfő): Mesterséges
neurális hálózatok
(utolsó két slide), Záró
megjegyzések az osztályozókról
15. előadás (április 13.,
csütörtök): Klaszterezés (a
28. slide-ig)
16.
előadás
(április 24.,
hétfő): Klaszterezés
(minden
maradék), klaszterezés még mindig
17.
előadás
(április 27.,
csütörtök): gyakorló feladatsor a
2. zh
anyagából
18. előadás (május 8., hétfő):
Asszociációs szabályok
19. előadás (május 11., csütörtök):
Asszociációs szabályok, második rész
Laborhoz anyagok:
Első rész (R): feladatkiírás
rstudio letölthető
innen
1. labor: rstudio
felépítése, help, Alapok,
első feladatsor, az első 7
feladat megoldása
2. labor: Beolvasás, kiírás, Függvények, a második feladatsor, a
feladatsorban használt adatfile,
az első feladatsor utolsó
3 feladatának megoldása, a második feladatsor megoldásai
3. labor: Apply-ok,
harmadik feladatsor az
apply-okról, Grafika, egy demo file a grafikához, a
harmadik feladatsor megoldásai
Beadandó házifeladat az R-es
részből (határidő április 24., hétfő, reggel 8 óra): feladatkiírás
és a megoldáshoz szükséges
adatfile-ok: specdata.zip és
korhaz.zip
Második
rész (Weka):
Saját gépre kell: Weka 3.6 (van
jre és jre nélküli változat is, ha valakinek van a gépén
java, akkor elég a jre nélküli) és
python 3, meg numpy Ez
utóbbi részhez a jupyter-t ajánljuk letölteni, abban alapból
van minden, ami kell, de ha
valaki mást szeretne, lehet nyugodtan más is.
Itt egy link az anaconda-hoz, abban benne van a python és a
jupyter is és egyszerű telepíteni.
Bevezető a Pythonhoz
Segédanyagok a gyakorlatokhoz: 2. gyakorlathoz anyagok, 2. gyakorlat jupyter,
3. gyakorlat
Beadandó
házifeladat: a félév második feléhez
Követelmények
Két ZH, mindkettő 35 pontot ér,
mindkettőn legalább 14 pontot el kell érni.
Legalább az egyik ZHnak elsőre (az
eredeti időpontban) sikerülnie kell, a másik pótolható a pótZHval.
Utolsó pótlási alkalom valamikor később a pótlási héten.
A laboron két beadandó házi van,
mindkettő 15 pontot ér. A házik ellenőrzése az utolsó
laboron történik.
A laboron az első hat alkalomból legalább
ötön részt kell venni.
Összesen 100 pont szerezhető, 40 ponttól
elégséges, 55-től közepes, 70-tól jó, 85-től jeles a félévközi
jegy.
Tankönyv
Leginkább ez: Pang-Ning
Tan, Michael Steinbach, Vipin Kumar: Introduction to
Data Mining (könyv és slide-ok)
http://www-users.cs.umn.edu/~kumar/dmbook/index.php
Az előadások és így a zh anyagát is
az órán elhangzottak alkotják.