Adatbányászati technikák
2016 tavasz
Előadás:
Előadó: Csima Judit (csima at
cs.bme.hu)
Előadás: minden hétfőn 8:15-10:00
IB134, páratlan heteken csütörtökön 10.15-
12.00 is, IB134
Labor
Laborvezetők: Csima Judit és Kabódi
László (kabodil at gmail.com)
Labor: csütörtökön 8:15-9:45, R4K, 11-es kurzus páratlan
heteken, 12-es kurzus páros heteken
Zárthelyik:
1.zh: március 31., Eredmények: itt
2. zh: május 10., 18:15 -
19:45, Eredmények itt, megtekintés
a csütörtöki előadáson (május 12., 10-12) vagy ha ez nem jó, akkor írjanak emailt
pótzh: május 24., 10:15 - 11:45, Eredmények itt (zh,
pótzh, laborpontok, végleges jegyek mindenkinek)
pótpótzh: nem lesz, mert
nincs pótolandó zhja senkinek
Mi volt az előadáson?
Az alábbi fóliák segítenek tájékozódni a tanult
témákról. Az előadásokon főleg a táblát használom, a fóliák csak egy
részletes vázlatnak tekinthetők.
A ZH anyaga az, ami az előadáson elhangzik, ha
lényeges eltérés van a fólia és az órai anyag között, azt jelzem.
1.
előadás (február 15., hétfő): Adminisztratív
tudnivalók: jegyszerzés, követelmények;
Az R története és jellemzői,
Bevezetés (a 8. slide-ig)
2. előadás (február 18., csütörtök): Bevezetés
(minden ami, maradt a múlt óráról);
Adatról (a
24. fóliáig)
3. előadás
(február 22., hétfő): Adatról (minden, ami maradt a múlt
óráról); Előfeldolgozás (27. fóliáig);
4. előadás
(február 29.,
hétfő): Előfeldolgozás
(minden, ami a
múlt órán nem
volt); Egy
érdekes előadás
arról, hogy
hogyan lehet
érthetően
prezentálni az
eredményeket
5. előadás (március 3., csütörtök): Osztályozás
(a 27. diáig)
6. előadás (március 5., szombat): Osztályozás
(a 28. diától a 30. diáig, de volt sok feladatmegoldás)
7. előadás (március 7., hétfő): Osztályozás
(a 31. diától a 48. diáig)
8. előadás (március 17., csütörtök): Osztályozás
(minden,
ami még
maradt); Bayes-osztályozó
(a 6. fóliáig)
9. előadás
(március 21.,
hétfő): Bayes-osztályozó
(minden, ami maradt)
10. előadás (március 31., csütörtök): Feladatmegoldás
a zh
előtt
11. előadás (április 4., hétfő): JAVA bevezető előadás
12.
előadás
(április 11.,
hétfő): kNN
osztályozók,
mesterséges
neurális
hálózatok
13. előadás
(április 14.,
csütörtök): mesterséges
neurális hálók
(ami
a múltkor
kimaradt)
14.
előadás
(április 18.,
hétfő): Záró
megjegyzések
az
osztályozókról;
Klaszteretés
(eleje,
kmeans-ig)
15.
előadás
(április 25.,
hétfő):
Kmeansről
minden (itt),
hierarchikus
kalaszterezés
eleje
(16. slide-ig)
16.
előadás
(április 28.,
csütörtök): Klaszeterezésről minden maradék innen
17.
előadás (május
2., hétfő):
Asszociációs
szabályok
keresése minden
slide
18.
előadás (május
9., hétfő): Feladatmegoldás
a zh
előtt, feladatsor itt
Laborhoz anyagok:
Első rész (R):
rstudio letölthető
innen
1. labor: Help, alapok, feladatsor itt, az
első hét feladat megoldása
2. labor:
Adatok
beolvasása, Függvények,
apply-ok, feladatsor itt,
a feladatsorhoz kellő csv
file,
a második hét feladatainak megoldásai
3. labor: Grafika,
egy demo file a grafikus csomagokról, az
előző feladatsor utolsó két feladatának megoldásai
Beadandó házi az
R-es részből (határidő május 2. hétfő, reggel 8 óra):
a feladatkiírás, a felhasználandó adatok: specdata.zip és korhaz.zip
Második rész (Weka):
Beadandó házi a labor második részéből:
feladatkiírás
Java-s anyagok: fibonacci_iter, fibonacci_rec, how_to_weka, szoszamlalo
Követelmények
Két ZH, mindkettő 35 pontot ér,
mindkettőn legalább 14 pontot el kell érni.
Legalább az egyik ZHnak elsőre (az
eredeti időpontban) sikerülnie kell, a másik pótolható a pótZHval.
Utolsó pótlási alkalom valamikor később a pótlási héten.
A laboron két beadandó házi van,
mindkettő 15 pontot ér. A házik ellenőrzése az utolsó laboron
történik.
A laboron az első hat alkalomból legalább
ötön részt kell venni.
Összesen 100 pont szerezhető, 40 ponttól
elégséges, 55-től közepes, 70-tól jó, 85-től jeles a félévközi
jegy.
Tankönyv
Leginkább ez: Pang-Ning
Tan, Michael Steinbach, Vipin Kumar: Introduction to
Data Mining (könyv és slide-ok)
http://www-users.cs.umn.edu/~kumar/dmbook/index.php
Az előadások és így a zh anyagát is
az órán elhangzottak alkotják.