Adatbányászati
technikák
2014 tavasz
Előadás:
Előadó: Csima Judit
(csima at cs.bme.hu)
Előadás: minden
szerdán 8:30-10:00 QBF10, páratlan heteken
csütörtökön 10.30- 12.00 is, QBF11
Labor
Laborvezetők: Csima Judit és
Bagyinszki Bence (bagyibence at gmail.com)
Labor: csütörtökön 8:30-10:00, R4J,
01-es kurzus páratlan heteken, 02-es kurzus páros
heteken
Eredmények: első zh, második
zh, pótzh
és egész éves eredmények egyben,
pótpótzh eredmények
Tankönyv
Leginkább ez:
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining (könyv
és slide-ok)
http://www-users.cs.umn.edu/~kumar/dmbook/index.php
További forrás:
Bodon Ferenc: Adatbányászati algoritmusok, BME
Számítástudományi és
Információelmélet tanszék.
Budapest, 2007, Online
jegyzet
Mi volt az előadáson?
A ZH anyaga az, ami az előadáson elhangzott. Ezt az
alábbi órai fóliák a kNN
osztályozóig bezárólag elég
jól visszaadják, ez után azonban a
fóliák csak egy részletes vázlatnak
tekintendők.
1. előadás
(február 12., szerda): Adminisztratív
tudnivalók: jegyszerzés,
követelmények ; R
története, jellemzői
2. előadás (február 13.,
csütörtök): Bevezetés;
Mindenféle az adatról
(távolságfogalmak)
3. előadás (február 19.,
szerda): Előfeldolgozás
(ismerkedés az adattal, ábrázolás,
attribútumok átdolgozása); Egy
érdekes előadás
arról, hogy hogyan lehet érthetően
prezentálni az eredményeket
4. előadás (február 26.,
szerda): Az előfeldolgozás
részből a maradék, ami a múltkor nem
volt (attribútumok
átalakítása,
transzformálása,
dimenziócsökkentés); Döntési fák,
alapok (az első 20 slide fedi le nagyjából a
mai anyagot)
5. előadás (február
27., csütörtök): A
döntési fás slide-okból a
28. diáig, sok-sok feladatmegoldással
6. előadás (március
5., szerda): A döntési
fás slide-okból 29-től 46-ig (gain ratio,
overfiiting, generalized error, pruning)
7. előadás (március
12., szerda): A döntési fás
slide-ok egy része, aztán pedig Bayes-osztályozók (az
első pár slide)
8. előadás (március
13., csütörtök): Bayes
maradék része, feladatmegoldás
9. előadás (március
19., szerda): Feladatmegoldás,
készülés a zhra
10. előadás
(március 26., szerda): ZH
8.30-10.00, QBF10
11. előadás (március
27., csütörtök): JAVA bevezető
óra azoknak, akik nem járatosak a JAVA-ban:
slide-ok
12. előadás (április
2., szerda): kNN
osztályozó és
neurális
hálózatok
13. előadás (április 9., szerda): Neurális
hálózatok befejezése,
röviden
az SVM-ről;
14. előadás (április 10.,
csütörtök): Ensemble
módszerek; Klaszterezés
15. előadás (április 16.,
szerda): Klaszterezés
maradék része
16. előadás (április 23.,
szerda): Asszociációs
szabályok keresése az Apriori algo-ig
17. előadás (április 24.,
csütörtök): Asszociációs
szabályok keresése még
mindig
18. előadás (április 30.,
szerda): A múltkori slide-ok befejezése
19. előadás (május 7., szerda):
Újabb slide-ok az
asszociációs szabályokról (FP-fa
építés)
20. előadás (május 8.,
csütörtök): A
múlt órai slide-ok vége
(Lift-mutató) (az ECLAT algora nem jut idő), aztán meg
feladatmegoldás, készülés a zhra
21. előadás (május 14., szerda): ZH 8.30-10.00, QBF10
Laborhoz anyagok:
Első rész (R):
rstudio letölthető
innen
1. labor: Alapok, help ,
feladatsor itt
2. labor: Adatok beolvasása, Függvények, apply-ok,
feladatsor itt, a feladatsorhoz
kellő csv file
3. labor:
Grafika, egy demo file a három grafikus
csomagról
A 2. labor feladatsorának lehetséges
megoldásait tartalmazó R
script
Az R-es részhez tartozó házifeladat feladatkitűzése és
a szükséges tömörített file-ok: specdata.zip és korhaz.zip
Második rész (Weka, Java):
A JAVA-s gyakorlat feladati és
megoldásai itt
A második rész
házijának feladatkitűzése
Követelmények
Két ZH az előadás
idejében (március 26. és május 14.),
mindkettő 35 pontot ér, mindkettőn legalább 14
pontot el kell érni.
Legalább az egyik ZHnak elsőre
(az eredeti időpontban) sikerülnie kell, a másik
pótolható a pótZHval május
21-én. Utolsó pótlási alkalom a
pótlási héten később.
A laboron két beadandó
házi van, mindkettő 15 pontot ér. A házik
ellenőrzése az utolsó laboron történik.
A laboron az első hat alkalomból
legalább ötön részt kell venni.
Összesen 100 pont szerezhető, 40
ponttól elégséges, 55-től közepes,
70-tól jó, 85-től jeles a
félévközi jegy.