Adatbányászati technikák
2015 tavasz
Előadás:
Előadó: Csima Judit (csima at
cs.bme.hu)
Előadás: minden szerdán 8:30-10:00
QB104, páratlan heteken csütörtökön 10.30-
12.00 is, QB105
Labor
Laborvezetők: Csima Judit és
Bagyinszki Bence (bagyibence at gmail.com)
Labor: csütörtökön 8:30-10:00, R4J, 11-es kurzus páratlan
heteken, 12-es kurzus páros heteken
Zárthelyik:
1.zh: Eredmények:
itt
2. zh: Eredmények:
itt,
pótzh: Eredmények:
itt, a dolgozatok
megtekinthetők május 22-én, pénteken 13.30-kor (vagy
írjanak emailt, ha ez nem jó)
pótpótzh: LQUAPR: 33 pont, P9W45O: 29 pont,
STP4U7: 29 pont
Mi volt az előadáson?
Az alábbi fóliák segítenek tájékozódni a tanult témákról. Az
előadásokon főleg a táblát használom, a fóliák csak egy részletes
vázlatnak tekinthetők.
A ZH anyaga az, ami az előadáson elhangzik, ha lényeges eltérés van
a fólia és az órai anyag között, azt jelzem.
1. előadás (február 11.,
szerda): Adminisztratív tudnivalók: jegyszerzés,
követelmények; Az R
története és jellemzői, Bevezetés
(24. fóliáig)
2. előadás (február 12., csütörtök): a múlt óráról maradt pár fólia a bevezetésből; Adatról minden;
3. előadás (február 18.,
szerda): Előfeldolgozás (ismerkedés
az adattal, ábrázolás, attribútumok átdolgozása); Egy
érdekes
előadás arról, hogy
hogyan lehet érthetően prezentálni az eredményeket
4. előadás (február 25.,
szerda): elmaradt
5. előadás (február 26.,
csütörtök): Az
előfeldolgozásos diák vége (oszlopok és sorok
számának csökkentése); Osztályozás (alapfeladat, példák,
döntési fák alapfogalmai, nagyjából a 20.
diáig)
6. előadás (március 4.,
szerda): Osztályozás
még
(nagyjából a 28. diáig)
: inhomogenitási mértékek (gini,
entrópia, classification error), vágás jóságának mérése,
feladatmegoldás
7. előadás (március 11.,
szerda): Osztályozás
még mindig (a 38. fóliáig, de volt
sok feladatmegoldás is): gain ratio, overfitting
8. előadás
(március 12., csütörtök): Osztályozás
(a maradék fóliák)
9.
előadás (március 18., szerda): feladatmegoldás,
készülés a zhra
10. előadás (március 25., szerda):
kNN osztályozók;
naív Bayes
osztályozók
11. előadás (március 26,
csütörtök): JAVA bevezető előadás a labor második részéhez
12. előadás (április 1., szerda):
naív
Bayes
osztályozók, mesterséges
neurális hálózatok
13. előadás (április 8.,
szerda): mesterséges neurális
hálózatok még mindig;
14. előadás
(április 9.,
csütörtök):
Záró
megjegyzések az osztályozókról (
SVM,
ensemble módszerek);
Klaszterezés
eleje
15. előadás (április 15.,
szerda): Klaszterezés
második része
16. előadás
(április 22.,
szerda): Klaszterezés
vége;
Asszociációs szabályok keresése, 1.
rész
17. előadás (április 23.,
csütörtök):
Asszociációs
szabályok még
mindig (az
előző
fóliasorról)
18. előadás (április 29.,
szerda):
Asszociációs
szabályok még
mindig (az
előző fóliasor
vége)
19. előadás (május 6.,
szerda):
Asszociációs
szabályok második rész
eleje
20. előadás (május 7.,
csütörtök):
Asszociációs
szabályok második rész
vége
Laborhoz anyagok:
Első rész (R):
rstudio letölthető
innen
1. labor: Help,
alapok,
feladatsor itt
2. labor: Adatok
beolvasása, Függvények,
apply-ok, feladatsor itt,
a feladatsorhoz kellő csv file
Az első feladatsor és a 2. feladatsor első két feladatának
megoldása itt
A 2. labor feladatsorának lehetséges megoldásait
tartalmazó R script
3. labor: Grafika,
egy demo
file a három grafikus csomagról
Az R-es részhez tartozó házifeladat feladatkitűzése és a szükséges
tömörített file-ok: specdata.zip
és korhaz.zip
Második rész (Weka, Java):
A házik mintamegoldásai (tömörített
file)
A második részhez tartozó házifeladat feladatkitűzése
Követelmények
Két ZH az előadás idejében (március 24.
és május 14.), mindkettő 35 pontot ér, mindkettőn legalább
14 pontot el kell érni.
Legalább az egyik ZHnak elsőre (az
eredeti időpontban) sikerülnie kell, a másik pótolható a pótZHval
május 21-én. Utolsó pótlási alkalom valamikor később.
A laboron két beadandó házi van,
mindkettő 15 pontot ér. A házik ellenőrzése az utolsó laboron
történik.
A laboron az első hat alkalomból legalább
ötön részt kell venni.
Összesen 100 pont szerezhető, 40 ponttól
elégséges, 55-től közepes, 70-tól jó, 85-től jeles a félévközi
jegy.
Tankönyv
Leginkább ez: Pang-Ning
Tan, Michael Steinbach, Vipin Kumar: Introduction to
Data Mining (könyv és slide-ok)
http://www-users.cs.umn.edu/~kumar/dmbook/index.php
További forrás: Bodon
Ferenc: Adatbányászati algoritmusok, BME Számítástudományi
és Információelmélet tanszék. Budapest, 2007, Online
jegyzet
Az előadások és így a zh anyagát is
az órán elhangzottak alkotják.