[Buza Krisztián weblapja] | [In English] |
Kedves Hallgató!
Ezen a weblapon elérhető témakiírások többsége - kidolgozás mélységétől függően - egyaránt választható BSc és MSc szinten, önálló laboratórium és szakdolgozat, valamint tudományos diákköri (TDK) munka témájának. Ha valamelyik téma felkeltette érdeklődését, kérem keressen meg e-mail-en vagy személyesen: buza (kukac) cs (pont) bme (pont) hu |
Példánykiválasztó (instance selection) algoritmusok vizsgálata |
Idősorok és más összetett adatok osztályozásának felgyorsításához gyakran használt technika a példánykiválasztás (instance selection), amely során a tanítóhalmaz példányai közül a leginkább releváns példányokat választjuk ki, és a későbbiekben csak ezeket használjuk a model építése és/vagy az osztályozás során. A feladat az irodalomban szereplő példánykiválasztó algoritmusok áttekintése, implementációja, vizsgálata, értékelése, példánykiválasztó algoritmusok (tovább)fejlesztése. |
Hiányzó értékek kezelésének szisztematikus vizsgálata |
Valós adatbázisokban gyakran előfordul, hogy egy-egy mező értéke hiányzik. Ennek többféle oka lehet: pl. szenzorok meghibásodása, az adat mérése túl sok ideig tartana, vagy túl költséges lenne, valamilyen speciális eset miatt az adott objektumra nem értelmezhető az adott mező, az adatfelvitellel foglalkozó munkatársak eredetileg hibás adatokat vittek fel a rendszerbe, stb. Némely adatbányászati algoritmust (pl. Naive Bayes) "nem zavarnak" a hiányzó értékek, mások viszont az igénylik, hogy az ilyen mezőket valamilyen módon "feltöltsük" az algoritmus futtatása előtt (pl. átlagos vagy leggyakoribb értékkel).
A feladat a hiányzó értékek lehetséges kezelésének szisztematikus vizsgálata, konkrétan: (a) a hiányzó értékekre kezelésére vonatkozó irodalomból ismert módszerek áttekintése, értékelése, (b) az adatbányászati algoritmusok osztályozása, értékelése aszerint, hogy mennyire "érzékenyek" a hiányzó értékekkel szemben, (c) néhány hiányzó-érték-kezelő (helyettesítő) eljárás implementációja, és azok összehasonlító tesztelése publikusan elérhető, valós adatbázisokon, (d) esetlegesen új algoritmusok fejlesztése a hiányzó értékek kezelésére/helyettesítésére, és azok tesztelése. |
Idősorok hiányzó értékeinek becslése |
Idősor alatt egy adott változó (pl. vérnyomás, egy részvény árfolyama, szél sebessége, ceruza hegyének pozíciója egy érintésérzékeny képernyőn, stb.) időben egymást követő méréseinek sorozatát értjük. Különböző okokból előfordul, hogy a mérés egy része hiányzik és/vagy a mért értékek nem mindig azonos időközönként követik egymást, ilyen ok lehet például a szenzorok meghibásodása, vagy ha egy beteg nem jelenik meg egy ellenőrző-vizsgálaton illetve az orvos egy sürgős eset miatt egy-egy alkalommal az ellenőrző rutin-mérés elhalasztására kényszerül, ha egy cég részvényeinek árfolyamát csak olyan napokon jegyzik fel, amikor ténylegesen kereskedtek az adott cég részvényeivel (kisebb cégek és kisebb tőzsdék esetében előfordulhatnak olyan napok, amikor a cég részvényei nem cserélnek gazdát), stb. Mélyrehatóbb elemzések, mintázatok felismerése céljából azonban szükséges lehet az idősorok hiányzó értékeinek utólagos becslésére. Mindez azon alapulva lehetséges, hogy az idősorok egymást követő értékei rendszerint erősen korrelálnak.
A feladat a hiányzó értékek becslésére szolgáló eljárások áttekintése, értékelése (publikusan elérhető, valós adatbázisokon végzett tesztek során) és az előbbi eljárások továbbfejlesztése, új eljárás fejlesztése az idősorok hiányzó értékeinek becslésére. |
Gesztikulációk és jelbeszédi jelek felismerése |
Gesztikulációk és jelbeszédi jelek számítógéppel történő felismeréséhez az ún. mozgásérzékelő kesztyűt (motion capturing glove) szoktak használni, amely a különböző ujjak behajlításának mértékét, illetve az ujjak állását (irányát) méri egymást követő időpillanatokban. Bár a többváltozós idősorok osztályozásakor használt és széles körben elterjedt modellek viszonylag jó eredményt adnak ezen felismerési feladat esetében is, a pontosság további növeléséhez a terület sajátosságainak figyelembe vételére van szükség. A feladat a jelnyelvi és gesztikulációkat felismerő algoritmusok irodalmának tanulmányozása, ilyen algoritmusok (tovább)fejlesztése, és kiértékelése publikusan elérhető, valós, jelnyelvi jeleket illetve gesztikulációkat tartalmazó adatbázisokon végzett tesztek során. |
Idősorok semi-supervised osztályozása, hibák tovaterjedésének vizsgálata |
Modern szenzoroknak köszönhetően egy adott mennyiség időben egymást követő időpillanatokban történő megfigyelése általában viszonylag könnyen megoldható, akár hosszabb időtartamon, napokon, heteken, éveken át is. Ennek során nagy mennyiségű adat keletkezik. Például egyetlen páciens szíműködését mindösszesen egyetlen napon át vizsgáló EKG-berendezés által készített felvételen kb. 100000 szívverés található. Könnyen látható tehát, hogy a felvételek szakember által történő kiértékelése (a nagy adatmennyiség miatt) nehézséget jelenthet. Ezért felmerül, hogy automatikus, számítógépes felismerő rendszerekkel támogassuk a szakember munkáját. Az ilyen rendszerek azonban általában azt igénylik, hogy szakember által már korábban elemzett és annotált (azaz "felcímkézett) adat, ún. "tanító-adat" álljon rendelkezésre. Ugyanakkor a nagy adatmennyiségből adódóan a szakember az esetek nagy részében csak arra képes, hogy az összes rendelkezésre álló adat egy relatíve kicsi részhalmazát annotálja. Így a legjobb igyekezet ellenére is előfordulhat, hogy ez a minta nem minden tekintetben lesz reprezentatív a teljes adatbázisra nézve. Ebből adódóan, ezen annotált adatokat használva az automatikus felismerő rendszer készítése (osztályozó algoritmus tanítása) során, a felismerő-elemző rendszer pontossága elmaradhat mind a megkívánt, mind pedig a potenciálisan elérhető pontosságtól. A semi-supervised tanítási protokoll egy kiutat jelenthet ebből a problémából: ennek során az eredetileg annotált adatokat (tanítóadatokat) használva készítünk egy automatikus felismerő rendszert, amely nem csak egy-egy új adat (idősor) felismerésére (osztályozására) alkalmas, hanem egy bizonyossági értéket is képes megadni, amely azt jellemzi, hogy a felismert adat (idősor) esetében mennyire "biztos" a rendszer abban, hogy a felismerés (osztályozás) eredménye helyes. Ezt kihasználva az automatikus felismerő rendszert azon adatok (idősorok) annotációjára (osztályozására) használjuk, amelyek esetében a rendszer leginkább "biztos" abban, hogy a felismerés eredménye helyes. Majd ezt követően, az eredeti tanítóadatokat és a rendszer által immár annotált adatokat is egyaránt használva újra-építjük a felismerő rendszert. A folyamat iteratíve ismételhető egészen addig, amíg az összes annotálandó adatot nem annotálta a rendszer. Az többszöri "újra-tanításokból" álló iteratív folyamat egyik kulcskérdése az esetleges felismerési hibák terjedése: mivel az egyik iterációban annotált adatokat (idősorokat) a következő iterációban tanító-adatként használjuk, ezért az egyik iterációban elkövetett felismerési hiba ahhoz vezethet, hogy a rendszer a következő iterációkban is felismerési hibákat fog elkövetni. A feladat a hibák iterációról iterációra való terjedésének vizsgálata a semi-supervised tanítási protokollt használó idősor-osztályozó algoritmusok esetében, publikusan elérhető, különböző területekről származó, valós idősor adatbázisokon végzett tesztek során. |
Transfer learning |
Amikor egy új területre fejlesztünk felismerési algoritmusokat, gyakran előfordul, hogy az új területről (még) kevés annotált (címkézett) adat áll rendelkezésre, ugyanakkor egy másik hasonló területről nagy mennyiségű címkézett adat érhető el, amelyet (a két terület hasonlósága miatt) felhasználhatunk az új területi felismerő modell fejlesztése során. Ha ezen eljárás követjük, transfer learning-ről beszélhetünk. A feladat az idősorok osztályozásával kapcsolatos transfer learning szakirodalom tanulmányozása, áttekintése, transfer learning technikák implementációja és értékelése publikusan elérhető, különböző területekről származó, valós idősor adatbázisokon végzett tesztek során. |