Ahogy az elején is említettem, az adat formája sokféle lehet, amivel foglalkozunk. Nemcsak táblázatok, de kép, videó, vagy akár szöveg is. A szövegek elemzésével foglalkozó speciális területet szövegbányászatnak hívják. Azért érdekesebb terület, mert a gép nem tudja értelmezni a nyers szöveges információt, így az előfeldolgozás sokkal több feladattal jár.
Szövegbányászatot többmindenre is hasznáhatunk, az egyik elterjedt felhasználási terület a véleménybányászat, amikor egy-egy termékről való általános véleményre kíváncsi a termék gyártója vagy forgalmazója. Ennek megfelelően léteznek olyan szoftverek, amelyek a facebookon, twitteren egy adott termékre vonatkozó jelzőket keresik, hogy visszamérhessék a termék népszerűségét. Egy ilyen alkalmazásra példa a SAS szoftvere. Ma már elég sokan a közösségi oldalakon osztják meg véleményüket mindenről - például hogy épp most vettek egy Milka csokit, és mennyire jó/rossz volt - és ezt a gyártó felhasználhatja a termék fejlesztésére, kevesebbet kell költenie piackutatásra, mert ezzel házhoz jön a fogyasztók véleménye. :) (Ha részletesebben is olvasnál a témáról kezdő adatbányászként, vagy csak érdeklődőként, keress rá az opinion-mining vagy sentiment analysis szavakra.)
Egy másik érdekes felhasználási területe a spam-szűrés vagy levélszemét-szűrés. A spam-szűrő dolga, hogy a leveleinket két csoportra ossza, a hasznos levelekre és a levélszemétre. Honnan tudja kiszűrni a szemetet? A spam leveleknek van pár közös tulajdonsága. Biztosan találkoztatok már olyan levéllel, aminek a fejlécéből már kiszúrtátok, hogy csak szemét lehet: erre utalhat az ismeretlen feladó, idegen nyelv, jellemző szavak... Ezeket figyeli nagyrészt a spam-szűrő is, ami be van építve már a legtöbb levelezőprogramba. Ezek nagy része tanítható is működés közben, tehát ha tévesen spamnek sorol be bizonyos leveleket, akkor lehetőség van visszajelezni a szoftvernek, hogy nem spam az adott levél (vagy fordítva, spam-nek jelölni azt, amit nem észlelt spam-nek). Ez arra szolgál, hogy legközelebb az ilyen leveleket már megfelelően sorolja be, tehát egyedi igényekre szabható.
Egy harmadik felhasználási területről az indexen volt olvasható a nyár folyamán egy hír. A cikkben szereplő szövegbányászati projekt célja az volt, hogy a szóhasználatból kiszűrje, hány szerzője lehetett a bibliának. Mivel mindenki más szavakat használ előszeretettel, máshogyan rakja össze a mondatait, színesebb jelzőket használ... a szöveg ezen jellemvonásaiból meg lehet határozni a szerzők számát.
P.S.: Kommentekben várom a véleményeket a blogról, ha sok összegyűlik, posztolok vélemény-elemzést róla :)
A bejegyzés trackback címe:
Kommentek:
A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.
szajberpiraty 2011.10.17. 08:23:51
Itt a Rapidminer, amellyel ugyanúgy meg lehet ezeket az elemzéseket csinálni, legfeljebb egy kicsit többet kell dolgozni. De még az sem biztos.
szajberpiraty 2011.10.17. 09:06:03
Középiskolai informatika tanár vagyok, tanári munkám mellett nagyon érdekel az adat/szövegbányászat. Rájöttem, hogy ezek egy részét tanítani is (lehetne/kellene), hiszen adatbázis-kezelés amúgy is van.
Szoktam pedagógiai kutatásokat is végezni, és vizsgálom az adat/szövegbányászat alkalmazhatóságát ebben a témában.
Szóval már van egy rendszeres olvasó..:)
huzsuzsa 2011.10.17. 22:26:41
Valóban vannak ingyenes szoftverek is, amiket jól lehet használni szövegbányászatra is, akár vélemény-bányászatra is, azért említettem a SAS-t, mert ilyen komplex megoldása van specifikusan erre a feladatra.
És egyetértek, akár már középiskolában is lehetne ezt tanítani, mert hasznos/érdekes téma.
tnsnames.ora 2011.10.18. 10:40:09
Szövegbányászatnál, ami nekem azonnal eszembejut a nyelv-specifikusság követelménye. Ami egészen biztos, hogy fontos, de nagyon nehéz pontosan meghatározni, hogy mennyire. Illetve, hogy az egyes megoldások mennyire támogatják a magyar nyelvet. Illetve mennyire nehéz saját erőből free add-on eszközöket használva támogatni a magyar nyelvet.
Én egyről tudom hogy a legjobban/teljeskörűen támogatja nyelvünket (a nagyon drága SPSS Clementine-ról) illetve az Oracle-ről, hogy valamennyire.
huzsuzsa 2011.10.19. 09:53:09
Szerencsére vannak magyar nyelvre is eszközök, igaz, nem adatbányászati eszközökbe integrálva, pl. mokk.bme.hu/eszkozok/. Ezek szerintem sokat segíthetnek, bár saját tapasztalatom nincs velük.