Ahogy az elején is említettem, az adat formája sokféle lehet, amivel foglalkozunk. Nemcsak táblázatok, de kép, videó, vagy akár szöveg is. A szövegek elemzésével foglalkozó speciális területet szövegbányászatnak hívják. Azért érdekesebb terület, mert a gép nem tudja értelmezni a nyers szöveges információt, így az előfeldolgozás sokkal több feladattal jár.
Szövegbányászatot többmindenre is hasznáhatunk, az egyik elterjedt felhasználási terület a véleménybányászat, amikor egy-egy termékről való általános véleményre kíváncsi a termék gyártója vagy forgalmazója. Ennek megfelelően léteznek olyan szoftverek, amelyek a facebookon, twitteren egy adott termékre vonatkozó jelzőket keresik, hogy visszamérhessék a termék népszerűségét. Egy ilyen alkalmazásra példa a SAS szoftvere. Ma már elég sokan a közösségi oldalakon osztják meg véleményüket mindenről - például hogy épp most vettek egy Milka csokit, és mennyire jó/rossz volt - és ezt a gyártó felhasználhatja a termék fejlesztésére, kevesebbet kell költenie piackutatásra, mert ezzel házhoz jön a fogyasztók véleménye. :) (Ha részletesebben is olvasnál a témáról kezdő adatbányászként, vagy csak érdeklődőként, keress rá az opinion-mining vagy sentiment analysis szavakra.)

Egy másik érdekes felhasználási területe a spam-szűrés vagy levélszemét-szűrés. A spam-szűrő dolga, hogy a leveleinket két csoportra ossza, a hasznos levelekre és a levélszemétre. Honnan tudja kiszűrni a szemetet? A spam leveleknek van pár közös tulajdonsága. Biztosan találkoztatok már olyan levéllel, aminek a fejlécéből már kiszúrtátok, hogy csak szemét lehet: erre utalhat az ismeretlen feladó, idegen nyelv, jellemző szavak... Ezeket figyeli nagyrészt a spam-szűrő is, ami be van építve már a legtöbb levelezőprogramba. Ezek nagy része tanítható is működés közben, tehát ha tévesen spamnek sorol be bizonyos leveleket, akkor lehetőség van visszajelezni a szoftvernek, hogy nem spam az adott levél (vagy fordítva, spam-nek jelölni azt, amit nem észlelt spam-nek). Ez arra szolgál, hogy legközelebb az ilyen leveleket már megfelelően sorolja be, tehát egyedi igényekre szabható.

Egy harmadik felhasználási területről az indexen volt olvasható a nyár folyamán egy hír. A cikkben szereplő szövegbányászati projekt célja az volt, hogy a szóhasználatból kiszűrje, hány szerzője lehetett a bibliának. Mivel mindenki más szavakat használ előszeretettel, máshogyan rakja össze a mondatait, színesebb jelzőket használ... a szöveg ezen jellemvonásaiból meg lehet határozni a szerzők számát.

P.S.: Kommentekben várom a véleményeket a blogról, ha sok összegyűlik, posztolok vélemény-elemzést róla :)

huzsuzsa

6 komment


A bejegyzés trackback címe:

https://adatmagus.blog.hu/api/trackback/id/tr583282000

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

szajberpiraty 2011.10.17. 08:23:51

Ez így szép és jó, de talán nem feltétlenül egy drága szoftver irányából kellene megközelíteni a szövegbányászatot.

Itt a Rapidminer, amellyel ugyanúgy meg lehet ezeket az elemzéseket csinálni, legfeljebb egy kicsit többet kell dolgozni. De még az sem biztos.

szajberpiraty 2011.10.17. 09:06:03

Egyébként jó a blog, csak így tovább!

Középiskolai informatika tanár vagyok, tanári munkám mellett nagyon érdekel az adat/szövegbányászat. Rájöttem, hogy ezek egy részét tanítani is (lehetne/kellene), hiszen adatbázis-kezelés amúgy is van.

Szoktam pedagógiai kutatásokat is végezni, és vizsgálom az adat/szövegbányászat alkalmazhatóságát ebben a témában.
Szóval már van egy rendszeres olvasó..:)

huzsuzsa 2011.10.17. 22:26:41

Köszönöm a kommentet!

Valóban vannak ingyenes szoftverek is, amiket jól lehet használni szövegbányászatra is, akár vélemény-bányászatra is, azért említettem a SAS-t, mert ilyen komplex megoldása van specifikusan erre a feladatra.

És egyetértek, akár már középiskolában is lehetne ezt tanítani, mert hasznos/érdekes téma.

tnsnames.ora 2011.10.18. 10:40:09

Gratula a bloghoz és a blognév választáshoz (nemkönnyű, tapasztalatból mondom), G-P. Csaba blogjáról találtam ide. Kívánok neked sok-sok posztot, read-only látogatót, és talán kommentelőt is. ;)

Szövegbányászatnál, ami nekem azonnal eszembejut a nyelv-specifikusság követelménye. Ami egészen biztos, hogy fontos, de nagyon nehéz pontosan meghatározni, hogy mennyire. Illetve, hogy az egyes megoldások mennyire támogatják a magyar nyelvet. Illetve mennyire nehéz saját erőből free add-on eszközöket használva támogatni a magyar nyelvet.

Én egyről tudom hogy a legjobban/teljeskörűen támogatja nyelvünket (a nagyon drága SPSS Clementine-ról) illetve az Oracle-ről, hogy valamennyire.

huzsuzsa 2011.10.19. 09:53:09

Köszönöm! A névválasztás nem az én érdemem. Erre még csak utaltam, de az a terv, hogy lesznek szerző-társaim, közösen találtuk ki a nevet. :)

Szerencsére vannak magyar nyelvre is eszközök, igaz, nem adatbányászati eszközökbe integrálva, pl. mokk.bme.hu/eszkozok/. Ezek szerintem sokat segíthetnek, bár saját tapasztalatom nincs velük.
süti beállítások módosítása