Az előző poszt egy nem-tipikus adatbányászati feladatról szólt, ezt folytatva arról fog szólni ez a poszt, hogy milyen nem tipikus adatok vannak még, és mit lehet kezdeni ezekkel. (Tipikus adaton a táblázatos formában/adatbázisban tárolt adatokat értem.)


Hangbányászat, szövegbányászat:
Július elején a Clementine Consulting bemutatta az IBM Modeler 15-ös verzióját, és a bemutatón szó volt a hálózat, hang- és szövegbányászatról is. Hangbányászatra az egyik működő megoldásuk, hogy egy call-centerbe befutó hívásokat egy éjszaka alatt szöveggé, majd a szöveget strukturált adattá alakítják, amin már tipikus adatbányászati algoritmusokat lehet futtatni. A beszélgetés tartalmán kívül a hangból hangulatot tudnak és szoktak még meghatározni, ennyiben mindenképpen pluszt szolgáltat a hangbányászat a bevitt szöveghez képest. Mit jelent ez a gyakorlatban? Betelefonálsz egyik nap az ügyfélszolgálatra, ami másnapra egy sornyi adatot generál a szolgáltató adatbázisába: Mi miatt tettél panaszt, milyen hangulatú volt a beszélgetés, stb. A legfontosabb, hogy mindezt emberi beavatkozás nélkül teszi, először szöveggé alakítva a hangot, majd a szöveges adatot feldolgozva, és hangulatot rendelve a szöveghez.

Hálózatelemzés:
A hangon és szövegen kívül ma a hálózatok bányászata az egyik érdekes alkalmazási terület. A telkó és bank kapcsán már volt szó hálózatokról ebben a blogban, de más területeken is érdekes hálózatokat lehet építeni. A cégek hálózata mondjuk jó példa ilyen szempontból, ahol a közös tulajdonossal, vagy címmel rendelkező cégek vannak összeköttetésben egymással. Egy ilyen hálózatot például az adóhatóság tudja jól felhasználni, és a banki tartozások szempontjából is érdekes, hiszen ha az egymással pénzügyi/tulajdonosi kapcsolatban lévő cégek közül egy fizetésképtelenné válik, láncreakciót válthat ki a hálózatban. De nem feltétlenül emiatt alkalmazzák sok helyen a hálózati elemző szoftvereket, hanem mert speciális alkalmazásokkal lehetőség van megjeleníteni a gráfot, és ez már önmagában is “jó játék”.
A hálózatban két alapvető feladattípust különíthetünk el, az egyik valami miatt érdekes csomópontok keresése. Érdekes például az a csomópont, amihez túl kevés másik pont csatlakozik (outlier) vagy éppen ‘túl’ sok. A sok kapcsolattal rendelkező előfizetőket próbálják például megfogni a bankok, telco cégek egy új szolgáltatással, mert tőle kiindulva fog leginkább elterjedni (véleményvezér). (Ez elnagyolt megfogalmazás, akit bővebben érdekel a téma, javaslom a Behálózva c. könyvet. A másik feladattípus a hálózatban egy bizonyos esemény terjedésének vizsgálata lehet, például a céges hálózatban a bedőlés terjedése.

Web-elemzés:
A weboldalak elemzését is az adatbányászati feladatok között szokták említeni, és több jellemző web-elemzési feladatot is számontartunk. Egyik ezek közül az internetes tartalmakban való keresés és automatikus rendszerezés, a másik egy-egy internetes oldal log-adatainak bányászata. Előbbit mesteri szinten űzi a google, ez érdemel egy teljes posztot a későbbiekben, míg utóbbi egy konkrét weboldal látogatottságának vagy akár használhatóságának növelése érdekében érdemes elvégezni. Az online adatok bányászatáról már volt is szó a híroldalak elemzésénél, ezen kívül rengeteg web-analitikai eszköz áll már rendelkezésre saját weboldalunk elemzésére, amit érdemes használni.

huzsuzsa

1 komment


A bejegyzés trackback címe:

https://adatmagus.blog.hu/api/trackback/id/tr104717137

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

buGhunter · http://bamberg.blog.hu 2012.08.17. 18:10:57

Hangalapú elemzés témában nemrég volt ez a hír indexen: index.hu/tech/2012/07/26/kis_magyar_kulonvelemeny/ (bár kissé reklám szaga van..)
süti beállítások módosítása