Adatbányászati szoftverek
Címkék: oracle clementine rapidminer adatbányászati szoftver
2011.12.01. 11:21
Az egyetemen több adatbányászati eszközzel is volt lehetőségem megismerkedni, ezekből fogok szemezgetni, megemlítve a drága, fizetős eszközöket is, de főleg arra koncentrálva, hogy mivel érdemes egy kezdő/hobbi adatbányásznak kezdenie.
Milyen követelményeket támaszthatunk egy adatbányászati szoftverrel? Szerintem amit egy szoftvernek tudnia kell, hogy önállóan adatbányászati eszköznek nevezhessük:
- több adatbázistípusból tudjon olvasni adatot
- lehessen az adatokat manipulálni, átalakítani, “szerkeszteni”
- lehessen vele műveleteket végezni az adatokon, új változókat létrehozni
- különböző adatmegjelenítők megléte sem hátrány, tehát az adatokat legyen lehetőségem grafikonokat is létrehozni
- tartalmazzon több modelltípust, amivel az adatokból az összefüggéseket ki lehet nyerni
Nagy vonalakban ennyit kell tudnia egy eszköznek, ez az, amivel már lehet hobbi illetve munka szinten is adatbányászni.
Ezeket a követelményeket több szoftver is teljesíti, három nagy cégnek van komplett megoldása ilyen feladatokra:
A fizetős szoftverek közül leginkább az IBM Modelert ismerem és tudom ajánlani: az IBM egy pár évvel ezelőtt az SPSS felvásárlásával szert tett az SPSS Clementine szoftverre (ebből lett az IBM Modeler), amit egyszerű, grafikus felületének köszönhetően nagyon könnyű használni.
A SAS rendelkezik még komoly eszközzel, ami még drágább az előzőnél, és még összetettebb, ezért elsajátítani sem olyan egyszerű a használatát, de sok jó funkcióval rendelkezik, például sokkal erősebb és okosabb grafikonokat tud létrehozni.
A harmadik versenyző az adatbázisairól híres Oracle, akinek Data Miner nevű szoftverével akár adatbányászni is lehetne, de nem ajánlott. Egyszerű kezelhetősége mellette szól, amikor utoljára dolgoztam vele, a Microsoft termékeihez hasonlóan varázsló segítségével össze lehetett benne rakni adatbányászati projekteket, de kissé körülményesnek tűnt a meglévő lépéseken változtatni, és úgy általában adatmanipulálni vele.
Ennyit a nagy és drága szoftverekről.
A válság hatására az adatbányászok is elkezdtek ingyenes mégis mindenttudó megoldásokat keresni, ennek köszönhetően egyre nagyobb tért hódít az üzleti életben is a Rapid Miner nevű szoftver. Ingyenes, mindent tud a felsoroltak közül, és aki nem tud megvenni egy drága szoftvert, az remekül kiválthatja azokat ezzel. Az egyetemi szférából indult, Németországból, és a gyors fejlesztéseknek köszönhetően ma már ez is egyszerűen elsajátítható, grafikus kezelőfelületű programmá vált. Kezdők számára csábító lehet, hogy nagyon jó help, tutorial van hozzá, és sok oktatóvideó található a youtube-on is, ha pedig kérdésed van, egy egész community áll mögötte, akik válaszolni tudnak. Előnye még, hogy ha programozói vénával rendelkezel, hogy saját építőkockákat fejleszthetsz bele, illetve építhetsz rá saját alkalmazásokat, mivel ez egy open-source szoftver. Ennek köszönhetően sok kiegészítő is található már hozzá, és még több várható a közeljövőben, mivel már béta verzióban van a Rapid Miner Marketplace, ahol egyelőre ingyenes kiegészítőket lehet letölteni, később fizetős verziók megjelentetésére is számítani lehet. A szoftver hátrányait is meg kell említeni: ezek főképp akkor jelentkeznek, ha nagyobb adatbázisokkal kezdesz dolgozni és gyenge géped van hozzá, mert szereti megenni a memóriádat. (2GB memóriával még a százezernél kevesebb rekordszámú adatbázisokat sem feltétlenül tudja kezelni.) Másik negatívuma nem konkrét hibához kapcsolódik, de többször is tapasztaltam már, hogy nem minden művelet úgy működik benne, mint azt a felhasználó elvárná, néha meglepő hibákat tud generálni. De ezen túl lehet lépni ha azt nézzük, igazából rendelkezünk egy adatbányászati szoftverrel, ingyen, ennek az ár-érték aránya tehát magasan a legjobb, ha az árnak pl. a kezelés elsajátításának idejét vesszük.
Nektek mi a véleményetek a felsorolt/fel nem sorolt adatbányászati szoftverekről?
A bejegyzés trackback címe:
Kommentek:
A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.
buGhunter · http://bamberg.blog.hu 2011.12.02. 12:14:59
RapidMinert egyszer próbáltam, tényleg elég gyorsan is bele lehet tanulni, bár pár trükkre rá kellett jönni már az elején is. A támogatottsága valóban jónak tűnik, s nekem is sikerült kapásból elég furcsa hibákat előhozni vele, szal szokni kell, meg kis fenntartással hozzáállni.
Mély tapasztalataim egyikről sincsenek.
szajberpiraty 2011.12.05. 10:16:03
A RapidMiner meg.. Csuda egy dolog. Nagyon jó az alapvető koncepciója, de nagy rekordszám mellett sok probléma jelentkezik.
A Don't get kicked feladat kapcsán próbáltam meg vele modellezgetni, és bizony nem kicsit nehézkes. Ilyen rekordszám mellett már elhúzódik a validáció, lassú a modellépítés, még egy jó gépen is.
Random forest pl. akkora hátast dob, hogy csak na.. Néha meghal alatta a Java..
Szerintem a modellező módszerek alkalmazása is nehézkes, ügyelni kell a megfelelő mezőtípusokra. Sok-sok kattintgatással jár mindez...
Modeler-hez nem volt még nem volt szerencsém, nincs belőle próbaverzió, eddig hozzáférhetetlennek bizonyult.
SAS-t nem próbáltam, Statistica-10-et is csak futólag.