Az egyetemen több adatbányászati eszközzel is volt lehetőségem megismerkedni, ezekből fogok szemezgetni, megemlítve a drága, fizetős eszközöket is, de főleg arra koncentrálva, hogy mivel érdemes egy kezdő/hobbi adatbányásznak kezdenie.
Milyen követelményeket támaszthatunk egy adatbányászati szoftverrel? Szerintem amit egy szoftvernek tudnia kell, hogy önállóan adatbányászati eszköznek nevezhessük:

  • több adatbázistípusból tudjon olvasni adatot
  • lehessen az adatokat manipulálni, átalakítani, “szerkeszteni”
  • lehessen vele műveleteket végezni az adatokon, új változókat létrehozni
  • különböző adatmegjelenítők megléte sem hátrány, tehát az adatokat legyen lehetőségem grafikonokat is létrehozni
  • tartalmazzon több modelltípust, amivel az adatokból az összefüggéseket ki lehet nyerni


Nagy vonalakban ennyit kell tudnia egy eszköznek, ez az, amivel már lehet hobbi illetve munka szinten is adatbányászni.
Ezeket a követelményeket több szoftver is teljesíti, három nagy cégnek van komplett megoldása ilyen feladatokra:
A fizetős szoftverek közül leginkább az IBM Modelert ismerem és tudom ajánlani: az IBM egy pár évvel ezelőtt az SPSS felvásárlásával szert tett az SPSS Clementine szoftverre (ebből lett az IBM Modeler), amit egyszerű, grafikus felületének köszönhetően nagyon könnyű használni.
A SAS rendelkezik még komoly eszközzel, ami még drágább az előzőnél, és még összetettebb, ezért elsajátítani sem olyan egyszerű a használatát, de sok jó funkcióval rendelkezik, például sokkal erősebb és okosabb grafikonokat tud létrehozni.
A harmadik versenyző az adatbázisairól híres Oracle, akinek Data Miner nevű szoftverével akár adatbányászni is lehetne, de nem ajánlott. Egyszerű kezelhetősége mellette szól, amikor utoljára dolgoztam vele, a Microsoft termékeihez hasonlóan varázsló segítségével össze lehetett benne rakni adatbányászati projekteket, de kissé körülményesnek tűnt a meglévő lépéseken változtatni, és úgy általában adatmanipulálni vele.

Ennyit a nagy és drága szoftverekről.
A válság hatására az adatbányászok is elkezdtek ingyenes mégis mindenttudó megoldásokat keresni, ennek köszönhetően egyre nagyobb tért hódít az üzleti életben is a Rapid Miner nevű szoftver. Ingyenes, mindent tud a felsoroltak közül, és aki nem tud megvenni egy drága szoftvert, az remekül kiválthatja azokat ezzel. Az egyetemi szférából indult, Németországból, és a gyors fejlesztéseknek köszönhetően ma már ez is egyszerűen elsajátítható, grafikus kezelőfelületű programmá vált. Kezdők számára csábító lehet, hogy nagyon jó help, tutorial van hozzá, és sok oktatóvideó található a youtube-on is, ha pedig kérdésed van, egy egész community áll mögötte, akik válaszolni tudnak. Előnye még, hogy ha programozói vénával rendelkezel, hogy saját építőkockákat fejleszthetsz bele, illetve építhetsz rá saját alkalmazásokat, mivel ez egy open-source szoftver. Ennek köszönhetően sok kiegészítő is található már hozzá, és még több várható a közeljövőben, mivel már béta verzióban van a Rapid Miner Marketplace, ahol egyelőre ingyenes kiegészítőket lehet letölteni, később fizetős verziók megjelentetésére is számítani lehet. A szoftver hátrányait is meg kell említeni: ezek főképp akkor jelentkeznek, ha nagyobb adatbázisokkal kezdesz dolgozni és gyenge géped van hozzá, mert szereti megenni a memóriádat. (2GB memóriával még a százezernél kevesebb rekordszámú adatbázisokat sem feltétlenül tudja kezelni.) Másik negatívuma nem konkrét hibához kapcsolódik, de többször is tapasztaltam már, hogy nem minden művelet úgy működik benne, mint azt a felhasználó elvárná, néha meglepő hibákat tud generálni. De ezen túl lehet lépni ha azt nézzük, igazából rendelkezünk egy adatbányászati szoftverrel, ingyen, ennek az ár-érték aránya tehát magasan a legjobb, ha az árnak pl. a kezelés elsajátításának idejét vesszük.

Nektek mi a véleményetek a felsorolt/fel nem sorolt adatbányászati szoftverekről?

huzsuzsa

2 komment


A bejegyzés trackback címe:

https://adatmagus.blog.hu/api/trackback/id/tr503428549

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

buGhunter · http://bamberg.blog.hu 2011.12.02. 12:14:59

SPSS Clementine-hoz volt szerencsém, amikor még Clementine volt egy-két délután erejéig. Nagyon jó benyomásokat őrzök róla, rugalmas és kezes jószágnak tűnt.

RapidMinert egyszer próbáltam, tényleg elég gyorsan is bele lehet tanulni, bár pár trükkre rá kellett jönni már az elején is. A támogatottsága valóban jónak tűnik, s nekem is sikerült kapásból elég furcsa hibákat előhozni vele, szal szokni kell, meg kis fenntartással hozzáállni.

Mély tapasztalataim egyikről sincsenek.

szajberpiraty 2011.12.05. 10:16:03

A Clementine szerintem nagyon jól kitalált dolog, könnyű megtanulni, ha az alapokkal tisztában van az ember. Egy problémát tapasztaltam, alapból a beállított memóriaméret 256MB, és nagyobb stream-ek mentésénél bedöglik a program (illetve a Java alatta), és a stream megsérül. Nem kell ecsetelnem, hogy ez mennyire bosszantó.

A RapidMiner meg.. Csuda egy dolog. Nagyon jó az alapvető koncepciója, de nagy rekordszám mellett sok probléma jelentkezik.

A Don't get kicked feladat kapcsán próbáltam meg vele modellezgetni, és bizony nem kicsit nehézkes. Ilyen rekordszám mellett már elhúzódik a validáció, lassú a modellépítés, még egy jó gépen is.

Random forest pl. akkora hátast dob, hogy csak na.. Néha meghal alatta a Java..
Szerintem a modellező módszerek alkalmazása is nehézkes, ügyelni kell a megfelelő mezőtípusokra. Sok-sok kattintgatással jár mindez...

Modeler-hez nem volt még nem volt szerencsém, nincs belőle próbaverzió, eddig hozzáférhetetlennek bizonyult.

SAS-t nem próbáltam, Statistica-10-et is csak futólag.
süti beállítások módosítása