Az első posztban szó esett adatbányászati versenyekről, de nem említettem többször ezt a témát, pedig érdemes neki posztot szentelni. Az egyik legfelkapottabb startup mostanában a Kaggle csapata. A kaggle.com adatbányászati versenyek szervezésével foglalkozik. Maga az üzleti modell is érdekes, a megrendelő biztosítja a feladatkiírást, az adatbázisokat, a kaggle honlapján regisztrált (akár hobbi-) adatbányászok pedig csatlakozhatnak a versenyekhez és beküldhetik az általuk kapott eredményeket, amelyek kiértékelésre kerülnek.

Egy versenyfeladatról írnék most, bár a verseny még nem fejeződött be, és egyelőre eredményesnek sem mondanám magam a mezőnyben, mégis alkalmas arra, hogy mélyebben belemenjek, milyen általában egy adatbányászati projekt.

A verseny a “Don’t Get Kicked” elnevezést kapta, a célja, hogy aukciókon értékesített autókról hogyan lehet biztosabban eldönteni, hogy rossz vétel. Az autókereskedők néha aukciókon vásárolnak autókat, amik között előfordul, hogy később nem tudják valami hibája miatt eladni (rejtett hiba, visszapörgetett km-óra, stb.) A rendelkezésre álló változók az autó jellemzői (márka, modell, kor, futásteljesítmény, felszereltségi osztály...) és az aukció jellemzői, azaz hogy ki vette meg, melyik aukciós ház értékesítette, mennyiért, mikor, online aukció volt-e... Ezen kívül olyan árak állnak még rendelkezésre, hogy hivatalosan aukción vagy a kereskedésben mennyire becsülik hivatalos szakértők az autó árát.
Ahhoz, hogy a teszt-adatbázisban lévő autókra meg tudjuk mondani, hogy mekkora valószínűséggel nem lehet majd tovább-értékesíteni hiba miatt (rossz vétel), érdemes az adatokat transzformálni, új változókat bevezetni.


Ahhoz például, hogy megállapítsuk, hogy a km-óra manipulálták-e, érdemes kiszámolni az átlagos futtott km-t évente. A feltűnően alacsony értékek nagyobb valószínűséggel babráltak. Ha ezt nem tartjuk elegendőnek, akkor azt is megnézhetjük, hogy kategóriájában alacsonynak vagy magasnak számít-e az adott futásteljesítmény (kis autókba jellemzően kevesebb km-t tesznek évente).
Ilyen és ehhez hasonló előfeltevések alapján készíthetünk új változókat, amik növelhetik a modell-teljesítményt.


Az adattranszformációra egy példa a rosszul feltöltött értékek cseréje (a mező tartalmazza ugyanazt az értéket kis és nagybetűsen is); vagy a hiányzó értékek feltöltése. Ez utóbbinak egy érdekes megvalósítása, ha már a hiányzó értéket is egy modell segítségével határozzuk meg. Az említett autós adatbázisban sok helyen hiányos az árbecslés, így ezt a rendelkezésre álló változók alapján egy modell segítségével akár mi is megbecsülhetjük. Az első modelljeimet ilyen feltevések mellett építettem, mint írtam, jó eredményről nem tudok még beszámolni (középmezőnyből csúszok lefelé), de ha lesz szabadidőm, akkor kísérletezek kicsit a modellekkel, és megírom, mire jutottam. :)

A következő posztban még lesz szó arról, milyen eszközöket lehet használni hobbi-adatbányászként a feladat megoldására, és milyen egyéb feladatok lehetnek még az adatokkal.

huzsuzsa

1 komment


A bejegyzés trackback címe:

https://adatmagus.blog.hu/api/trackback/id/tr433401656

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

szajberpiraty 2011.12.05. 10:03:50

Én is részt veszek ezen a versenyen, érdekes! Az biztos, hogy a hiányzó értékek pótlására jó ez a feladat (Trim mező értékeinek pótlása szép feladat).

razgon néven ma a 225-ik helyen vagyok. Talán egy kezdőtől nem rossz... már így is rengeteget tanultam.
süti beállítások módosítása