A napokban volt szerencsém (számomra) nem tipikus adatokhoz hozzájutni és szó szerint játszani vele. Végre egy igazán belemerülős, határaimat feszegetős probléma került a kezembe, így öröm volt a munka. Ennek kapcsán gondolkodtam el rajta, hogy nem véletlen, hogy mostanában sokan emlegetik a hagyományos adatbányászat halálát, és egyre inkább terjed a hálózat, szöveg-, hangbányászat. Nem véletlen, mert sokkal érdekesebb, látványosabb és ugyanezért eladható is, hiszen a vezetők is szeretnek játszani.
Visszatérve a kezdő felütéshez, amihez most hozzájutottam adat, az egy 3D pontfelhő volt, azaz xyz koordinátákat, és némi egyéb információt kaptam egy nagyobb objektum felszínének pontjairól. Így, hogy hasonló adatbázishoz még nem volt szerencsém, keresnem kellett egy adatbányászati eszközt az általam ismertek közül, amivel egyáltalán meg lehet jeleníteni a 3D képet valahogyan. Általában a lassúsága miatt nem szeretem a Rapid Minert nagy adatbázisokkal használni, de most mégis adtam neki egy esélyt, és most nem csalódtam benne.
10%-os véletlen mintát véve az adatbázisból, és bizonyos részletet kivágva a létrejött 3D képet még forgatni, színezni is tudtam a megjelenítőjében, és mivel adatot is lehet vele transzformálni, így egyszerűen át tudtam forgatni a kapott objektumokat a normál koordinátarendszerbe. Azért kellett kifejezetten adatbányászati szoftvert keresni a megjelenítéshez, mert következő jó játék klaszterezők kipróbálása volt, amihez szintén kevés szerencsém volt még a gyakorlatban. Általában nem megfogható dolgokat kell klaszterezni, mint például ügyfeleket, ahol nehéz eldönteni, hogy a klaszterezés jó vagy sem. Itt ez másképp volt, a klaszterezés eredménye jól megjeleníthető, és eldönthető, hogy tényleg egy objektumhoz tartozik-e. Több objektumom is volt a pontfelhőben, a megjelenítőn szépen el is különültek ezek, szabad szemmel szépen szét lehetett választani az objektumokat. A klaszterezés ennek ellenére nem bizonyult túl jó megoldásnak, akárhány modellt próbáltam is ki. Azok a modellek boldogultak valahogy, amik paraméterként várják, hogy hány objektumot kell megtalálniuk, de ez, amennyiben automatikusan akarunk objektumokat elkülöníteni a térben, nem igazán jó megoldás. A klaszterezés alapú megoldás tehát nem biztos, hogy jó ebben az esetben, valószínűleg más megközelítés kell majd hozzá a képfeldolgozás világából.
Az adatokat egyelőre próbaként kaptuk, de remélem lesz folytatás, mert élmény volt ilyen adatokkal dolgozni.
A bejegyzés trackback címe:
Kommentek:
A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.