Miért indítjuk a blogot? Szeretnénk bemutatni mindenkinek az adatbányászati szakmát. Ha hétköznapi környezetben elmondjuk, hogy adatbányászként dolgozunk, általában nehéz megmagyarázni, mit is jelent ez a gyakorlatban. Ha gyorsan túl akarunk lenni a válaszon, azt mondjuk, hogy adattáblákat nézegetünk egész nap. Ha kicsit jobban szeretnénk leírni a szakmánkat, belekapunk egy-két projektbe, amivel kapcsolatba kerültünk, de ez nehezen érthető és közel sem fed le mindent.

Pedig érdemes tudni mivel is foglalkozunk, mert a Te digitális lábnyomoddal is biztosan találkoztunk már! Hogy lehet ez? Jogos a kérdés: ügyfele vagy legalább egy banknak, van mobilod, szoktál vásárolni és még internetezel is. Ezekkel pedig rengeteg információt hagysz magad után, amivel gyakran ijesztgetnek, hogy ugyan mire is lehet felhasználni… Valóban sokmindenre, mi azt tudjuk bemutatni, hogy aki nem ártó szándékkal veszi kezébe az információt, mit tud belőle mondani Rólad, illetve az információt birtokló cég (a bankod, a mobil, vagy internetszolgáltatód, a bevásárlóközpont) mire kíváncsi ebből.

Blogunkkal ismeretterjesztő funkciót szeretnénk ellátni, mert hiszünk benne, hogy az adatbányászatnak nem kell mágikus szónak lennie, amiről a hétköznapi embernek – vagy Neked – valami titokzatos, sötét szakma jut eszébe. Mint például az adathalászat, ami hasonló ugyan, és sokan keverik, de valami egészen mást jelent.

Kezdjük is talán ezzel. Mi a különbség? Az adatbányászokat az információt teljesen legálisan birtokló cégek bízzák meg azzal, hogy nagy mennyiségű adataikból valami hasznos információt hozzanak ki. Ha a banki példánál maradunk: tegyük fel, hogy bankod minden nap kíváncsi rá, hogy mennyi volt az összes fiókjának az összes napi forgalma, és hogyan fog ez várhatóan alakulni az elkövetkező napokban.  Az adathalász ezzel szemben nem legális módon (tipikusan jelszavakat megszerezve/feltörve) jut hozzá adatokhoz, hogy később visszaéljen vele – legyen ez e-mailcím vagy bankszámlaszám. A lényeg, hogy nem a saját legális adatbázisával dolgozik és visszaéléseket követ el. Ezek tehát nem mi vagyunk, mint látszik, teljesen más eszközök vannak a kezünkben és mások a céljaink is, mégis sokaknak közel áll a két fogalom egymáshoz. Bányászat és halászat tehát különbözik.

Most hogy körvonalaztuk mi az adatbányászat, ismerjük meg mélyebben is.
Nagy vonalakban mit is csinál egy adatbányász? Nagy adatbázisokból nyer ki a megrendelő számára hasznosítható információkat. Mindezt persze gépek segítségével, és legtöbbször nem első ránézésre egyértelmű információkat, hanem igénybe veszi a gép számítási erejét és az emberinél gyorsabb információfeldolgozási sebességét. Ez azt jelenti, hogy olyan programokat használunk, amelyek feldolgozzák az adatbázisokat és műveleteket tudnak végezni rajtuk, esetleg olyan intelligensek, hogy összefüggéseket is kinyernek belőle.

Egy dologról szól ezek után az adatbányász szakma: hogyan dolgozza föl az adatokat úgy, hogy abból használható információ legyen? Erről fog szólni a blog: milyen adatbázisokból, milyen kérdésekre keresik általában a cégek a választ, és milyen műveletekkel éri el azt az adatbányász, hogy hasznos választ tudjon adni a megbízó kéréseire.

Kezdjük mondjuk azzal milyen széleskörűen lehet alkalmazni az adatbányászatot.
Az adat alatt bármit érthetünk, bár előzőleg adattáblákat említettünk, az adat lehet képi információ, mozgókép, szöveg, egy honlap, de leggyakrabban adattábla, táblázat…
Hogy mennyire különböző területeken használnak adatbányászatot  jól szemlélteti az egyik honlap, ami adatbányászati versenyek kiírásával foglalkozik. A következő három egy időben futó adatbányászati feladatot találhatjuk itt:

  • Amerikai egészségügy beteg-adatai alapján (kor, nem, hányszor és milyen betegséggel volt ellátva) adjunk egy becslést arra, hogy a következő évben hány napot fog kórházban tölteni. Ez alapján az egészségügyi rendszer előre felkészíthető, megtehetik a szükséges fejlesztéseket, növelhetik/csökkenthetik az ágyszámot, stb. A cél nem mindig ismert, csak a feladat.
  • Egy másik feladat űrteleszkópok képei alapján annak becslése, mennyire elliptikus egy-egy galaxis.
  • A harmadik feladat annak a becslése, hogy egy-egy Wikipédia felhasználó aktivitása hogy fog alakulni a jövőben, hány lapot/hányszor fog szerkeszteni pár hónap múlva.


Mint látható, nagyon eltérő adatbázisfajták lehetnek a vizsgálat tárgyai, de a közös a feladatokban, hogy egy algoritmust várnak ezekre az adatokra alapozva ahhoz, hogy a kérdést megválaszoljuk. A fenti példák nem mindennaposak, nem gyakran előforduló feladatok. A gyakoribb feladatokról fogunk több szót ejteni, de néhány érdekes, ritkább projektről is szeretnénk azért szót ejteni majd.

 

huzsuzsa

Szólj hozzá!


A bejegyzés trackback címe:

https://adatmagus.blog.hu/api/trackback/id/tr63226381

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása