Egyre több intelligens érzékelővel felszerelt fogyasztási cikk, ipari berendezés és tevékenységünket naplózó szolgáltatás vesz körül minket, és az ezekből nyert adatok – a szinte korlátlanul rendelkezésre álló, olcsó tároló- és elemzőkapacitásoknak köszönhetően – közelebb vihetnek minket világunk megértéséhez – mutatnak rá a nemzetközi hírű adatszakemberek Big data című könyvükben. Viktor Mayer-Schönberger és Kenneth Cukier szerint az egészségügytől a banki szférán át az internetig a legkülönfélébb szektorokra érvényes az az állítás, hogy az adatok mennyisége minden képzeletet felülmúló ütemben nő.

De hogy hogyan jön ehhez a korreláció és a kauzalitás évszázados küzdelme?

És mi a baj hirtelen a kauzalitással, amikor a tudomány eddig azt hirdette, hogy vizsgálataink során mindig bizonyosodjunk meg afelől: oksági kapcsolat vagy korreláció van-e a kiinduló kérdés és az eredmények között?

Hát úgy – mutatnak rá a szerzők -, hogy az adatoknak köszönhetően a világ megértésének többé nem lesz előfeltétele, hogy már a kezdetekkor érdemi hipotézisünk legyen a jelenségekről. Azáltal, hogy a gyorsan és olcsón elvégezhető korrelációk kimutatják két dolog lehetséges kapcsolatát, lehetővé teszik a további vizsgálódást, vajon létezik-e ok-okozati összefüggés is közöttük, és ha igen, miért. Ez az olcsó és gyors szűrési mechanizmus csökkenti a kauzális elemzés speciálisan kontrollált körülmények között végzett kísérleteinek költségét.

“A kauzalitást senki nem veti majd el, de le kell döntenünk a piedesztálról, mert nem ez a dolgok értelmének elsődleges forrása. A big data felturbózza a nem kauzális elemzéseket, és gyakran fel is váltja az oksági vizsgálatokat” – írják könyvükben a szerzők. Bizonyos esetekben a jövőben is szükség lesz oksági viszonyokat feltáró tanulmányokra, és akkurátusan kiválogatott adatokkal végzett, ellenőrzött kísérletekre (például egy fontos repülőgép-alkatrész esetében), a mindennapi szükségletek jelentős részéhez azonban a miértek? helyett a mi? ismerete éppen elég lesz.

Influenzakutatás tévútra vezető hipotézisek nélkül

Ha például internetes keresési szavak segítségével akarjuk feltérképezni az influenzával fertőzött területeket, nem kell többé kidolgozott elképzeléssel rendelkeznünk arról, milyen kifejezésekre (például hogy “gyógyszer köhögésre és lázra”) keresnek rá az emberek a neten a betegség terjedése alatt. Ehelyett korrelációs elemzésnek vethetjük alá az összes rendelkezésre álló adatot, hogy megtudjuk, mely keresési lekérdezések a legjobb jelzőértékei az influenzának.

E módszerrel tudta a Google 2009-ben mindenki másnál jobban prognosztizálni a téli influenza terjedését az Egyesült Államokban, miután 50 millió népszerű keresési kifejezést összevetett a szezonális influenza 2003–2008 közötti terjedésére vonatkozó adatokkal. Korábban mások is próbálkoztak már hasonlóval, csakhogy nekik nem volt annyi adatuk és szakértelmük, mint a Google-nak. A cég rendszere magukkal a kifejezésekkel nem is foglalkozott, a program csupán összefüggéseket keresett egyes keresési lekérdezések és az influenza tér- és időbeli elterjedtsége között. Szoftverük végül 45 olyan keresőkifejezés-kombinációt talált, amely szoros összefüggést mutatott a hivatalos országos statisztikákkal, és akár valós idejű járványtérképként is használható volt.

A hipotézisek helyett adatokon alapuló megközelítés eredményei kevésbé lesznek elfogultak, ám annál pontosabbak, és hamarabb is jutunk hozzájuk. A big data korszakban ezek az újfajta elemzések új felismerések és hasznos előrejelzések új hullámát fogják elindítani, és soha nem látott összefüggésekre derül majd fény – jósolják a szerzők.

Nem új elmélet

Schönbergerék elmélete nem új, 2008-ban Chris Anderson, a Wired akkori főszerkesztője Petabájt-kor című cikkében már fellebbentette annak lehetőségét, hogy „az adatok özöne hamarosan meghaladottá teszi a tudományos módszereket”. “A tudományos felfedezés hagyományos folyamata – amely során a hipotézis alapját jelentő oksági modell felhasználásával a hipotézist a valóság próbájának vetik alá – egyre inkább átadja helyét a korrelációk minden elméleti háttértől mentes statisztikai elemzésének” – idézik a látnok Andersont a könyv szerzői. – „Ez egy olyan világ, amelyben a hatalmas adatmennyiség és az alkalmazott matematika minden mást felvált. Ha elegendő adat áll rendelkezésre, akkor a számok magukért beszélnek. A petabájtok azt mondatják velünk, hogy a korreláció épp elég.”

Anderson cikke akkor szenvedélyes vitát váltott ki, és a szerző vissza is táncolt néhány merészebb állításától, Schönbergerék szerint azonban a főszerkesztő összességében elismerést érdemel a kérdés másokat megelőző felvetéséért. “A big data (…) alapvetően átalakítja azt a szemléletet, ahogyan a világot próbáljuk megérteni. Ez a váltás szakítást jelent majd sok mindennel, és számos intézménynek kihívás lesz. Mégis, az általa képviselt óriási érték nemcsak értelmes, de egyenesen elkerülhetetlen kompromisszummá fogja tenni” – írják.

Illusztráció: BloombergBusiness

Viktor Mayer-Schönbergerrel interjút olvashattok a március közepén megjelenő Business Extrában is (tudom, mert én szerkesztettem az anyagot), amelyben a szerző a technológia árnyoldalairól, veszélyeiről is szót ejt.