Egyre több intelligens érzékelővel felszerelt fogyasztási cikk, ipari berendezés és tevékenységnaplózó szolgáltatás vesz körül minket, és az ezekből nyert adatok közelebb vihetnek minket világunk megértéséhez – mutatnak rá a nemzetközi hírű adatszakemberek Big data című könyvükben. Viktor Mayer-Schönberger és Kenneth Cukier szerint az egészségügytől a banki szférán át az internetig a legkülönfélébb szektorokra érvényes az az állítás, hogy az adatok mennyisége minden képzeletet felülmúló ütemben nő.
De hogy hogyan jön ehhez a korreláció és a kauzalitás évszázados küzdelme?
És mi a baj hirtelen a kauzalitással, amikor a tudomány eddig azt hirdette, hogy vizsgálataink során mindig bizonyosodjunk meg afelől: oksági kapcsolat vagy korreláció van-e a kiinduló kérdés és az eredmények között?
A szerzők szerint az adatoknak köszönhetően a világ megértésének többé nem lesz előfeltétele, hogy már a kezdetekkor érdemi hipotézisünk legyen a jelenségekről. Azáltal, hogy a gyorsan és olcsón elvégezhető korrelációk kimutatják két dolog lehetséges kapcsolatát, lehetővé teszik a további vizsgálódást, vajon létezik-e ok-okozati összefüggés is közöttük, és ha igen, miért. Ez az olcsó és gyors szűrési mechanizmus csökkenti a kauzális elemzés kontrollált körülmények között végzett kísérleteinek költségét.
“A kauzalitást senki nem veti majd el, de le kell döntenünk a piedesztálról, mert nem ez a dolgok értelmének elsődleges forrása. A big data felturbózza a nem kauzális elemzéseket, és gyakran fel is váltja az oksági vizsgálatokat” – írják könyvükben a szerzők. Szerintük bizonyos esetekben a jövőben is szükség lesz oksági viszonyokat feltáró tanulmányokra, és akkurátusan kiválogatott adatokkal végzett, ellenőrzött kísérletekre (például egy fontos repülőgép-alkatrész esetében), a mindennapi szükségletek jelentős részéhez azonban a miértek? helyett a mi? ismerete éppen elég lesz.
Influenzakutatás tévútra vezető hipotézisek nélkül
Ha például internetes keresési szavak segítségével akarjuk feltérképezni az influenzával fertőzött területeket, nem kell többé kidolgozott elképzeléssel rendelkeznünk arról, milyen kifejezésekre (például hogy “gyógyszer köhögésre és lázra”) keresnek rá az emberek a neten a betegség terjedése alatt. Ehelyett korrelációs elemzésnek vethetjük alá az összes rendelkezésre álló adatot, hogy megtudjuk, mely keresési lekérdezések a legjobb jelzőértékei az influenzának.
E módszerrel tudta a Google 2009-ben mindenki másnál jobban prognosztizálni a téli influenza terjedését az Egyesült Államokban, miután 50 millió népszerű keresési kifejezést összevetett a szezonális influenza 2003–2008 közötti terjedésére vonatkozó adatokkal. Korábban mások is próbálkoztak már hasonlóval, csakhogy nekik nem volt annyi adatuk és szakértelmük, mint a Google-nak. A cég rendszere magukkal a kifejezésekkel nem is foglalkozott, a program csupán összefüggéseket keresett egyes keresési lekérdezések és az influenza tér- és időbeli elterjedtsége között. Szoftverük végül 45 olyan keresőkifejezés-kombinációt talált, amely szoros összefüggést mutatott a hivatalos országos statisztikákkal, és akár valós idejű járványtérképként is használható volt.
A hipotézisek helyett adatokon alapuló megközelítés eredményei kevésbé lesznek elfogultak, ám annál pontosabbak, és hamarabb is jutunk hozzájuk. A big data korszakban ezek az újfajta elemzések új felismerések és hasznos előrejelzések új hullámát fogják elindítani, és soha nem látott összefüggésekre derül majd fény – jósolják a szerzők.
Nem új elmélet
Schönbergerék elmélete nem új, 2008-ban Chris Anderson, a Wired akkori főszerkesztője Petabájt-kor című cikkében már fellebbentette annak lehetőségét, hogy „az adatok özöne hamarosan meghaladottá teszi a tudományos módszereket”. “A tudományos felfedezés hagyományos folyamata – amely során a hipotézis alapját jelentő oksági modell felhasználásával a hipotézist a valóság próbájának vetik alá – egyre inkább átadja helyét a korrelációk minden elméleti háttértől mentes statisztikai elemzésének” – idézik a látnok Andersont a könyv szerzői. – „Ez egy olyan világ, amelyben a hatalmas adatmennyiség és az alkalmazott matematika minden mást felvált. Ha elegendő adat áll rendelkezésre, akkor a számok magukért beszélnek. A petabájtok azt mondatják velünk, hogy a korreláció épp elég.”
Anderson cikke akkor szenvedélyes vitát váltott ki, és a szerző vissza is táncolt néhány merészebb állításától, Schönbergerék szerint azonban a főszerkesztő összességében elismerést érdemel a kérdés másokat megelőző felvetéséért. “A big data (…) alapvetően átalakítja azt a szemléletet, ahogyan a világot próbáljuk megérteni. Ez a váltás szakítást jelent majd sok mindennel, és számos intézménynek kihívás lesz. Mégis, az általa képviselt óriási érték nemcsak értelmes, de egyenesen elkerülhetetlen kompromisszummá fogja tenni” – írják.
Illusztráció: BloombergBusiness
Ha tetszett a cikk, csatlakozz te is az Urbanlegends.hu-t támogató közösséghez! Tudj meg többet itt!
Kutya legyek, ha értem. Mármint azt értem, hogy a korreláció-elemzés micsoda, meg azt is, hogy ez miért lehet gyors és olcsó módszer. Én azt nem értem, hogy miért lenne ez szenzáció. Meg nem látom azt , hogy miért állna harcban egymással a korreláció és a kazualitás. PL. az influenzás példa is elég sánta. A kutatóknak valójában volt előfeltevésük: a keresőszavak valamelyike korrelál az influenza elterjedésével. Persze ez olyan triviális feltevés, hogy nem kellett fáradozni ennek bizonyításával, biztosra mentek.
Akkor nem csak én nézek furcsán. A hipotézisvizsgálat pont ugyanúgy matematikai (statisztikai) eszközökkel történik, mint teszem azt a korreláció meghatározása, ezáltal nem lehet elfogult.
talán érdemes lenne ezt megkukkolni: x-z-y aztán beszélni az irányokról.