De Big Data Revolutie – Viktor Mayer-Schönberger & Kenneth Cukier

14/07/2014 - De Big Data Revolutie – Viktor Mayer-Schönberger & Kenneth Cukier

Vergeet representatieve steekproeven en statistisch onderbouwd onderzoek. Gooi standaarddeviaties overboord. Big Data gaat wetenschap en marktonderzoek grondig op hun kop zetten. EMA en FAGG mogen beginnen nadenken hoe klinisch onderzoek, risico management en markt autorisaties eruit moeten gaan zien wanneer we de effecten van medicatie kunnen opvolgen op basis van “n = alles”.

Wetenschap uit een oceaan van data
We beleven in de loop van dit decennium een omwenteling van dezelfde orde als bij het begin van de boekdrukkunst. Kennis zat niet langer weggestopt in manuscripten, maar kon worden gedeeld en vermenigvuldigd door iedereen die boeken kon kopen en lezen.

We staan aan het begin van een tijdperk waar nieuwe kennis en inzichten kunnen worden geput uit de oceaan van informatie die we digitaal verzamelen. Deze overgang zal veel sneller en explosiever verlopen. Big Data zet de wetenschap op zijn kop en dit boek bereid je voor op wat ons te wachten staat.

Vergeet propere statistiek
Drie nieuwe concepten vervangen vertrouwde denkpatronen:

Digitaal is het vandaag makkelijker alle beschikbare data in een analyse te stoppen dan “at random” een representatieve steekproef samen te stellen. Details die een steekproef verdoezelde, komen boven water.
(Zeldzame nevenwerkingen die klassiek klinisch onderzoek niet tijdig zichtbaar maakten, komen door een analyse van de patiëntendossiers van alle gebruikers meteen aan het licht).
Doe geen moeite om alle storende invloeden weg te filteren uit de gegevens. Zoals in het echte leven, is de realiteit rommelig. Combineer gerust gegevens uit diverse bronnen en maak ze zelfs bewust iets minder scherp. In grote hoeveelheden gegevens herkennen geschikte algoritmes even goed relevante patronen.
(Google Maps kan je niet vertellen hoeveel wagens er in een file staan, maar toont je wel permanent waar het verkeer stroomt of stremt).
Zoek niet langer causale verbanden; zoek alleen correlaties die feiten zichtbaar maken of voorspellen.
(De permanente analyse van honderden - niet gerelateerde - zoektermen voorspelt beter en sneller waar de griep toeslaat dan een peilnetwerk van artsen).

Flou maar toch accuraat
Dit is geen technisch of wetenschappelijk boek. De eerste vijf hoofdstukken vragen je de gevestigde regels los te laten, maar bieden je in de plaats nauwelijks inzicht hoe Big Data de waarheid precies boven water haalt. Veel voorbeelden, maar weinig informatie hoe het werkt. Het lijkt er even op alsof het volstaat een berg data in een Black Box te stoppen en aan de andere kant rollen de correlaties en voorspellingen er vanzelf uit. Uiteraard is niets minder waar.

Dataficatie en waardeverdeling
Big Data heeft toegang nodig tot zoveel mogelijk gegevens, uit diverse bronnen. Die moeten “verteerbaar” worden gemaakt (“dataficatie”) voor de machines met veel rekenkracht en complexe algoritmes. Toch is de output vaak opvallend eenvoudig.

(Tienduizenden lussen in alle wegen registreren dag en nacht verkeersstromen; die metingen worden in real time verwerkt en vertaald naar een kaartje op je smartphone met groene, oranje, rode of zwarte wegen, al naar gelang het verkeer rijdt of stilstaat).

Big Data werkt met complete real life data. Gegevens zijn dus een waardevolle grondstof geworden. Producenten van data, verwerkers en klanten zoeken nieuwe business modellen. Het boek geeft voorbeelden hoe die – bewust of onbewust – gegenereerd en gebruikt worden om waarde te creëren. Het potentieel van deze (nieuwe) bedrijfstak lijkt nog grotendeels onontgonnen te zijn, hoewel de Google’s, Facebook’s, Twitter’s en Apple’s van deze wereld er hun tanden al flink in hebben gezet. De auteurs voorspellen dat alleen de allergrootsten en allerkleinsten er geld aan kunnen verdienen.

Straffen op basis van neigingen, in plaats van feiten
In de tweede helft van het boek wordt het pas echt boeiend, want dan worden de opportuniteiten en bedreigingen uit de doeken gedaan.

Het patroon van je gedragingen laat toe te voorspellen wat je verder nog gaat doen. Concrete voorbeelden tonen het potentieel op vlak van verkoop en veiligheidspreventie. Daarbij komen de morele en juridische grenzen snel in zicht. Kan je iemand veroordelen (of de vrijheid ontzeggen) omwille van een voorspeld (maar nog niet gesteld) feit of gedrag ? Het wordt een interessant maatschappelijk, juridisch en ethisch debat.

(Kan je op basis van ‘voorspelde’ ongezonde leefgewoonten iemand de terugbetaling weigeren van een dure therapie? Of zou je dat kunnen doen op basis van vastgestelde therapieontrouw?)

Op korte termijn in de gezondheidszorg
Big Data veronderstelt grote hoeveelheden gegevens. In andere sectoren produceren en (her)gebruiken we die al massaal. Ziekenfondsen beschikken vandaag ook al over bergen digitale terugbetalingsdata, maar we doen er nauwelijks iets mee.

De VS en UK beschikken inmiddels over nieuwe wetgevingen en instellingen, met de verplichting overheidsdata veilig en zinvol openbaar ter beschikking te stellen.

(Het boek beschrijft een studie waarin correlaties werden aangetoond tussen heropname in ziekenhuizen en gekende medische problemen, maar ook niet voor de hand liggende risicofactoren, zoals ‘depressie’ van de patiënt).

Privacy
Uitwisseling van gegevens op het eHealth Platform gebeurt vandaag binnen het zorgteam op basis van de informed consent van de patiënt. In de Big Data wereld van morgen heeft privacy beschermen op basis van de individuele toestemming voor een vooraf vastgelegde finaliteit weinig zin. De auteurs pleiten voor meer en vrijer (her)gebruik van gegevens, maar wel op basis van het efficiënt bewaken van aansprakelijkheid bij problemen of schending van de privacy. Het concept van ‘differentiële privacy’ (d.i. gebruik mits ‘vervaging’ van gegevens) is het overwegen waard.

(Hiermee wordt het ontsluiten van medische gegevens ook beter haalbaar; herbekijk het schema in vorige blog :“Big Data in Vier Assen”)

Nieuwe beroepen tekenen zich af.

‘Gegevensmakelaars’ verbinden de belangen van de producenten van gegevens (ook individuen!) met de logistieke vereisten van de verwerkers en de meerwaarde die eindgebruikers eventueel willen betalen.
‘Interne Algoritmisten’ ontwikkelen binnen bedrijven nieuwe knowhow om bergen gegevens te ontsluiten.
‘Expert Algoritmisten’ treden op als onafhankelijke trusted third party om toezicht te houden en de black box van algoritmes desgevallend open te breken.

Illegale woonsplitsing in New York
Het mooiste en meest verhelderende verhaal wordt in “De Big Data Revolutie” opgespaard tot het laatste hoofdstuk. In New York worden appartementen soms illegaal in kleinere units opgedeeld om het huurinkomen te vergroten: meer risico op brand of ongevallen en handenvol gemiste belastingen. Stapsgewijs wordt uitgelegd hoe de inspectiedienst een algoritme ontwikkelde dat haarscherp aanwijst waar men best gaan controleren. Dat gebeurde op basis van tientallen gegevensbronnen, maar ook rekening houdend met de pragmatische aanpak en terreinkennis van de inspecteurs.

Ook voor geneesmiddelen ?
Kan Big Data ook bij klinisch onderzoek en geneesmiddelenontwikkeling worden ingezet? Het antwoord lijkt volmondig “ja”, indien we kunnen afstappen van de klassieke regels en paradigma’s van het huidig klinisch onderzoek.

Correlaties zoeken op basis van “n = alles” volgt een heel andere weg om feiten en voorspellingen aan het licht te brengen.

Het gaat raar aandoen en misschien (heel?) lang duren voor de overheid statistiek, steekproeven en het zoeken naar mathematisch aangetoonde oorzakelijke verbanden zal loslaten.

Na het lezen van dit boek realiseert men zich dat een groot deel van het klassiek onderzoek voor de bijl zal gaan. Bij die revolutie hebben we – net als bij de overstap van manuscript naar gedrukt boek – meer te winnen dan te verliezen.

Dirk Broeckx – 14 juli 2014

REAGEER

Een mooi voorbeeld van de overheid die aanspoort haar eigen Big Data beter te hergebruiken:

HHS Holds Behavioral Health Data Visualization Challenge (Notice pub. 21/7/2014)
The Department of Health and Human Services is seeking ways to make behavioral health data easier to understand and use.

HHS is sponsoring a new challenge for software developers, public health experts and others to analyze, organize and visualize behavioral health risk data, with cash prizes totaling $15,000. The challenge runs from July 28-October 28.

Called VizRisk, the goal is to “foster increased utilization, innovation, and critical analyses of publically available but underutilized government health data to better inform personal and health policy decisions,” according to a July 21 Federal Register notice. “We will be asking participants to use CDC’s Behavioral Risk Factor Surveillance System data in combination with other publicly available government data sets to reveal key insights, trends, and relationships.”

Submissions must be graphic, dynamic visualizations that combine three or more variables (e.g. showing the relationship between behavioral patterns, health risks, and medical costs). Participants are free to use any pre-existing, customized, or new tools to produce these visualizations. More information is available here.

‹‹‹Back

TRAININGS