Machine learning algoritmes voorspellen levensloop niet beter dan eenvoudige vergelijkingsmodellen

0

Steeds snellere computers, de almaar toenemende beschikbaarheid van data en de grote toename van experts op het gebied van data science en machine learning hebben op verschillende terreinen tot successen geleid. Met zoveel data, rekenkracht en geschoolde datawetenschappers mag je veronderstellen dat het heel goed mogelijk moet zijn om levensloop te voorspellen in een duidelijk afgebakende context, zoals bijvoorbeeld het voorspellen van het gemiddelde eindcijfer (grade point average) van kinderen. In een recent onderzoek dat is verschenen in de ‘Proceedings of the National Academy of Sciences komt een groot, internationaal team van onderzoekers evenwel tot een ontnuchterende conclusie. Dr. Louis Raes, universitair docent Economie aan Tilburg University, heeft aan dit onderzoek meegewerkt.

Meer dan honderd teams van onderzoekers uit uiteenlopende disciplines, zoals sociologie, economie, ingenieurswetenschappen, computerwetenschappen en natuurkunde, wedijverden om de beste voorspellingen te doen in een nieuwe ronde van het Amerikaanse langlopende Fragile Families and Child Wellbeing-onderzoek. En zelfs de beste voorspellingen bleken slechts marginaal beter te zijn dan voorspellingen op basis van een eenvoudig model.

De onderzoeksopzet

Een kleine groep onderzoekers verbonden aan Princeton University ontwierp een in machine learning populaire onderzoeksopzet: de methode van de gemeenschappelijke opdracht (‘common taks method’). De onderzoekers maakten gebruik van het gegeven dat data uit de meest recente ronde van het hoogwaardige, longitudinale onderzoeksproject Fragile Families and Child Wellbeing al wel was verzameld, maar nog niet openbaar toegankelijk.

Vervolgens rekruteerden ze een grote en diverse groep onderzoekers om met behulp van dezelfde data dezelfde zes (onbekende) resultaten te voorspellen. Het stond de deelnemende onderzoekers vrij elke benadering te gebruiken die zij geschikt achtten. Sommige gebruikten geavanceerde machine learning-algoritmes, andere baseerden zich op bevindingen in de omvangrijke wetenschappelijke literatuur die gebruikt maakt van deze data om voorspellende modellen te construeren. De onderzoekers konden hun voorspellingen uploaden en deze voorspellingen werden vervolgens geëvalueerd door de beheerders van de data.

Onnauwkeurige voorspellingen

De resultaten waren ontnuchterend. Zelfs de beste voorspellingen waren niet bijzonder nauwkeurig. Daarnaast geven de ingediende voorspellingen aanleiding tot de volgende observaties. In de eerste plaats gebruikten onderzoeksteams zeer uiteenlopende benaderingen om voorspellingen te doen, zowel wat betreft het verwerken van data als wat betreft statistische leertechnieken. Ondanks deze verschillen in aanpak zijn de voorspellingen echter relatief vergelijkbaar: het verschil tussen de meest afwijkende voorspellingen was kleiner dan het verschil tussen de beste voorspelling van elk resultaat en het daadwerkelijke resultaat. In de tweede plaats valt op dat alle teams sommige observaties weliswaar goed voorspellen, maar andere observaties juist erg slecht.

 Toepassing van leeralgoritmes

Dit onderzoek dwingt sociale wetenschappers tot reflectie op de vooruitgang die ze geboekt hebben: er zijn meer dan 750 onderzoeken gepubliceerd die zijn gebaseerd op de data uit het Fragile Families and Child Wellbeing-onderzoeksproject, maar het lijkt desondanks vrijwel onmogelijk nauwkeurige voorspellingen te doen op basis van dezelfde data.

In bredere zin roept dit onderzoek vragen op over het toepassen van statistische leeralgoritmes in andere contexten binnen het sociale domein. Eén vermeldenswaardige uitkomst is namelijk dat in dit onderzoek een eenvoudig vergelijkingsmodel met slechts enkele predictoren het nauwelijks slechter deed dan de beste ingediende voorspellingen en vaak zelfs beter dan veel ingediende voorspellingen. Met andere woorden, als beleidsmakers voornemens zijn voorspellende modellen in te zetten, doen zij er misschien verstandig aan te overwegen of complexe en vaak moeilijk te begrijpen modellen wel lonend zijn.

Share.

Reageer

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.

Geverifieerd door ExactMetrics