Maskininlärning för studier av orsakssamband med hjälp av stora databaser

Forskarna i projektet vill utveckla maskininlärningsmetoder som gör det möjligt att studera frågeställningar gällande komplexa orsakssamband inom samhälls- och hälsovetenskap med utgångspunkt i storskaliga registerdatabaser.

Storskaliga registerdatabaser möjliggör studier av komplexa orsakssambandsmekanismer inom samhälls- och hälsovetenskap.

I ett flertal länder, inklusive Sverige, finns möjlighet att länka administrativa register med hälsoregister för forskningssyften. När sådana länkningar görs på hela befolkningar och över flera decennier, resulterar det i storskaliga registerdatabaser som innehåller miljontals individer. Data rymmer hundratusentals egenskaper, bland annat hur socio-ekonomiska villkor och hälsostatus utvecklas över tid för varje individ, men också för deras samboende, släkt, grannar och arbetskollegor. 

Forskargruppen, som studerar socioekonomiska ojämlikheter i hälsa, har tillgång till en sådan registerdatainfrastruktur. De frågeställningar som de arbetar med är av orsakssambandskaraktär. Där man, om det till exempel visar sig att överlevnaden från bröstcancer skiljer sig åt mellan olika inkomstgrupper, också vill kunna studera vilka mekanismer som leder till denna ojämlikhet.

En vetenskaplig utmaning är att klassiska statistiska metoder inte är anpassade till stora datamängder vilket kan resultera i felaktiga slutsatser. 

Genom att utveckla maskininlärningsmetoder för orsakssamband, t.ex. neurala nätverk, hoppas de uppnå liknande resultat som gjorts när man applicerat dessa metoder för prognossyfte, som exempelvis vid automatisk tumöridentifiering. 

För att undvika risken att underskatta osäkerheten i de slutliga statistiska resultaten planerar forskarna att utveckla maskininlärningsmetoder som också tar hänsyn till viktiga osäkerhetskällor i de antaganden som analysen baseras på. De kommer även att föreslå optimala skattningsmetoder, det vill säga metoder som ger de mest tillförlitliga slutsatserna.

Projektet syftar till att utveckla verktyg som bidrar till nya och mer tillförlitliga slutsatser från studier som studerar ojämlikheter men också andra komplexa orsakssamband inom samhälls- och hälsovetenskap baserade på storskaliga databaser.

Projekt:
”Machine learning to study causality with big datasets: towards methods yielding valid statistical conclusions” (”Maskininlärning för studier av orsakssamband med stora databaser: nya metoder som ger tillförlitliga statistiska slutsatser”).

Huvudsökande:
Xavier de Luna

Medsökande:
Tetiana Gorbach
Per Gustafsson

Lärosäte:
Umeå universitet

Beviljat anslag:
6 miljoner kronor