Tags


Blog overzicht

Items met tag datakwaliteit.

Blog

Invoer met tag datakwaliteit.

Truth or Truthiness in Onderzoek

Truth or truthiness?

Deze blog schreef ik oorspronkelijk voor het septembernummer van het bladDidactief  onder de titel “Waar of waarheidsachtig” waar ik tweemaandelijks iets schrijf over m.i. spraakmakend wetenschappelijk onderzoek en wat de betekenis daarvan is in/voor het onderwijs. Deze is iets uitgebreider dan wat in Didactief verscheen.

Is een onderzoek betrouwbaar of lijkt het alleen zo? Stephen Colbert – Amerikaanse komiek – bedacht het mooie woord ‘truthiness’, dat in het Nederlands nauwelijks in een woord te vangen is, maar zoiets betekent als: iets dat aannemelijk klinkt en waar mensen aan vast willen houden zonder rekening te (willen) houden met feiten, logica of ander tegensprekend bewijs. Dit ‘waarheidsachtig’ is heel iets anders dan ‘trustworthy’ (betrouwbaar). Ik constateer, helaas dat de conclusies die wetenschappers trekken uit hun onderzoek – en soms het onderzoek zelf – eerder waarheidsachtig dan betrouwbaar zijn.

In zijn artikel ‘Een voorstel voor het beoordelen of onderzoeksresultaten betrouwbaar zijn’ vertelt Stephen Gorard op welke punten je kunt letten om te bepalen of een onderzoek betrouwbaar is. “Simpel gezegd, een slecht beschreven onderzoek is niet te vertrouwen.” Vaak wordt onderzoek aangegrepen als bewijs dat iets ingevoerd kan of moet worden. Maar dan moet je wel zeker weten dat het onderzoek te vertrouwen is. Om dat te doen moet je kijken naar:

Ontwerp: Je moet erop aan kunnen  dat wat de onderzoeker deed de uitkomst heeft veroorzaakt. Ofwel of er sprake is van causaliteit: een directe oorzaak-gevolg relatie tussen wat uitgeprobeerd werd en het resultaat daarvan. Aan verbanden (correlaties) heb je weinig. Ongeveer alle moordenaars hebben melk gedronken toen zij kind waren (100% correlatie), maar je kan echt niet concluderen dat als je melk drinkt je later een moordenaar wordt. De ‘gouden standaard is onderzoek waar de deelnemers willekeurig in groepen geplaatst worden en waar alles in de groepen hetzelfde is behalve de interventie (wij noemen dit gerandomiseerd onderzoek met controlegroep; Engels: Randomized Controlled Trial). Dat is het beste omdat je dan weet dat zaken als voorkeur van de docent, geslacht, motivatie om iets te doen of wat dan ook misschien de echte reden is dat iets heeft gewerkt.

Schaal: In het algemeen geldt: Hoe meer deelnemers, hoe betrouwbaarder. Als een onderzoeker op basis van een studie met 10 deelnemers (N=10) beweert dat haar/zijn ingreep de oorzaak is van een geweldige uitkomst moet je echt achter je oor krabben. En let op: een studie die 30 scholen (waar 9.000 leerlingen zitten) in twee groepen verdeeld heeft, waar de scores van alle leerlingen verzameld en vergeleken worden, is een studie met een N van 30 en niet van 9.000. Want niet de scores van de leerlingen worden vergeleken, maar de gemiddelden van de scholen, met bijvoorbeeld als conclusie dat  scholen die de lessenreeks invoerden significant hoger scoorden op de Cito-toets dan de scholen die de oude aanpak gebruikten.

Uitval: Vertelt de onderzoeker ook hoeveel deelnemers over bleven? Het aantal uitvallers en de verdeling daarvan over groepen kan behoorlijke gevolgen hebben voor de conclusies die je kan/mag trekken. Bijvoorbeeld, als er veel uitval is in de ‘ingreepgroep’ kan het betekenen dat alleen de zeer gemotiveerde leerlingen overbleven en zegt het onderzoek dus niets over hoe het in jouw klas zal werken.

Datakwaliteit: De data moeten natuurlijk, zonder meer betrouwbaar zijn. Daarnaast, moeten (1) de metingen herhaalbaar zijn en (2) als verschillende mensen iets meten/beoordelen zij het allemaal op dezelfde wijze doen. Wij vakidioten noemen punt 1 validiteit (de mate waarin een test meet wat hij zou moeten meten). Als een onderzoeker zegt dat iets geleerd is, moet het niet zo zijn – zoals ik heel vaak zie – dat dit op basis is van wat leerlingen zeggen/menen geleerd te hebben. Vaak zijn het de onderzoekers zelf die leerlinggedrag of gemaakte schrijfopdrachten beoordelen. Probleem is dat zij meestal niet onbevooroordeeld zijn en dus mogelijk zien en beoordelen wat zij willen zien

Tot slot noemt Gorard een aantal bedreigingen waarvan de sterkste zijn dat de mensen die beoordelen (1) niet onafhankelijk zijn (bijv. de onderzoeker zelf is een beoordelaar) en (2) weten van welke groep waar de te beoordelen opdracht vandaan kwam (dus ze zijn niet ‘blind’ voor de interventie).

Om de lezer te helpen heeft Gorard een ‘zeef’ gemaakt met zes categorieën (ontwerp, schaal, uitval, uitkomsten, nauwkeurigheid, geldigheid) om de betrouwbaarheid van een onderzoek goed in te schatten, elk met vijf niveaus van kwaliteit (van 0 sterren naar 4 sterren). De betrouwbaarheid van een onderzoek wordt bepaald door de laagste beoordeling in een kolom.

Ontwerp
Schaal
Uitval
Uitkomsten
Nauwkeurigheid
Geldigheid
Score
Eerlijk
Groot
Geen of nauwelijks
Vooraf bepaald, gestandaardiseerd, onafhankelijk
Interventie duidelijk, gelijke behandeling
Geen andere bedreigingen
4∗
Gebalanceerd
Gemiddeld
Een beetje e/o gelijk per groep
Vooraf bepaald maar niet gestandaardiseerd en/of niet onafhankelijk
Interventie duidelijk, onbedoelde ongelijkheid
Weinig andere bedreigingen
3∗
Gematcht
Klein
Gematigd e/o ongelijk
Niet vooraf bepaald maar toch valide
Interventie niet duidelijk, ongelijke behandeling
Bewijs van bedreigingen
2∗
Niet goed vergelijkbaar
Zeer klein
Veel e/o zeer ongelijk
Problemen met validiteit of geschiktheid
Slecht beschreven interventie
Veel bewijs voor bedreigingen
1∗
Geen info
Triviaal of niet gemeld
Niet gemeld of te veel
Zwakke metingen, teveel uitkomsten of lage betrouwbaarheid
Interventie niet of nauwelijks beschreven
Geen rekening met bedreigingen
0∗

Omdat in deze zeef, hoe betrouwbaar een onderzoek is wordt bepaald door de laagste beoordeling in een kolom, een studie die eerlijk en grootschalig is met nauwelijks uitval en gestandaardiseerde uitkomsten maar waar de ingreep onduidelijk beschreven is of waar de behandeling ongelijk is (bijv. de groep die de ingreep kreeg studeerde tweemaal zo lang als de controle) krijgt alleen een 2∗.

Probeer dit zelf de volgende keer dat je een artikel of verslag leest!

Gorard, S. (2014) A proposal for judging the trustworthiness of research findings.Radical Statistics, 110, 47-60. http://www.radstats.org.uk/no110/Gorard110.pdf

Volg mij ook op Twitter: @P_A_Kirschner

1 resultaat getoond.