Il ciarlatano venditore di antidoti zu Jochen Ebmeiers Realien aus FAZ.NET, 1.02.2021
Wissenschaft oder Fiktion?
Vielen ökonomischen Forschungsergebnissen fehlt die Replizierbarkeit.
Das ist ein Problem. Doch es gibt Grund zu vorsichtigem Optimismus. Ein
Gastbeitrag.
Das
neue Buch „Science Fictions“ des schottischen Psychologen Stuart
Ritchie vom King’s College London zeichnet ein düsteres Bild der
Wissenschaft. Es ist eine Polemik, doch auch Ökonomen sollten es ernst
nehmen. Denn es liefert nicht nur viel Evidenz für systemati-sche
Irrtümer in der Wissenschaft, sondern es beschreibt auch treffend die
dahinter liegen-den Anreizprobleme im System, die auch in den
Wirtschaftswissenschaften wirken.
Ritchie stellt gleich zu
Beginn klar, dass er antritt, „um die Wissenschaft zu lobpreisen, nicht
um sie zu beerdigen“. Das ist wichtig in Zeiten, da konsolidierte
wissenschaftliche Erkennt-nisse die Politik zu Recht leiten und zugleich
von Leuten mit einer gefährlichen politischen Agenda angezweifelt
werden. In Ritchies Kritik geht es eigentlich um eben dieses Wort
„konsolidiert“. Denn ein empirisches Ergebnis gilt nur dann als
konsolidiert und nicht zufällig ausgelöst, wenn es replizierbar ist. Es
darf also nicht nur einmalig zu beobachten sein, sondern muss in
mehreren Studien und unter unterschiedlichen Rahmenbedingungen
nachgewiesen werden können. Werden politische Entscheidungen auf nicht
replizierbaren Forschungsergebnissen basiert, laufen diese in die Irre.
Das kostet Steuergelder oder, noch schlimmer, Menschenleben.
Ritchie setzt
bei der Beobachtung an, dass die Replizierbarkeit einflussreicher
wissenschaft-licher Ergebnisse erschreckend gering ist. Unter Fachleuten
ist das bekannt. Kritiker werfen ihm vor, er spiele mit Blick auf
Klimaskeptiker mit dem Feuer. Das ist kurzsichtig, denn der anthropogene
Klimawandel ist eben genau das, was laut Ritchie große andere Teile der
em-pirischen Wissenschaft nicht sind: konsolidiert. Wie groß die in
„Science Fictions“ geschil-derten Probleme disziplinübergreifend wirklich
sind, ist offen. Doch gerade in den Wirt-schaftswissenschaften zeichnet
sich eine Replikationskrise deutlich ab.
Datenverfügbarkeit enorm gewachsen
Das Buch ist eine wortgewandte, teilweise
ins Sarkastische abdriftende, doch stets analyti-sche Beschreibung des
Wissenschaftsprozesses. Die Vergabe von Forschungsmitteln und
wissenschaftlichen Posten, der Publikationsprozess mitsamt „Peer
Review“, aber auch die Wissenschaftskommunikation werden schonungslos
beschrieben als das, was sie sind: ein von Menschen gemachtes und
deshalb fehleranfälliges System. Die Wissenschaft ist ein soziales
Konstrukt – und so spielen die Menschen und ihre Eitelkeiten, ihr
Überlebens- und Aufstiegswille, ihre Hybris und ihre Beziehungen
zueinander eine wichtige Rolle. Dies mit-zudenken ist angesichts eines
wachsenden gesellschaftlichen Einflusses der Wissenschaft wichtiger denn
je.
Die
Wirtschaftswissenschaften sind in den letzten Jahrzehnten immer
empirischer, also da-tenbasierter geworden. Empirische Ergebnisse werden
medial oft als Fakten interpretiert und auch von Wissenschaftlern selbst
als solche präsentiert. Tatsächlich entspringen sie aber dem oben
geschilderten sozialen Konstrukt, das sie viel fehleranfälliger macht
als meist dargestellt. Diese Fehler passieren systematisch. Weil
Menschen, so auch Forschende, Spek-takuläres gegenüber dem
Unspektakulären bevorzugen. Untersuche ich beispielsweise die
Auswirkungen von Luftverschmutzung
auf Atemwegserkrankungen, so ist es interessanter, einen Effekt zu
finden, als ihn nicht zu finden. Über das sogenannte „p-hacking“ und den
„Publication Bias“ führt diese Suche nach dem Spektakulären zu
systematischen Verzer-rungen. Publication Bias und p-hacking führen, kurz
gesagt, dazu, dass die statistischen Methoden, auf die die quantitative
Forschung so stolz ist, ad absurdum geführt werden. Um das zu
verstehen, müssen wir die empirische Arbeit und den Publikationsprozess
etwas genauer betrachten.
Die
Datenverfügbarkeit ist über die letzten Jahrzehnte enorm gewachsen.
Nicht nur durch Big Data bei Google und Amazon, sondern auch in
sozioökonomischen Datensätzen von nie dagewesenem Ausmaß. Das ist
deshalb wichtig, weil statistische Methoden einen Zu-sammenhang, den man
in solchen Datensätzen findet, nur mit einer gewissen Wahrschein-lichkeit
sichern. Das heißt, es gibt immer eine Restwahrscheinlichkeit, dass man
ein be-stimmtes Ergebnis fälschlicherweise für statistisch gesichert
erachtet. Ein solches Ergebnis wäre nicht replizierbar und damit
wertlos.
Publish or perish
Diese Restwahrscheinlichkeit wird per
Konvention meist bei 5 Prozent angesetzt. Wenn also nun nicht nur ich
meine Luftverschmutzungs-Hypothese in einem Datensatz teste, sondern es
parallel noch 99 weitere Forscher in 99 anderen Datensätzen
ausprobieren, werden fünf davon einen signifikanten Zusammenhang finden –
auch wenn es ihn in Wahrheit nicht gibt. Würden nun alle 100 Versuche
publiziert, wäre es unproblematisch. Andere Wissenschaftler könnten dann
richtigerweise erkennen, dass die fünf erfolgreichen Studien dem Zufall
geschuldet sind. Allerdings werden nicht alle Ergebnisse publiziert.
Peer Reviewer und Herausgeber der Fachzeitschriften befinden die fünf
signifikanten Studien für interessanter und werden tendenziell eher
diese publizieren und die nichtsignifikanten Stu-dien ablehnen. Die so
entstehende veröffentlichte Literatur zeigt dann ein falsches Bild der
Wirklichkeit.
Verwandt damit
ist das p-hacking. Es bezeichnet, was alle empirischen Forscher wissen:
Unspektakuläre Ergebnisse können spektakulärer gemacht werden. Konkret
geschieht dies durch subtile oder grobe Veränderungen der Datenanalyse,
um das statistische Signifikanz-niveau, ausgedrückt im p-Wert, zu
verbessern. Es geht dabei nicht unbedingt um die klassi-sche
selbstgefälschte Statistik. Vielmehr umfasst jede empirische
Untersuchung Dutzende, wenn nicht Hunderte Mikroentscheidungen. Diese
beginnen bei sehr fundamentalen Ent-scheidungen, beispielsweise darüber,
ob man den Effekt von Luftverschmutzung auf Atem-wegserkrankungen
untersucht oder den von Luftverschmutzung auf kardiovaskuläre
Er-krankungen. Sehe ich einen Zusammenhang bei letzterem, aber nicht bei
ersterem, verfolge ich diese kardiovaskuläre Hypothese weiter, die
Atemwegserkrankungen nicht.
Gibt es dort
auch keinen Zusammenhang, versuche ich es mit Luftverschmutzung und
Kopfschmerzen oder weiteren Krankheitsbildern. Irgendwann werde ich
wegen der 5-Prozent-Irrtumswahrscheinlichkeit einen signifikanten
Zusammenhang finden. Ein solches Vorgehen ist legitim, wenn alle
Versuche dokumentiert und publiziert werden. Werden sie aber meist
nicht, so dass wieder ein falsches Bild der Wirklichkeit entsteht. Doch
die Mikroentscheidungen reichen weiter, hinein in auch für den Forscher
selbst kaum spürbare Entscheidungen darüber, wie man beispielsweise
Luftverschmutzung überhaupt misst oder wie man den verwendeten
Rohdatensatz bereinigt. Es gibt dabei nicht immer die eine richtige
Entscheidung, so dass sie Spielraum bieten, die Ergebnisse zu
beeinflussen. Der Druck, dies in Richtung interessanterer Ergebnisse zu
tun, ist hoch.
Eine Replikationskultur gibt es in der Ökonomie nicht
Denn zugleich hängen von Publikationen in
Fachzeitschriften ganze Karrieren ab. Gerade in frühen Karrierephasen
gilt: Publish or perish. Wer gut publiziert, wird etwas. Wer das nicht
tut, verschwindet. Die Anreize sind also klar. In den
Wirtschaftswissenschaften ist dieser Selektionsprozess besonders harsch,
indem die wissenschaftliche Leistung anhand eines Journal-Rankings
bewertet wird, das bereits zwischen den sogenannten Top 5 Journals und
den dann folgenden Top Field Journals, vor allem aber danach steil
abfällt, so dass ein großer Teil der Zeitschriften karrieremäßig
faktisch belanglos ist. Zugleich ist es naiv zu erwarten, das
vielzitierte Peer Review könnte p-hacking und die besagten
Mikroentschei-dungen nachverfolgen und so die Qualität sichern. Durch den
Publication Bias und das Faible der Gutachter für spektakuläre
Ergebnisse ist das Peer Review sogar Teil des Pro-blems.
Dies alles ist
keineswegs neu. Der renommierte Stanford-Statistiker und -Epidemiologe
John Ioannidis veröffentlichte schon 2005 ein vielzitiertes Papier, das
unter dem Titel „Why most research results are wrong“ auf Plos One
erschienen ist und das Ritchies Punkte in aller Kürze zusammenfasst.
Ioannidis war außerdem an unterschiedlichen Studien beteiligt, die diese
Fehler im Wissenschaftssystem empirisch nachweisen – auch in den
Wirtschafts-wissenschaften. Hier wird in den letzten Jahren die Kritik
ebenfalls aus den eigenen Reihen immer lauter, darunter Nobelpreisträger
wie Angus Deaton, James Heckman und George Akerlof, oder auch in dem
vielbeachteten Blogpost „Economics is a disgrace“ von Claudia Sahm. Wohl
noch wichtiger: Zahlreiche aktuelle ökonomische Studien weisen auf
einen be-trächtlichen Publication Bias und auf p-hacking hin und ebenso
auf systematische Fehler in einflussreichen Publikationen und die
weitverbreitete Verwendung fragwürdiger For-schungspraktiken.
Eine
Replikationskultur gibt es in der Ökonomie nicht. Ritchie formuliert
einige Lösungs-vorschläge, die im Wesentlichen auf mehr
Forschungstransparenz setzen und so einen kulturellen Wandel auslösen
könnten. Auch in den Wirtschaftswissenschaften werden solche Instrumente
im Ansatz diskutiert und in Teilbereichen angewendet. Es gibt also
Grund zu vorsichtigem Optimismus. Daraus könnte sich eine Kultur
entwickeln, in der nicht die Publikation an sich und die Zeitschrift, in
der sie erscheint, Erfolgsindikatoren sind, sondern der Inhalt und –
vor allem – seine Replizierbarkeit.
Dieser
Selbstreinigungsprozess ist in den Wirtschaftswissenschaften aber noch
ein weiter Weg. In der Zwischenzeit legt Ritchies Buch nahe, dass
Politik und Öffentlichkeit einzelne wissenschaftliche Ergebnisse nicht
als unumstößliche Wahrheiten ansehen sollten. Insbe-sondere die
Wirtschaftswissenschaften müssen in der Öffentlichkeit nicht ständige
Klarheit und Ideologiefreiheit suggerieren. Denn die Auswertung der die
Welt abbildenden Daten ist komplex und fehleranfällig, und sie wird von
Menschen betrieben, die eigene Standpunkte und Interessen haben. Das
anzuerkennen sollte, wie in anderen Disziplinen üblich, generell Teil
wissenschaftlicher Expertise sein, und es stärkt, so argumentiert auch
Ritchie, letztlich die Resilienz gegenüber den perfiden Kräften der
fundamentalen Wissenschaftsskepsis.
Jörg Peters ist Professor an der Wirtschaftswissenschaftlichen Fakultät der Universität Passau.
Nota. - Was bräuchten die Wirtschaftswissenschaften, um die allenthalben verbreiteten Zweifel an ihrer Wissenschaftlichkeit zu zerstreuen? Nicht "Klarheit und Ideologiefreiheit"; sondern den Nachweis, dass sie zu was taugen. Klipp und klar gesagt: dass sie wirtschaftli-che Entwicklungen vorhersagen können. Als bloß historische Disziplin, als 'rückwärtsge-wandte Propheten', hätten sie nur dann eine Rechtfertigung, wenn sie immerhin Lehren ziehen könnte. Dann würde sie ihren streng historischen, nämlich einzig empirischen Rah-men überschreiten müssen: Statt idiographisch zu beschreiben, "wie es war", müsste sie nomothetisch aussagen können: "Sowas kommt von sowas".
Dass sie, wie Jörg Peters anschaulich beschreibt, auch immanent den akademischen An-sprüchen nur beinahe gerecht werden, ist plausibel. Es ist aber doch die äußere Folge da-von, dass sie sich nicht darauf verständigen kann, was überhaupt ihr Gegenstand ist. Sie ist eine Disziplin, die an allerhand mehr oder minder reputierten Institutionen nun einmal be-trieben wird; die einerseits Ein- und Auskommen schafft und andererseits Drittmittel ein-wirbt. Ob sie Wissen schafft, ist davon nicht berührt.
Übrigens: Marx unterscheidet die Gesellschaftswissenschaften methodologisch von den Naturwissenschaften; da sie keine Laborexperimente machen könnten, seien sie auf das Gedankenexperiment angewiesen - nämlich auf ebenso kritisches wie gewissenhaftes Denken.
JE