Einleitung
Der Evaluierung öffentlicher Politiken sollte eine hohe Bedeutung zukommen. Denn in komplexen Gesellschaften ist keineswegs sicher, ob und in welchem Ausmaß die Implementierung von Politiken auch die angestrebten Wirkungen erzielen oder gar kollektiv unerwünschte Nebeneffekte auftreten. Im politischen Wettbewerb neigen Entscheidungsträger unterschiedlicher politischer Couleur aber dazu, Politiken sowohl ex ante als auch ex post unterschiedliche Wirkungen zuzuschreiben. Daher kommt vor dem Hintergrund potenzieller, politisch motivierter Fehlbewertungen einer neutralen Wirkungsevaluierung eine wichtige Kontrollfunktion zu. Neben dieser Kontrollfunktion von Evaluierung ist deren Lernfunktion hervorzuheben. Denn Erkenntnisse über die Wirkungen von Politiken bieten Entscheidungsträgern eine inhaltlich fundierte Grundlage, zukünftige Politiken beizubehalten oder anzupassen. Evaluierung verbessert mithin die Transparenz, indem die öffentliche Diskussion mit weitgehend neutraler Information versorgt werden kann.
Wie es vor diesem Hintergrund um die Wirkungsevaluierung in der internationalen Entwicklungszusammenarbeit (EZ) bestellt ist, soll im Folgenden kurz dargestellt werden. Angesichts dreistelliger Milliardenbeträge, die weltweit jedes Jahr für unterschiedliche entwicklungspolitische Maßnahmen verausgabt werden, kommt der Wirkungsevaluierung in diesem umverteilenden Politikfeld eine wichtige Rolle zu. In der EZ wird denn auch seit Jahrzehnten eine große Zahl an Projekt- und Programmevaluierungen durchgeführt. Gleichwohl geriet auch die Evaluierung der EZ seit Beginn der vergangenen Dekade aufgrund ihrer institutionellen und methodischen Schwächen in die Kritik.
Mikro-Makro-Paradoxon in der Wirkungsmessung
Die internationale EZ hat hohe Ansprüche, indem sie nicht nur auf die Vergabe von Nothilfe in Krisensituationen ausgerichtet ist, sondern auch strukturelle Beiträge zur Armutsbekämpfung, zur Demokratieförderung oder zur Friedenssicherung verspricht. Inwieweit und warum diese Ziele tatsächlich erreicht bzw. verfehlt werden, ist im Kern die Aufgabe von Evaluierung. Betrachtet man vor diesem Hintergrund die Evaluierungsberichte entwicklungspolitischer Organisationen, so wird man (vielleicht mit Überraschung) feststellen, dass traditionell auf der Mikro-Ebene mehr als drei Viertel der durchgeführten Projekt- oder Programminterventionen als zufriedenstellend oder besser bewertet werden.
Dieser Befund kontrastiert jedoch mit den Ergebnissen der Wirkungsmessung auf der Makro-Ebene, bei der statistische Verfahren des Ländervergleichs im Mittelpunkt stehen (vgl. Kasten 1). Denn die statistischen Ländervergleiche auf Grundlage von Daten der letzten drei Dekaden (ca. 1970 - 2005) konnten keine robusten Ergebnisse liefern, die eine Wirkung von staatlichen EZ-Strömen auf das Wohlfahrtsniveau von Entwicklungsländern nahegelegt hätten.
Die ernüchternden Ergebnisse des statistischen Ländervergleichs offenbarten ein Mikro-Makro-Paradoxon in der EZ. Denn während die große Mehrheit von einzelnen Projekten und Programmen hinsichtlich ihrer Wirkungen ja positiv evaluiert worden war, ließen sich auf der Ebene des Ländervergleichs keine analogen Wirkungen nachweisen. Dieses Paradoxon in der Wirksamkeitsforschung lässt sich allerdings sowohl auf der Makroebene wie auch auf der Mikroebene auflösen.
Mit Blick auf die Makroebene besteht die Auflösung darin, dass bei zunehmender Abhängigkeit einer Volkswirtschaft von EZ-Transfers gesamtwirtschaftlich negative Effekte auftreten können, die dann die positiven Wirkungen gelungener Einzelprojekt kompensieren. Solch negative Effekte können vor allem über zwei Kanäle verlaufen:
Wenn eine Volkswirtschaft viel öffentliche Entwicklungshilfe erhält, bedeutet dies eine Aufwertung der Währung im Empfängerland aufgrund des mit der EZ verbundenen Devisenzuflusses. Eine höher bewertete Währung verbilligt jedoch die Importe bzw. verteuert die Exporte des Empfängerlandes. Dies kann der internationalen Wettbewerbsfähigkeit und damit der gesamtwirtschaftlichen Entwicklung abträglich sein.
Eine hohe Abhängigkeit von EZ-Transfers kann zudem negative Auswirkungen auf die Qualität politischen Handelns haben. EZ-Transfers in entwicklungsförderliche Sektoren wie etwa Bildung und Gesundheit ermöglichen es den Regierungen zumindest partiell, ihre eigenen, hierfür vorgesehenen Ressourcen anderweitig zu verwenden. Zumindest indirekt können somit Teile der EZ-Transfers zur Alimentierung korrupter Strukturen oder eines Repressionsapparates führen (Fungibilitätsrisiko). Statistische Ländervergleiche stützen zudem die Vermutung, dass bei hoher Fragmentierung der Geberorganisationen vor Ort die Qualität der staatlichen Administration im Empfängerland geschwächt wird. Denn hierdurch werden armen Entwicklungsländern erhebliche Verwaltungskosten aufgebürdet, und qualifiziertes Personal wandert vom Staat zu Geberorganisationen ab.
Neben der Auflösung des Paradoxons durch negative externe Effekte auf der Makroebene kann das Paradoxon auch auf der Mikro-Ebene erklärt werden, wenn nämlich Zweifel an den positiven Ergebnissen vieler Projektevaluierungen herrschen. Zumindest für den in früheren Dekaden beanspruchten Erfolg der großen Mehrheit der einzelnen Entwicklungsmaßnahmen gibt es oft nicht ausreichend empirische Evidenz. Zwar wurde in der EZ viel evaluiert, doch existierten viele organisatorisch-institutionelle oder inhaltlich-methodische Schwachpunkte.
Die organisatorisch-institutionelle Kritik betonte, dass in der Vergangenheit der Schwerpunkt der Evaluierungsarbeit zu oft auf den Input und Output von EZ-Maßnahmen gelegt wurde und die Ebene des Impacts vernachlässigt worden sei. Denn alleine ein Blick auf die Quantität der eingesetzten Ressourcen in der EZ bzw. deren unmittelbare Ausgestaltung in Projekten gibt noch nicht hinreichend Information über die Wirkungen auf der Ebene der Zielgruppen - etwa die Verbesserung der Lebensumstände der armen Bevölkerung. Auch wurde moniert, dass viele Geberorganisationen zu oft isoliert und auf eigene Faust evaluiert hätten, anstatt mittels gemeinsamer Evaluierungen kollektive Lernprozesse anzustoßen. Die auf der Ebene der Projektdurchführung beobachtete Fragmentierung der Geberaktivitäten setzte sich somit auf der Ebene der Evaluierung fort. Schließlich wurde kritisiert, dass die Evaluierungen oftmals allenfalls begrenzt unabhängig gewesen seien, was die Ergebnisse zu Gunsten positiver Bewertungen verzerrte.
Die methodische Kritik richtete sich auf die Art und Weise, wie die Wirkungsmessung durchgeführt wurde. Beanstandet wurde erstens die häufig mangelhafte Datenerhebung wie etwa das Fehlen sogenannter Baseline-Studien zu Projektbeginn, die vielfach eine Voraussetzung für einen sauberen Vergleich von Pre- und Postinterventionszustand sind. Doch auch bei deren Vorliegen reicht meist ein einfacher Vorher-Nachher-Vergleich kaum aus, um eine Veränderung bei der Zielgruppe auf die erfolgte Intervention zurückzuführen. In den 1970er Jahren stand etwa eine Verlängerung von Weltbankprogrammen zur Integration von Frauen in den formellen Arbeitsmarkt Indonesiens an. Grundlage für die Entscheidung war auch die Beobachtung, dass sich parallel zur Implementierung solcher Programme tatsächlich eine zunehmende Integration von Frauen in den Arbeitsmarkt ergeben hatte. Wie jedoch weiterführende Analysen zeigten, war dieser Effekt weniger der entwicklungspolitischen Intervention geschuldet, sondern vielmehr einer partiellen Industrialisierungsdynamik und dem hierdurch entstehenden Nachfragesog nach Arbeitskräften, was eine stärkere Beschäftigung von Frauen begünstigte.
Die zentrale methodische Herausforderung der Evaluierung besteht mithin darin, die empirische Erhebung für eine kontrafaktische Argumentation zugänglich zu machen, also für die Frage: Wie hätte sich die Situation entwickelt, wenn es die entwicklungspolitische Intervention nicht gegeben hätte? Wird dieser Zuordnungsproblematik nicht Rechnung getragen, dann ist die Aussagekraft der Evaluierungsergebnisse gering.
In der Entwicklungspolitik tritt die skizzierte Herausforderung auch oftmals in Gestalt eines Selektionsbias bei der Projektauswahl auf. Zur Veranschaulichung sei das Beispiel einer kleinen, indigen geprägten Gemeinde - Cotacachi - in Ecuador genannt. Als in der zweiten Hälfte der 1990er Jahre ein reformorientierter Bürgermeister mit einer gut organisierten Zivilgesellschaft die Geschicke der Kleinstadt organisierte, siedelten sich dort rasch auch etliche staatliche und nicht-staatliche EZ-Organisationen Projekte an. Aufgrund der dynamischen Entwicklung der Gemeinde wurde das Städtchen zum Schaufenster für erfolgreiche EZ auf lokaler Ebene. Doch etliche wirkungsrelevante Fragen konnten aufgrund des Selektionsbias nicht beantwortet werden. Welchen Anteil an der positiven Entwicklung der Gemeinde war den Gebern, welche den lokalen Strukturen zuzuschreiben? Hätte sich die Gemeinde vielleicht ohne EZ-Projekte genauso entwickelt, oder gab es einen bestimmten Sättigungsgrad, ab dem jedes weitere Projekt keine positiven Wirkungen mehr generierte?
Insgesamt passten die Mängel in der Projektevaluierung zum zunehmend kritischen Bild entwicklungspolitischer Strukturen. Weniger die Quantität von Evaluierung war das Problem, sondern vielmehr deren Organisation, inhaltliche Ausrichtung und methodische Stringenz.
Reformdynamik in der Evaluierung
Mit der zunehmenden Kritik an der Wirkung der EZ im Allgemeinen und der Evaluierung im Speziellen geriet die Legitimation des Politikfeldes in Gefahr. Als Reaktion hierauf kann seit Mitte der vergangenen Dekade eine erhöhte Reformdynamik in der internationalen EZ konstatiert werden, die auch den Bereich der Evaluierung erfasste. Insbesondere die von den OECD-Geberländern und vielen Entwicklungsländern im Jahr 2005 verabschiedete Paris-Agenda, ein zentraler Fluchtpunkt der Reformbemühungen, fordert eine verbesserte Wirkungsmessung.
Methodische Trendwende: International zeichnet sich ein Trend zu rigoroseren Methoden bei der Projektevaluierung ab. Betont wird die statistisch fundierte, kontrafaktische Argumentation bei der Identifizierung von Kausalität zwischen Intervention und Wirkungen. Diese Verfahren können hier nicht umfassend behandelt werden, doch soll zumindest der Königsweg rigoroser Methoden, das randomisierte Experiment, besprochen werden. Das Verfahren ist seit langem in der Medizin verbreitet und wird auch zur Beurteilung von Sozialpolitiken in OECD-Ländern eingesetzt.
Im randomisierten Experiment werden bereits vor Projektbeginn nach dem Zufallsprinzip (verschiedene) Interventions- und Kontrollgruppen ermittelt (siehe Kasten 2). Zu Beginn und am Ende der Intervention werden in jeder Gruppe die entwicklungsrelevanten Daten erhoben. Wenn die Gruppen zufällig ausgewählt und groß genug sind, lassen sich die durchschnittlichen Differenzen ihrer Entwicklung unmittelbar auf den Eingriff zurückführen. Wichtig für eine möglichst exakte Messung ist auch, dass Wechselwirkungen zwischen den Gruppen weitgehend ausgeschlossen werden sollten.
Neben dem Vorteil einer vergleichsweise exakten Wirkungsmessung zwingen randomisierte Experimente die implementierende Organisation dazu, sich bereits vor der Intervention ausführlich mit der Wirkungsanalyse zu beschäftigen; Evaluierung verkommt nicht zur lästigen, isolierten Pflichtübung am Projektende. Weiterhin lassen sich randomisierte Experimente schwieriger manipulieren, und die Ergebnisfindung ist vergleichsweise transparent. Aufgrund dieser Vorteile finden gegenwärtig mehrere hundert solcher Evaluierungsprozesse statt, während es zu Beginn der vergangenen Dekade nur eine Handvoll auf experimentellen Verfahren basierende Untersuchungen in der EZ gab.
Ist aber die Einteilung in "bevorzugte" Interventionsgruppen und "benachteiligte" Kontrollgruppen in der Entwicklungspolitik aus normativen Gründen angemessen? In vielen Fällen reichen EZ-Ressourcen ohnehin nicht für alle Bedürftigen, so dass eine Zufallsauswahl zu Evaluierungs- und Lernzwecken gerechtfertigt sein kann. Ferner sind solche Experimente eher unproblematisch, wenn sie zu Beginn eines Politikimplementierungsprozesses stehen, der sukzessiv auf eine größere Zielgruppe ausgeweitet wird. Wenn etwa bestimmte Maßnahmen zur Förderung der Primarschulbildung von Mädchen über mehrere Jahre allmählich landesweit ausgedehnt werden, dann können zu Beginn der Implementierung durchgeführte Experimente wichtige Lernerfahrungen für spätere Phasen generieren.
Randomisierte Experimente konzentrieren sich auf die Wirkungsmessung und sind darin qualitativen Verfahren (wie teilnehmende Beobachtung, Fokusgruppen-Interviews etc.) überlegen. Doch die Begleitung experimenteller und quasiexperimenteller Verfahren durch eine qualitative Beobachtung soziokultureller Besonderheiten ist wichtig, um Wirkungsmechanismen zu identifizieren und die Übertragbarkeit der Intervention auf andere soziokulturelle Kontexte zu prüfen. Werden in ländlichen Gebieten Schulungen junger Mütter über häusliche Hygienemaßnahmen und Kinderernährung durchgeführt, bleiben Wirkungen oftmals gering, wenn nicht auch kulturspezifische "Vetospieler" in die Trainingsmaßnahmen einbezogen werden. Ob jedoch die entwicklungspolitische Intervention Schwiegermütter, lokale Ältesten- oder Familienräte in die Trainingsmaßnahmen einbeziehen sollte, um die Akzeptanz des vermittelten Wissens zu erhöhen, kann von Land zu Land unterschiedlich sein. Eine begleitende qualitative Analyse hilft dann, die Ergebnisse der Wirkungsmessung richtig einzuordnen.
Die Anwendung experimenteller Methoden ist jedoch kaum möglich, wenn es um die Förderung institutioneller Reformprozesse auf nationaler Ebene geht. Wenn Instrumente der technischen Zusammenarbeit oder des Politikdialogs - etwa im Rahmen der Budgethilfe - Reformen im öffentlichen Finanzwesen, der Bildungs- oder Gesundheitspolitik fördern wollen, ist die statistische Wirkungsattribution kaum möglich. Existiert nur eine Untersuchungseinheit - die nationale Gesetzgebung -, dann können randomisierte Experimente kaum eingesetzt werden, und die Evaluierung muss auf stärker qualitative Analysen zurückgreifen.
Baustelle Evaluierungsorganisation: Neben dem skizzierten Trend, anspruchsvollere Methoden der Wirkungsmessung - sofern angemessen - einzusetzen, haben sich in den vergangenen Jahren auch organisatorisch-institutionelle Veränderungen ergeben.
Positiv zu vermerken ist, dass der internationale Konsens über die normativen Grundlagen guter Evaluierung allmählich auf breiterer Basis steht. Neben der Einsicht über die Nutzung anspruchsvoller Methoden wird stärker auf die Unabhängigkeit der Evaluierung geachtet. Darüber hinaus werden weitere Ansprüche an die Evaluierung in der EZ gestellt, die mit den Prinzipien der Paris-Agenda konform gehen. Insbesondere sollen Evaluierungen zunehmend durch mehrere Geber gemeinsam durchgeführt werden, um den bürokratischen Aufwand auf der Partnerseite gering zu halten. Dies gilt insbesondere für koordinierte und harmonisierte Interventionen wie etwa der Budgethilfe. Darüber hinaus sollen Evaluierungen zunehmend auch Elemente des capacity building enthalten und möglichst in Kooperation und unter Beteiligung des Empfängerlandes durchgeführt werden. Letzteres entspricht dem ownership-Prinzip und zielt darauf, die Evaluierungskapazitäten in den Partnerländern zu stärken, um die eigenen Kontroll- wie Lernkapazitäten zu verbessern; eine Entwicklung, die zumindest in einigen Ländern mittleren Einkommens wie etwa Mexiko oder Kolumbien zu beobachten ist.
Auch in Deutschland blieben die skizzierten Diskussionen und Reformansätze trotz einer im politischen System insgesamt eher gering ausgeprägten Evaluierungskultur nicht ohne Wirkung.
Herausforderungen
Doch steht die Evaluierung in der EZ noch vor großen Herausforderungen. Es fehlt oft an einem organisationsübergreifenden Qualitätsmanagement von Evaluierungen, das gemeinsame Lernprozesse befördert. Wie sollen Erkenntnisse aus einer Vielzahl von Evaluierungen in der technischen und finanziellen Zusammenarbeit thematisch gebündelt werden und wer soll für diese Koordinationsleistung angesichts teilweise sehr unterschiedlicher Interessen der beteiligten Akteure zuständig sein? Zwar arbeitet der Entwicklungsausschuss der OECD an einer Vereinheitlichung von Evaluierungsstandards und versucht gemeinsame Lernprozesse anzustoßen. Doch die Qualität einzelner Evaluierungen variiert noch stark und es ist schwierig, staatliche wie multilaterale Entwicklungsbürokratien auf entsprechende Koordinationsleistungen zu verpflichten. Angesichts dieser Koordinationserfordernisse geraten die Entwicklungsländer leicht aus dem Blickfeld, die an Evaluierungsprozessen stärker beteiligt werden sollen.
Schließlich besteht eine Herausforderung darin, die strategische Lücke zwischen Evaluierung und operativen wie politischen Entscheidungsträgern zu überwinden. Den allermeisten Evaluierungsabteilungen gelingt es bislang nicht in ausreichendem Maße, das Potenzial für Rückkopplungseffekte zur Implementierungsebene auszuschöpfen. Dies hängt mal mit der organisatorischen Schwäche der Evaluierung zusammen, mal mit der Beratungsresistenz der Entscheidungsträger. Diese Vermittlungsfunktion von Evaluierung an der Schnittstelle zwischen praxisorientierter Forschung und Entscheidungsträgern gilt es in Zukunft besser zu erfüllen: gerade auch vor dem Hintergrund, neuer thematischer, lernintensiver Herausforderungen in der EZ wie etwa dem Klimaschutz oder dem Engagement in fragilen bzw. Post-Konfliktstaaten.