PISA & Co. – eine kritische Bilanz | Bildung

Seit dem PISA-Schock im Jahr 2001 erfahren die Ergebnisse internationaler Schulleistungsstudien große öffentliche Aufmerksamkeit. Häufig herrscht aber Unklarheit darüber, was genau das Ziel dieser Studien ist. Warum beteiligt sich Deutschland an ihnen? Was ist bei der Interpretation der Ergebnisse zu bedenken und was kann man mit ihnen anfangen?

Auf der Demonstration des Aktionsbündnisses "Bildungsstreik 2009" in Erfurt fordern SchülerInnen und StudentInnen mehr Investitionen in Bildung. (© Hendrik Schmidt, picture-alliance/ ZB )

Wenn in der Öffentlichkeit über "Pisa" gesprochen wird, ist meist nicht mehr die italienische Stadt mit dem schiefen Turm gemeint, sondern eine international vergleichende Untersuchung über Schülerleistungen. PISA ist dabei die Abkürzung für "Programme for International Students Assessment". Diese Untersuchung wurde im Jahr 2000 das erste Mal durchgeführt und brachte für die deutschen Schülerinnen und Schüler in den Bereichen Lesen, Mathematik und Naturwissenschaften sehr schlechte Ergebnisse: In vielen Ländern, so etwa in Schweden, Kanada und Japan, waren die von PISA gemessenen Schülerleistungen weit besser. Zugleich zeigte sich, dass in Deutschland Schülerinnen und Schüler aus einfachen sozialen Verhältnissen so schlecht abschnitten wie in kaum einem anderen Land der Welt. Die Ergebnisse lösten hierzulande eine heftige öffentliche Debatte aus. Nicht nur in Zeitungen und im Fernsehen, auch auf Elternabenden und Parteiversammlungen wurden die Ergebnisse heftig diskutiert. Diese Reaktion der Jahre 2001/2002 wird als "PISA-Schock" bezeichnet. Er verband sich mit massiven Forderungen an die Bildungspolitik, durch schnelles und entschlossenes Handeln das Schulsystem und seine Leistungsergebnisse zu verbessern.

Leistungsvergleichsstudien: ein Überblick

In diesem Beitrag geht es um internationale Leistungsvergleichsstudien, davon ist PISA die bekannteste. Andere arbeiten nach den gleichen Prinzipien, aber zu anderen Schwerpunkten: IGLU für die Grundschulen, DESI für Fremdsprachen, TIMSS für Mathematik und Naturwissenschaften. In allen Fällen handelt es sich um empirische Untersuchungen, mit denen in einer größeren Zahl von Staaten die Leistungen von Schülerinnen und Schülern in bestimmten Fächern und Altersgruppen getestet werden. Dazu wird in jedem beteiligten Land eine vergleichbare Stichprobe (siehe Infobox) gezogen. Die Schülerinnen und Schüler, die dieser Stichprobe angehören, werden mit Fragebogen und Leistungstests untersucht. Der Vergleich der Testergebnisse erlaubt es dann, festzustellen, in welchen Ländern die Schülerleistungen besonders stark, in welchen sie hingegen besonders schwach ausgeprägt sind – und welches Land eher im Mittelfeld liegt.

InfoboxStichprobe und Repräsentativität

Da man nicht alle Schülerinnen und Schüler eines Landes testen kann, weil ihre Zahl einfach zu groß ist, muss eine "Stichprobe" gezogen werden. Dazu wird eine bestimmte Zahl von Schülerinnen und Schülern ausgewählt, die an der Untersuchung teilnimmt. Bei PISA sind es pro Land etwa 5.000 15-Jährige. Damit man von dieser kleineren Auswahlgruppe auf die Gesamtzahl aller Schülerinnen und Schüler des Landes schließen kann, muss diese Gruppe "repräsentativ" sein. Die Gruppe muss also in Bezug auf bestimmte wichtige Merkmale (z. B. Geschlecht, soziale Herkunft, Wohnort in der Stadt oder auf dem Land, besuchte Schulform) so zusammengesetzt sein, dass die Anteile denen in der Gesamtbevölkerung entsprechen. Die Stichprobe ist damit ein verkleinertes Abbild aller Schülerinnen und Schüler eines Landes. Wenn diese Stichprobe in allen beteiligten Ländern nach den gleichen Kriterien erstellt wird (z. B. nur Schülerinnen und Schüler des gleichen Altersjahrgangs, Schülerinnen und Schüler sowohl in öffentlichen wie in privaten Schulen), kann man die Ergebnisse der verschiedenen Länder miteinander vergleichen. Es lässt sich dann wissenschaftlich gesichert sagen, ob bei-spielsweise die Schülerinnen und Schüler in Italien im Lesen insgesamt besser sind als die in Deutschland.

Leistungsvergleichsstudien werden von internationalen Organisationen initiiert, die einzelnen Länder können sich dann daran beteiligen. So wird die TIMS-Studie ("Third International Mathematics and Science Study") von einer internationalen Wissenschaftlerorganisation, der "International Association for the Evaluation of Educational Achievements" (IEA) getragen. Die PISA-Studie wurde von der OECD ("Organization for Economic Co-operation and Development") entworfen – einer internationalen Organisation, die sich der wirtschaftlichen Entwicklung ihrer Mitgliedsländer verpflichtet fühlt. All diese vergleichenden Studien sind darauf ausgerichtet, Aussagen über die Schulsysteme der einzelnen Länder zu machen und auf diese Weise der Bildungspolitik und den Schulplanern zu helfen, die richtigen Entscheidungen zu treffen (vgl. OECD-PISA 2000).

Seit den 1960er Jahren arbeiteten Erziehungswissenschaftlerinnen und -wissenschaftler in einigen Ländern Westeuropas (vor allem in England, Frankreich, Schweden) daran, die fachlichen Leistungen von Schülerinnen und Schülern international-vergleichend zu untersuchen. Die Bundesrepublik Deutschland hat sich daran zunächst nur sporadisch beteiligt. Nach einer längeren Pause nahm sie erstmals wieder Anfang der 1990er Jahre an einer internationalen Lesestudie teil ("International Study of Reading Literacy", vgl. Lehmann u. a. 1995), die jedoch in der Öffentlichkeit kaum wahrgenommen wurde. Dies änderte sich dann mit der TIMS-Studie, deren erste Ergebnisse 1997 veröffentlicht wurden (vgl. Baumert/Lehmann u.a. 1997). Die deutschen Schülerinnen und Schüler der 8. Jahrgangsstufe lagen mit ihren Mathematikleistungen im internationalen Vergleich auf Platz 25 von 33 beteiligten Ländern (siehe Infobox). Deutsche Schülerinnen und Schüler im unteren Leistungsdrittel – dieses Ergebnis blieb weit hinter den Erwartungen der Bildungspolitikerinnen und -politiker, aber auch der Lehrkräfte zurück.

InfoboxWas ist ein Ranking?

Weist man den Ländern bei den Leistungswerten einen Rangplatz zu und vergleicht diese miteinander, spricht man von einem "Ranking". Dabei werden die Testergebnisse aller Schülerinnen und Schüler eines Landes zu einem mittleren Leistungswert zusammengefasst. So erzielten im Jahr 2000 die finnischen Schülerinnen und Schüler im Lesen einen mittleren Leistungswert von 546 Punkten, die deutschen hingegen lediglich einen Wert von 484 Punkten. Damit lag Finnland unter 32 beteiligten Ländern auf Platz 1, Deutschland auf Platz 21 (vgl. Baumert u.a. 2001). Eine solche Rangliste von Ländern – also das Ranking – lässt sich präsentieren wie eine Fußball-Tabelle und ist deshalb in der Presse und bei Politikern besonders beliebt. Doch eine Diskussion, die sich allein auf solche Ranking-Plätze bezieht, bleibt kurzschlüssig. So wird bei den Ranking-Ergebnissen zur Leseleistung beispielsweise überhaupt nicht berücksichtigt, wie hoch in einem Land der Anteil der Kinder ist, die als Zuwanderer eine andere Muttersprache erlernt haben – und deshalb beim Lesen möglicherweise benachteiligt sind.

Außerdem ist zu beachten, dass schon kleine Differenzen bei den Mittelwerten zu unterschiedlichen Rangplätzen führen können. Hierzu ein Beispiel: Das Land A hat einen Lese-Mittelwert von 500 Punkten, das Land B einen Wert von 504 Punkten. A liegt auf Rangplatz 18, B auf Platz 21. Nun liegt aber der Unterschied von 4 Punkten im Bereich der statistischen Zufälligkeit; die Messergebnisse für beide Länder sind somit gleich. Kurz: Ein Land, das in der Rangliste einige wenige Plätze höher steht, ist nicht notwendig "besser".

Vor dem Hintergrund der soeben skizzierten TIMSS-Ergebnisse beschloss die Kultusministerkonferenz im Jahre 1997, sich künftig regelmäßig an internationalen Vergleichsstudien zu beteiligen, so auch an der PISA-Studie, die erstmals im Jahr 2000 durchgeführt wurde und seitdem alle drei Jahre wiederholt wird.

PISA 2000 und die bildungspolitischen Folgen

In der PISA-Studie geht es um die Kompetenz von 15-Jährigen in den drei Bereichen Lesen, Mathematik und Naturwissenschaften. Die mäßigen Ergebnisse, die die deutschen Schülerinnen und Schüler bei der ersten Untersuchung im Jahr 2000 erzielten, lösten den bereits angesprochenen "PISA-Schock" aus: In allen drei Leistungsbereichen lagen die deutschen Schülerinnen und Schüler jeweils unterhalb des OECD-Durchschnitts; sie landeten auf dem 20. oder 21. Rangplatz und waren damit weit entfernt von Spitzenländern wie Finnland, Japan oder Kanada. In keinem anderen westlichen Industrieland hingen zudem die Kompetenzen der Schülerinnen und Schüler so stark von ihrer sozialen Herkunft ab wie in Deutschland. Kurz: Zur Überraschung von Politik und Öffentlichkeit zeigte das deutsche Schulsystem im internationalen Vergleich unerwartet große Leistungs- und Gerechtigkeitsdefizite.

In den Jahren 2000, 2003 und 2006 wurden die internationalen PISA-Vergleiche jeweils durch einen bundesdeutschen Ländervergleich ergänzt. Die Ergebnisse verwiesen auf erhebliche Unterschiede in den Schülerleistungen zwischen den Bundesländern. Weil CSU- beziehungsweise CDU-geführte Länder wie Bayern und Sachsen eher besser, SPD-geführte Länder wie Nordrhein-Westfalen und Brandenburg eher schlechter abschnitten (vgl. Baumert u.a. 2002), entzündete sich daran eine heftige öffentliche Kontroverse zwischen CDU- und SPD-Vertretern, die in der Presse breit kommentiert wurde. Gestritten wurde dabei u.a. über den Ausbau von Gesamtschulen, der von der SPD befürwortetet, von der CDU/CSU aber abgelehnt wurde. Dass es zwischen diesen Ländern auch erhebliche sozialstrukturelle Unterschiede etwa hinsichtlich des Anteils von Migranten oder der in Armut lebenden Familien gibt, wurde dabei nicht selten ausgeblendet.

Die Ergebnisse dieser PISA-2000-Studie wurden auch von den Kultusministern der Länder aufgegriffen. Um die Leistungen deutscher Schülerinnen und Schüler zu verbessern, einigten sie sich in der Kultusministerkonferenz (KMK) darauf, in allen Bundesländern ein Bündel von sieben Maßnahmen umzusetzen:

KMK-Handlungskatalog vom Dezember 2001

1. Verbesserung der Sprachkompetenz in verschiedenen Bereichen
2. Bessere Verzahnung von Vor- und Grundschule; frühere Einschulung
3. Verbesserung der Grundschulbildung
4. Bessere Förderung benachteiligter Kinder
5. Qualitätssicherung durch verbindliche Standards und Evaluation
6. Stärkung der diagnostischen und methodischen Kompetenzen der Lehrkräfte
7. Ausbau schulischer und außerschulischer Ganztagsangebote

Quelle: KMK 2001

Außerdem setzte sich in den Ministerien zunehmend die Überzeugung durch, dass die empirische Bildungsforschung (siehe Infobox) zu verstärken sei, um Problemlagen im Bildungssystem besser zu erkennen und gesicherte Informationen darüber zu erhalten, ob und wie die zu ihrer Lösung angestrebten Maßnahmen wohl wirken werden. Damit verband sich die Absicht der Politik, auf Grundlage wissenschaftlicher Erkenntnisse das Bildungssystem besser als bisher zu organisieren.

InfoboxWas ist Empirische Bildungsforschung?

Die empirische Bildungsforschung untersucht Voraussetzungen, Prozesse und Ergebnisse von Bildung über die Lebensspanne. Forschungsgegenstand sind vor allem Bildungsprozesse innerhalb von Bildungseinrichtungen wie Kindergarten, Schule, Hochschule oder Weiterbildung. Ansätze der empirischen Bildungsforschung sind meist disziplinenübergreifend und beziehen neben erziehungswissenschaftlichen, psychologischen und soziologischen Perspektiven auch fachdidaktische und bildungsökonomische Sichtweisen mit ein. Das übergeordnete Ziel der empirischen Bildungsforschung besteht darin, die Bildungswirklichkeit (besser) zu verstehen und durch Empfehlungen und Beratungen an Politik und Praxis (weiter) zu entwickeln.

In Anlehnung an: Externer Link: http://www.ebf.edu.tum.de/home/

Zugleich zeigte sich aber, dass an deutschen Universitäten zu wenig Fachkompetenz und zu wenig Kapazitäten vorhanden waren, um solche empirischen Großforschungsprojekte durchführen zu können. Deshalb rief das Bundesministerium für Bildung und Forschung (BMBF) das "Rahmenprogramm zur Förderung der empirischen Bildungsforschung" (2007) ins Leben und investierte in diesem Bereich so viel Geld wie noch nie: Mit mehreren hundert Millionen Euro wurden und werden Forschungsprojekte finanziert und zugleich Forschungskapazitäten geschaffen. Insgesamt hat es seitdem in der Bundesrepublik einen massiven Ausbau der Institutionen (und der Personalstellen) gegeben, die vor allem im Schulbereich eine umfassende empirische Bildungsforschung betreiben (siehe Infobox).

InfoboxWas hat die staatliche Förderung der empirischen Bildungsforschung bewirkt?

Die staatliche Förderung der empirischen Bildungsforschung zeigt Wirkung. Als wichtigste Resultate sind zu nennen:

Die großen Leistungsvergleichsstudien (PISA, IGLU) werden in regelmäßigen Abständen (Zeitreihen) wiederholt, sodass auch Entwicklungen über die Jahre beobachtet werden können.
In allen Bundesländern werden kontinuierlich Lernstandserhebungen durchgeführt: Die Leistungen aller Schülerinnen und Schüler (z. B. der 4. Klasse) werden getestet und an die Schulen und Lehrkräfte zurückgemeldet. Auf diese Weise erhalten die Schulen ein realis-tisches Bild des Leistungsstands „ihrer“ Klassen.
Eine dauerhafte Bildungsberichterstattung wurde etabliert: Alle zwei Jahre berichtet eine Expertengruppe, wie sich das deutsche Bildungssystem entwickelt hat (z. B. bei den Abschlüssen, beim Sitzenbleiben, beim Lehrer-Schüler-Verhältnis) (vgl. Arbeitsgruppe Bildungsberichterstattung 2012).
Durch langfristige ministerielle Förderung wurden innerhalb und außerhalb von Universitäten leistungsfähige Zentren der empirischen Bildungsforschung geschaffen. Zu nennen sind vor allem das Max-Planck-Institut für Bildungsforschung in Berlin, das Deutsche Institut für Internationale Pädagogische Forschung in Frankfurt am Main, das Institut für Schulentwicklungsforschung an der Technischen Universität Dortmund und das Institut für die Pädagogik der Naturwissenschaften an der Universität Kiel.
Auf Bundes- und auf Länderebene wurden Institute für Qualitätsentwicklung im Schulbereich gegründet. Dort werden unter anderem Lernziele („Standards“) für die verschiedenen Fächer formuliert und – davon ausgehend – Leistungstests entwickelt.

Vergleichsergebnisse und ihre Interpretation

Internationalen Leistungsvergleichsstudien sind so angelegt, dass an ihnen stets viele Staaten beteiligt sind. So haben an TIMSS 45 Länder teilgenommen (vgl. Baumert/Lehmann u.a. 1997, S. 34), bei PISA 2000 waren es 32 Staaten (vgl. Baumert u.a. 2001, S. 18) und bei PISA 2012 sogar 65 (vgl. Prenzel u.a. 2013, S. 4). Eine Gruppe von Ländern in Europa, Nordamerika und Asien ist mit großer Regelmäßigkeit dabei: Dazu gehören England, Frankreich, Österreich, Schweden, Kanada, die USA, Japan und Korea. Diese Länder befinden sich auf einem hohen Niveau der gesellschaftlich-ökonomischen Entwicklung und verfügen alle über ein gut ausgebautes Schulsystem. Es nehmen aber auch Staaten teil, die eher als Entwicklungsländer gelten können (so z. B. Südafrika, Thailand, Kolumbien, Brasilien) und in denen teilweise kein voll ausgebautes Schulsystem existiert. Sehr viele Heranwachsende gehen dort weniger als acht Jahre zur Schule. Werden die Ergebnisse dieser Länder mit den deutschen verglichen (etwa im Rahmen von Rankings), so dürfen diese Unterschiede im gesellschaftlichen Entwicklungsstand keinesfalls übersehen werden.

Infotool der OECDPISA-Ergebnisse 2018 im Ländervergleich

Zum weit verbreiteten bildungspolitischen Umgang mit solchen Vergleichsergebnissen gehört es auch, Leistungsunterschiede zwischen Ländern auf einige wenige oder nur einen angeblich besonders einflussreichen Faktor zurückzuführen, um auf diese Weise einen "Kronzeugen" für die eigene politische Position zu gewinnen. Im internationalen Vergleich werden dann bessere oder schlechtere Leistungen allein mit diesem einen Faktor erklärt – um von dort aus bildungspolitische Forderungen für das Inland zu begründen. Hierfür sind Argumentationen der folgenden Art typisch:

Alle Länder, die bei PISA gut abschneiden, haben zentrale Abschlussprüfungen, also sollten wir auch hier in Deutschland zentrale Prüfungen einführen.

Es lohnt sich, hier genau hinzuschauen: Bei solchen Aussagen über Schulsysteme lassen sich unter 30 bis 40 Ländern immer auch Gegenbeispiele finden: So erzielen finnische Schülerinnen und Schüler hohe Leistungen ohne zentrale Prüfungen, und in Frankreich führen auch zentrale Prüfungen nicht zu überdurchschnittlich hohen Leistungen (vgl. Prenzel u.a. 2013). Grundsätzlich muss jedoch ein methodischer Einwand gegen solche Schlussfolgerungen aus PISA und Co. vorgebracht werden: Ein sicherer Rückschluss auf die Ursachen für (gute oder schlechte) Ergebnisse ist auf Basis solcher Studien prinzipiell nicht möglich (siehe Infobox).

InfoboxWarum PISA und Co. keine Ursachen ermitteln können

Ob sich ein bestimmte schulische Arbeitsform (z. B. Schulformgliederung, Gruppenunterricht, Sitzenbleiben) auf die Schulleistungen auswirkt, kann man nur sicher sagen, wenn die Leistungen bei den gleichen Schülerinnen und Schülern mindestens zwei Mal gemessen wurden: einmal bevor der Einflussfaktor gewirkt hat und ein weiteres Mal danach. Daher müsste z.B. eine Studie, die verlässliche Aussagen darüber treffen kann, ob zentrale Prüfungen zu höheren Leistungen führen, wie folgt aussehen: Am Ende des 9. Jahrgangs wird in einer größeren Zahl von Klassen die Mathematikleistung der Schülerinnen und Schüler gemessen (Anfangsleistung). Der Hälfte der Klassen wird mitgeteilt, dass am Ende der 12. Klasse die Abiturnote durch eine zentrale Prüfung ermittelt wird ("Experimentalgruppe"). Die andere Hälfte wird informiert, dass die Prüfung am Ende der 12. Klasse durch Aufgaben erfolgt, die die Lehrkräfte ihrer Schule aufstellen werden ("Kontrollgruppe"). Am Ende der 12. Klasse wird dann durch einen erneuten Leistungstest ermittelt, ob sich zwischen diesen beiden Gruppen Unterschiede zeigen: Wo finden wir die größeren Leistungssteigerungen? Auf diese Weise könnte die Hypothese, zentrale Prüfungen würden leistungssteigernd wirken, statistisch überprüft werden. Nur auf Basis einer solchen Studie mit zwei Messzeitpunkten (Längsschnitt) lässt sich eine sichere Aussage darüber machen, ob der ins Auge gefasste Faktor auch tatsächlich eine "ursächliche" Wirkung entfaltet hat. Weil PISA und die anderen Leistungsvergleichsstudien die gleichen Schülerinnen und Schüler immer nur einmal untersuchen (Querschnittstudie), erlauben sie keinen sicheren Rückschluss auf verursachende Faktoren.

Wie haben sich die Schulleistungen in Deutschland entwickelt?

Werden Leistungsvergleichsstudien mit identischen Aufgaben in Zeitabständen regelmäßig wiederholt und beispielsweise immer wieder die jeweiligen Achtklässler befragt, können Aussagen über Veränderungen im Zeitverlauf getroffen werden: Sind die Fachleistungen in den 8. Klassen mit der Zeit besser oder schlechter geworden? Insbesondere die PISA-Studie erlaubt solche Trendaussagen, weil sie an vergleichbaren Stichproben seit 2000 alle drei Jahre (zuletzt 2012) durchgeführt wurde. Somit kann die Entwicklung der Schülerleistungen bei den 15-Jährigen über bisher zwölf Jahre abgebildet werden.

Im Jahr 2000 zeigten die deutschen Schülerinnen und Schüler in allen drei Bereichen (Lesen, Mathematik, Naturwissenschaften) Leistungen unterhalb des OECD-Durchschnitts. Die Gruppe der besonders schwachen Schülerinnen und Schüler ("Risikogruppe") war mit mehr als 20 Prozent aller 15-Jährigen sehr groß. Und schließlich ergab sich im internationalen Vergleich ein "Spitzenplatz" beim Ausmaß der sozialen Auslese: In keinem anderen westlichen Industrieland war der Bildungserfolg (oder genauer gesagt: waren die gemessenen Kompetenzen) der Schülerinnen und Schüler so stark von ihrer sozialen Herkunft abhängig.

Wie haben sich die Werte seitdem entwickelt (vgl. Klieme u.a. 2010, Prenzel u.a. 2013)? Beim Lesen ist der Leistungsmittelwert zwischen 2000 und 2012 langsam, aber kontinuierlich gestiegen (von 484 auf 508 Punkte). Dieser Anstieg um 24 Skalenpunkte entspricht in etwa dem Lernfortschritt eines Jahres und er ist statistisch "signifikant". Dass Deutschland 2012 besser abschnitt als 2000, ist also nicht dem Zufall geschuldet. Der Anteil der Schülerinnen und Schüler, die besonders schlecht lesen ("Risikogruppe"), reduzierte sich in dieser Zeit von 23 Prozent auf 15 Prozent. In Mathematik lagen die deutschen Schülerinnen und Schüler im Jahr 2000 mit 494 Punkten deutlich unter dem OECD-Durschnitt, inzwischen (2012) haben sie mit 514 Punkten einen Wert oberhalb des OECD-Durchschnitts erreicht. Auch dieser Leistungszuwachs von insgesamt 20 Punkten ist statistisch signifikant. Zugleich hat sich die "Risikogruppe" von 22 Prozent (2003) auf 18 Prozent (2012) verringert. Ähnlich stellt sich die Leistungsentwicklung im Bereich der Naturwissenschaften dar. Allerdings gilt für alle drei Domänen, dass der Abstand zu den "Spitzenländern" wie Finnland, Irland, Kanada oder Korea nach wie vor sehr groß ist: In Mathematik beträgt der Abstand zum Erstplatzierten (Korea) immer noch 40 Punkte (vgl. Prenzel u.a. 2013). Bedeutsam ist außerdem, dass die Koppelung zwischen der sozialen Herkunft und den erworbenen Kompetenzen seit 2000 deutlich abgenommen hat. In deutschen Schulen besteht zwar nach wie vor eine hohe soziale Selektivität, doch sie übersteigt inzwischen nicht mehr den OECD-Durchschnitt.

Strittig – und von den PISA-Daten selbst nicht zu beantworten – ist die Frage, was genau zu diesen Verbesserungen geführt hat. Bildungspolitikerinnen und -politiker verweisen hier gern auf die von ihnen angestoßenen Reformmaßnahmen wie die Einführung zentraler Prüfungen oder die Verbesserung der Sprachförderung in der Grundschule. Doch erziehungswissenschaftliche Analysen zeigen, dass dies vorschnell sein dürfte. Denn in den Jahren, die seit der ersten PISA-Studie vergangen sind, hat sich auch die Zusammensetzung der Schülerschaft in Deutschland in mancher Hinsicht verändert: Der repräsentative Querschnitt der 15-Jährigen, die bei PISA getestet werden, umfasst dadurch nun mehr Gymnasiasten und weniger Sitzenbleiber, und auch bei den verschiedenen Migrantengruppen hat es Verschiebungen gegeben. Forscher haben berechnet, dass 88 Prozent des Leistungszuwachses auf diese "strukturellen" Veränderungen zurückgeführt werden können (vgl. Ehmke u.a. 2013). Auch dieses Beispiel zeigt, dass bei der Interpretation der Ergebnisse von Schulleistungsstudien stets große Vorsicht geboten ist.

Wem nutzen die internationalen Leistungsvergleiche?

Welcher Erkenntniswert und welcher Nutzen ist nun mit diesen internationalen Leistungsvergleichsstudien verbunden? Um diese Frage zu beantworten, müssen wir die die verschiedenen Akteure einzeln in den Blick nehmen: die Bildungspolitikerinnen und -politiker, die Lehrkräfte, aber auch die Bildungsforscherinnen und -forscher selbst.

Politik und Administration

Internationale Leistungsvergleiche verfolgen als Hauptziel, der Administration und den politisch Verantwortlichen Daten und Erkenntnisse über ihr Schulsystem zu liefern, damit diese dann die "richtigen" politischen Entscheidungen und die angemessenen Regelungen treffen können (vgl. OECD-PISA 2000). Nun ist unbestritten, dass solche Studien in empirisch gesicherter Weise Defizite eines Bildungssystems – so etwa den extrem starken Zusammenhang zwischen Bildungserfolg und sozialer Herkunft – aufzeigen können. Damit machen sie klar, welche Probleme von der Bildungspolitik angegangen werden müssen. Doch können sie auch Hinweise auf die "richtigen" Maßnahmen geben? Teilweise wird hier von den Akteuren eine enge Beziehung zwischen Forschung und Politik angestrebt und dies als "evidenzbasierte Bildungspolitik" bezeichnet: Die Forschung liefert den Politikern nicht nur die Problemanalysen, sondern auch die passenden Lösungsvorschläge.

Nun gibt es gut begründete Zweifel daran, ob ein solche Zusammenarbeit zwischen Forschung und Politik überhaupt funktionieren kann (vgl. Bellmann/Müller 2011). Denn zum einen muss man sich immer wieder vor Augen führen, dass Studien wie PISA zwar aufzeigen können, welche Probleme im Schulsystem existieren. Doch aus der Diagnose dieser Probleme erfolgt noch nicht die Therapie: Denn was politisch und was pädagogisch zu tun ist, um beispielsweise die Sprachförderung zu verbessern, bedarf sehr komplexer Überlegungen, in die auch Aspekte der Deutschdidaktik, der Migrationspädagogik und der Frühförderung mit einbezogen werden müssen. Zu all dem liefert PISA aber keine Informationen.

Ein weiterer Punkt kommt hinzu: PISA beliefert mit ihren Erkenntnissen keineswegs bevorzugt Politiker und Fachplaner, sondern bedient vor allem eine hochaktive Medienöffentlichkeit. Wenn dann die Forschungsergebnisse zu einer massiven öffentlichen Kritik führen wie bei PISA 2000, dann müssen Politikerinnen und Politiker durch rasches politisches Handeln verdeutlichen, dass sie die Probleme bewältigen werden: Sie können die vorliegende Forschung nicht lange analysieren, um "evidenzbasierte" Maßnahmen zu ergreifen, sondern sie müssen möglichst schnell populäre Vorschläge machen und umsetzen. Ein Beispiel hierfür: Obwohl im Jahr 2001 die vorliegende Forschung keine gesicherten Erkenntnisse über gesteigerte Leistungen in Ganztagsschulen vorweisen konnte, wurden mit dem Verweis auf PISA dennoch viele neue Ganztagsschulen eingerichtet (vgl. Tillmann u.a. 2008).

Lehrkräfte und Schulen

Welchen Nutzen haben nun aber Lehrkräfte und Schulen von solchen Studien? Die erste und systematisch zwingende Antwort lautet: Internationale Leistungsvergleichsstudien formulieren ausschließlich Aussagen auf der Ebene von Schulsystemen und den dort bestehenden Zusammenhängen. Die Anlage der Untersuchungen lässt es nicht zu, entsprechende Aussagen auch auf der Ebene einer einzelnen Schule oder gar einer Klasse zu treffen. Dazu ist die gewählte Stichprobe zu schmal, und die eingesetzten Tests sind für eine Individualdiagnostik nicht geeignet. So zeigt PISA beispielsweise auf, dass bundesweit in Grundschulen Migrantenkinder besonders häufig sitzenbleiben (vgl. Krohne u.a. 2004). Sie macht aber keine Aussage darüber, welche Faktoren in einer einzelnen Grundschule das Sitzenbleiben reduzieren können. Und sie kann auch kein individuelles Sitzenbleiber-Risiko ermitteln.

Aufgrund dieser Begrenzung darf die Beteiligung einer Schule an PISA (oder anderen internationalen Vergleichsstudien) auch nicht mit einer Evaluation dieser Schule verwechselt werden. Auf der Basis internationaler Leistungsvergleiche werden deshalb auch keine Schulrankings erstellt und keine Aussagen über die Qualität einzelner Schulen oder Klassen getroffen. Dies wird von anders angelegten Studien geleistet: Bei den Lernstandserhebungen, die in einem Bundesland bei allen Schülerinnen und Schülern eines Jahrgangs durchgeführt werden (z. B. VERA), werden die Ergebnisse an die Schulen und die Lehrkräfte zurückgemeldet. Diese Ergebnisse über die eigenen Klassen bieten dann einen sehr guten Ausgangspunkt, um in eine konkrete Unterrichtsentwicklung einzusteigen.

Allerdings ist es sehr wohl möglich (und auch empfehlenswert), die übergreifenden Ergebnisse von PISA als kritische Anfrage an die Praxis der eigenen Schule zu richten. Dazu zwei Beispiele: Weil Mädchen in Mathematik bei PISA vergleichsweise schlechtere Ergebnisse erzielen als Jungen, wäre zu fragen: Wie ist an unserer Schule beziehungsweise in meiner Klasse die Situation der Mädchen im Mathematikunterricht? Mit Blick auf die verhältnismäßig große Gruppe von Schülerinnen und Schülern, die über sehr geringe Lesefähigkeiten verfügen, wäre zu fragen: Wie viele besonders schwache Leserinnen und Leser haben wir, was tun wir zu ihrer Unterstützung?

Erziehungswissenschaftliche Forschung und Theoriebildung

Seit die Ergebnisse von internationalen Leistungsvergleichsstudien diskutiert werden, lässt sich ein ganz erheblicher öffentlicher Bedeutungsgewinn der empirischen Bildungsforschung feststellen. Bildungspolitikerinnen und -politiker beziehen sich bei der Begründung ihrer Positionen und Vorschläge immer häufiger auf PISA und andere Studien. Empirische Bildungsforscherinnen und -forscher werden viel häufiger als früher in die öffentliche Diskussion um das Bildungswesen einbezogen, indem sie beispielsweise in den Medien interviewt werden, und wirken bei der Fortentwicklung des Bildungssystem mit, indem sie von der Politik in beratende Kommissionen berufen werden. Doch es geht nicht nur um einen Zuwachs an Einfluss und Bedeutung, sondern auch um einen massiven institutionellen Ausbau. Seit Ende der 1990er Jahre wurde mit erheblichen öffentlichen Mitteln ein international konkurrenzfähiger Forschungsschwerpunkt auf Dauer eingerichtet. Zugleich ist es zu einem erheblichen Wachstum des empirischen Wissens sowohl über unser Schulsystem als auch über die Kompetenzstrukturen in bestimmten Bereichen gekommen. Allein auf Basis des ersten PISA-Tests 2000 wurden differenzierte Ergebnisse in mehr als zehn Büchern und in unzähligen Fachartikeln veröffentlicht. Dieses Wissen fließt vor allem ein in den wissenschaftlichen Diskurs, und es befördert die wissenschaftliche Karriere der Autorinnen und Autoren. Es kann also gut sein, dass weder die Bildungspolitik noch die Schulpraxis, sondern vor allem die Bildungsforschung selbst (und die darauf bezogene erziehungswissenschaftliche Theoriebildung) die große Gewinnerin der hier geschilderten Entwicklung ist.

Abschließende Einordnung

Die Leistungsvergleichsstudien, die das deutsche Schulwesen national und international in den empirisch-vergleichenden Blick genommen haben, haben zu einem erheblichen Zuwachs an gesichertem Wissen über Ergebnisse und Abläufe in unserem Schulsystem geführt. Wir sind viel besser als vor zehn oder fünfzehn Jahren informiert über fachliche Leistungen und soziale Auslese, über Probleme bestimmter Schülergruppen (z. B. Migranten) und Schulformen (z. B. Hauptschulen) sowie über die Situation in verschiedenen Bundesländern. Dabei wurden insbesondere nach dem "PISA-Schock" des Jahres 2001 etliche Reformmaßnahmen in allen Bundesländern angegangen.

Bei dieser positiven Bewertung dürfen jedoch die Grenzen solcher Studien nicht übersehen werden: Sie untersuchen nicht schulische Bildung insgesamt, sondern lediglich die Kompetenzen in ausgewählten Bereichen (meist Lesen, Mathematik, Naturwissenschaften). Sie ermitteln den bei Schülerinnen und Schülern erreichten Lernstand, aber sie untersuchen nicht die Prozesse, die dahin führen (z. B. Qualität von Unterricht). Sie machen die Defizite deutlich, die in unserem Schulsystem bestehen (z. B. schlechte Leseleistungen), ohne dass sich daraus aber gleich konkrete Verbesserungs-Programme ableiten lassen. Sie liefern für Politik und Praxis Hintergrundinformationen, aber eben keine unmittelbaren Handlungshilfen.

Kurz: Leistungsvergleichsstudien haben – wie andere Forschungsansätze auch – Stärken und Begrenzungen. Ein differenzierter Umgang mit ihren Ergebnissen setzt voraus, dass man beide Seiten sieht und berücksichtigt.

Akteure der Bildungspolitik

als Bürger/-in

auf Social Media

vor Ort

als Journalist/-in