I. Was wir aus internationalen Schülerleistungsvergleichen lernen können
Es ist ein empirisch untermauerter Befund, dass eine höhere Bildung zu größeren wirtschaftlichen Erfolgen im privaten Bereich führt. Dies gilt, wenn die Quantität der erworbenen Bildung, und noch mehr, wenn ihre Qualität der Maßstab ist.
Ein solcher Test, die internationale Schülerleistungsvergleichsstudie PISA ("Programme for International Student Assessment"), hat die schulpolitische Diskussion in Deutschland neu entfacht. Das schlechte Abschneiden deutscher Schülerinnen und Schüler im weltweiten Vergleich gilt als Indikator dafür, dass das deutsche Schulsystem offenbar viel zu wünschen übrig lässt. Nun ist PISA nur eine von vielen Studien, welche die Fähigkeiten von Schülern testen: Die TIMS-Studie ("Third International Mathematics and Science Study") war 1994/95 die erste internationale Studie seit langer Zeit, an der auch Deutschland teilnahm. Der TIMS-Nachfolgestudie 1999 (ohne Deutschland) folgte 2000 die PISA-Studie der OECD und 2001 die Studie "Progress in International Reading Literacy" (PIRLS), und es sind eine weitere TIMS-Nachfolgestudie 2003 sowie weitere PISA-Studien in den Jahren 2003, 2006 und 2009 geplant.
Im Beitrag wird der Frage nachgegangen, was wir aus den internationalen Schülerleistungsvergleichen lernen können. Zunächst einmal verdeutlichen diese, welchen Wissensstand deutsche Schülerinnen und Schüler in den Fächern Mathematik, Naturwissenschaften und Lesen im Vergleich zu Schülern anderer Länder haben (Abschnitt II). Weit aufschlussreicher ist aber, dass sich auf Basis der Vergleiche berechnen lässt, welchen Einfluss Faktoren wie der familiäre Hintergrund, die finanzielle Ausstattung von Schulen und die institutionelle Ausgestaltung des Schulsystems auf die Leistungen der Schüler haben. In Abschnitt III wird diskutiert, was eine wissenschaftliche Herangehensweise hierbei leisten kann.
Wie aus den empirischen Untersuchungen hervorgeht, ist der familiäre Hintergrund der Schüler entscheidend für deren Leistungen (Abschnitt IV). Als weitere Determinanten kommen die zwei grundlegenden Handlungsoptionen der Schulpolitik in Betracht (Abschnitt V): die Erhöhung der Ausgaben für die Schulen im gegebenen Schulsystem und die Veränderung der Struktur des Schulsystems. Die Analyse der internationalen Unterschiede in der finanziellen Ausstattung der Schulen kann eine Antwort auf die Frage geben, ob mehr Geld zu besseren Schülerleistungen führt; die Analyse der institutionellen Unterschiede in den Schulsystemen macht es möglich, von anderen Ländern hinsichtlich der Effektivität verschiedener institutioneller Ausgestaltungen des Schulsystems und ihrer Bedeutung für die Bildungs-(un)gleichheit von Kindern mit unterschiedlichen familiären Hintergründen zu lernen.
II. Die Leistungen deutscher Schüler: TIMSS und PISA
Die PISA-Ergebnisse haben ein relativ schlechtes Bild des Leistungsstandes deutscher Schüler gezeichnet. Allerdings ist die PISA-Studie nicht die erste ihrer Art; in der TIMS-Studie hatten deutsche Schüler bei genauem Hinsehen nicht besser abgeschnitten. Bei der TIMS-Mittelstufenstudie lagen die deutschen Schüler in der "Rangliste" der 39 teilnehmenden Länder auf Platz 22 in Mathematik und Platz 16 in den Naturwissenschaften. Bei PISA lagen sie unter 31 Teilnehmerstaaten auf Rang 21 in Lesen und Rang 20 in Mathematik und in den Naturwissenschaften. Ein Problem von solchen Ranglistenplätzen ist aber, dass ihre Aussagekraft davon abhängt, welche Länder an den Vergleichsstudien teilgenommen haben. So hat etwa Finnland, das bei der PISA-Lesestudie den ersten Platz belegte, an TIMSS nicht teilgenommen. Und viele der Länder, die bei TIMSS schlecht abgeschnitten haben (wie z.B. Kolumbien, Iran und Litauen), beteiligten sich nicht an der PISA-Studie. Ein weiteres Problem der Ranglisten besteht darin, dass sie keinen Aufschluss darüber geben, ob der Abstand zwischen den Ländern groß oder klein ist. Berücksichtigt man nur die 24 Länder, die sowohl an TIMSS als auch an PISA teilgenommen haben, und betrachtet man - statt auf die oftmals irreführenden Ranglistenplätze zu schauen -, wie Deutschland relativ zum Durchschnitt dieser 24 Länder abgeschnitten hat, so ergibt sich kaum ein nennenswerter Unterschied: Das Leistungsniveau deutscher Schülerinnen und Schüler entsprach bei den PISA-Tests 97 Prozent des internationalen Durchschnitts, während es bei den TIMSS-Tests 99 Prozent waren. Das deutsche Leistungsniveau war bei TIMSS also ähnlich mittelmäßig wie bei PISA.
Es kommt noch hinzu, dass - im Gegensatz zur PISA-Studie - deutsche Schüler bei TIMSS im Schnitt um einiges älter waren als Schüler aus den anderen teilnehmenden Ländern. Während die Zielpopulation der TIMS-Studie die beiden Jahrgangsstufen mit dem größten Anteil an 13-Jährigen waren, was in Deutschland der 6. und 7. Klasse entsprochen hätte, wurden hier jedoch die Klassen7 und 8 getestet - aber nur zwei Prozent der Achtklässler in Deutschland sind 13 Jahre alt.Damit gehört Deutschland bei TIMSS zu den vier Ländern, die den Alters-/Jahrgangs-Vorgaben nicht nachgekommen sind. Die bei TIMSS getesteten deutschen Schüler hatten ein Durchschnittsalter von 14 Jahren und drei Monaten, das Durchschnittsalter der Schüler aus den anderen OECD-Ländern lag aber nur bei 13 Jahren und acht Monaten. Deutschland hatte unter diesen Ländern mit Abstand die älteste Population.
In der PISA-Studie, deren Zielpopulation in allen Ländern die 15-Jährigen waren, gehörten die deutschen 15-Jährigen vergleichsweise niedrigen Jahrgangsstufen an: Während zwei Drittel der 15-Jährigen aller OECD-Länder der 10. bis 13. Jahrgangsstufe angehörten, waren über drei Viertel der deutschen 15-Jährigen in der 7. bis 9. Jahrgangsstufe. Bei den PISA-Ergebnissen fällt auf, dass deutsche Schüler bei einem Vergleich innerhalb jeder Jahrgangsstufe zwischen drei und fünf Prozent über der OECD-Durchschnittsleistung der jeweiligen Jahrgangsstufe liegen. Das heißt, 15-jährige Neuntklässler aus Deutschland sind besser als der OECD-Durchschnitt etc. Nur befinden sich die meisten deutschen 15-Jährigen im Vergleich zum OECD-Durchschnitt in niedrigeren Jahrgangsstufen. Ein großer Teil des Problems scheint somit darin zu liegen, dass 15-Jährige aus Deutschland zu wenige Jahrgangsstufen durchlaufen haben, was auf eine spätere Einschulung und das Wiederholen von Klassen zurückzuführen sein dürfte. Auf den Punkt gebracht ließe sich sagen: Deutsche Schüler sind zu alt für ihr Wissen - oder sie wissen zu wenig für ihr Alter. Dies galt für TIMSS schon genauso wie für PISA.
Leider haben die TIMSS-Ergebnisse in Deutschland nicht zu nennenswerten Konsequenzen geführt. Dies dürfte auch daran liegen, dass eine Analyse der Ursachen des schlechten Abschneidens deutscher Schüler, oder der Ursachen des unterschiedlichen Abschneidens von Ländern generell, kaum stattgefunden hat. Dies könnte auch bei PISA der Fall sein. Kommentatoren verschiedenster Couleur haben sich allzu oft damit begnügt, lang gehegte (Vor-)Urteile aufzuwärmen. Dies ist umso bedauerlicher, als doch gerade die internationalen Vergleichsstudien die Fakten liefern, die eine fundierte Analyse ermöglichen würden. Letztlich kann nur in Fakten begründete Evidenz, und nicht das Wiederholen wenig belegter Ansichten, die bildungspolitische Diskussion wirklich weiterbringen.
III. Warum es einer wissenschaftlichen Herangehensweise bedarf
1. Irreführende Vergleiche mit einzelnen "Musterländern"
Mit dem Ziel, Konsequenzen für die deutsche Schulpolitik abzuleiten, sind in der öffentlichen Diskussion der PISA-Ergebnisse häufig einfache Ländervergleiche angestellt worden. So wurde etwa aus dem ersten Platz Finnlands in der PISA-Lesestudie gefolgert, Deutschland benötige ebenfalls ein integriertes Schulsystem mit Ganztagsschulen. Wie irreführend solche simplen Vergleiche sein können, zeigen folgende Beispiele: Genau wie Finnland hat auch Griechenland ein bis zur neunten Jahrgangsstufe integriertes Schulsystem. Nun liegt aber Griechenland in der PISA-Studie noch weit hinter Deutschland - auf Rang 25 in Lesen und Naturwissenschaften und auf Rang 28 in Mathematik. Weitere Beispiele für integrierte Schulsysteme (bis zur achten Jahrgangsstufe) sind Italien, Polen und Ungarn, die bei PISA ähnlich schlecht wie Deutschland oder noch schlechter abgeschnitten haben. Was Ganztagsschulen anbelangt, so wird etwa in Luxemburg zumindest an drei Tagen pro Woche nachmittags unterrichtet - und dennoch hat das Land in allen drei PISA-Bereichen nur den 29. Rang belegt.
Eine weitere Forderung, die in der PISA-Diskussion in Deutschland aufgrund von bilateralen Ländervergleichen oftmals gestellt wurde, ist die Verringerung der Klassengrößen. Dabei könnte man Deutschland (mit einer durchschnittlichen Klassengröße von 24 Schülern) auch mit Japan oder Südkorea - den beiden Ländern, die in Mathematik und den Naturwissenschaften die ersten beiden Plätze belegen - vergleichen. Die durchschnittliche Klassengröße beträgt in Japan 39 Schüler und in Südkorea 38 Schüler.
Mit der Forderung nach kleineren Klassen geht zumeist die Forderung nach höheren Ausgaben für die Schulen einher. Der internationale Vergleich legt aber nahe, dass Leistungsunterschiede nicht auf die Ausgabenhöhe zurückzuführen sind. Irland und Südkorea geben z.B. pro Schüler rund ein Viertel weniger aus als Deutschland (gemessen als kumulative Ausgaben in Kaufkraftparität), schneiden bei PISA aber wesentlich besser ab. In Deutschland liegen die kumulativen Ausgaben pro 15-jährigem Schüler ziemlich genau im OECD-Durchschnitt. Schaut man sich die Ausgaben pro Schüler und die PISA- oder TIMSS-Ergebnisse an, so ergibt sich überhaupt kein systematischer Zusammenhang: Länder mit höheren Ausgaben weisen im Durchschnitt keine besseren Schülerleistungen auf.
Als Konsequenz bleibt festzuhalten, dass simple bilaterale Ländervergleiche völlig irreführende Ergebnisse liefern können. Sie bergen immer die Gefahr, dass das Vergleichsland herausgepickt wurde, das am besten zu der eigenen Argumentation passt. Um fundierte Schlussfolgerungen aus den internationalen Vergleichsstudien ziehen zu können, müssen daher möglichst viele Länder zugleich berücksichtigt werden.
2. Was die Regressionsanalyse leistet
Die Ergebnisse legen aber noch einen zweiten Schluss nahe: Es kann ebenso irreführend sein, sich ausschließlich auf einen einzigen Einflussfaktor zu beschränken (bivariate Analyse zwischen einem Einflussfaktor und einer Zielgröße). In der Realität wirken immer mehrere Faktoren zusammen, etwa Unterschiede im familiären Hintergrund, in der Klassengröße, in Merkmalen der Lehrer und in den institutionellen Rahmenbedingungen. Zu welchen Problemen dies führen kann, soll das folgende (hypothetische) Beispiel zeigen: In ländlichen Regionen liege das Ausbildungsniveau der Eltern im Durchschnitt unter dem in städtischen Regionen. Man stelle sich vor, dass es keinen ursächlichen Einfluss auf die Schülerleistungen hat, in welcher Region ein Kind zur Schule geht, dass aber eine stärkere Unterstützung der Kinder durch besser ausgebildete Eltern zu höheren Leistungen der Kinder führe. Wenn man nun in einer bivariaten Analyse die elterliche Bildung ignoriert und den Leistungsstand der Schüler nur dem Standort der Schule gegenüberstellt, dann würden Schüler in ländlichen Regionen schlechter abschneiden. Es wäre aber falsch, dies als eine Wirkung der ländlichen Region zu interpretieren: Die Ursache für die unterschiedlichen Leistungen wäre in diesem Beispiel nicht der regionale Standort, sondern der elterliche Bildungsstand; würde man diesen entsprechend berücksichtigen, so ergäbe sich kein Zusammenhang zwischen Schülerleistung und regionalem Standort.
Es ist daher eine geeignete statistische Methode erforderlich, um mehrere Einflussfaktoren auf einmal berücksichtigen zu können und die Einflüsse der verschiedenen potenziellen Faktoren voneinander zu unterscheiden. Dies leistet die so genannte Regressionsanalyse: Sie berücksichtigt viele Länder und Einflussfaktoren auf einmal, und die Wirkung jedes Faktors wird so berechnet, dass die Einflüsse aller anderen Faktoren herausfallen. Dabei wird gewissermaßen der Einfluss aller anderen Faktoren auf die Schülerleistungen "konstant gehalten".
Ein Beispiel aus der TIMSS-Untersuchung kann die Bedeutung dieser wissenschaftlichen Herangehensweise im Unterschied zum bivariaten Vergleich verdeutlichen. Die Frage sei, ob das Testergebnis eines Schülers durch den Umstand beeinflusst wird, dass seine Eltern nicht im Inland geboren sind. Wenn man diesen Zusammenhang bivariat für alle Teilnehmer der TIMS-Mittelstufenstudie berechnet, so ergibt sich zwischen Schülern, deren Eltern im Inland geboren wurden, und Schülern, deren Eltern nicht im Inland geboren wurden, kein signifikanter Leistungsunterschied. Bei einer internationalen Durchschnittspunktzahl von 500 mit einer Standardabweichung von 100 beträgt der Unterschied nur 0,7 Punkte und ist statistisch nicht signifikant von null zu unterscheiden. Dieser Befund ändert sich aber, wenn man den Einfluss von weiteren Faktoren wie Alter des Schülers, Bildungsstand der Eltern, Lehrermerkmale, Klassengröße und institutionelle Rahmenbedingungen des Schulsystems herausrechnet. In einer Regressionsanalyse, die die Einflüsse dieser anderen Faktoren konstant hält, ergibt sich ein statistisch signifikanter Unterschied: Kinder von im Inland geborenen Eltern schneiden um 7,3 Punkte besser ab. Berücksichtigt man bei der Berechnung neben den genannten Einflussfaktoren auch noch, dass es einen Unterschied macht, ob der Schüler selbst im Inland geboren wurde oder nicht, so schrumpft die mit dem Geburtsland der Eltern zu erklärende Differenz auf (statistisch signifikante) 4,0 Punkte.
Ein Faktor kann also durchaus einen Einfluss haben, obwohl er bei bivariater Beobachtung unerheblich zu sein scheint. Umgekehrt ist es auch möglich, dass ein im Rahmen einer bivariaten Betrachtung scheinbar einflussreicher Faktor bei einer multivariaten Analyse keine Wirkung zeigt. Auch die Größe des geschätzten Effektes hängt wesentlich davon ab, ob die Einflüsse anderer Faktoren herausgerechnet werden. Deshalb ist eine fundierte wissenschaftliche Herangehensweise unverzichtbar, wenn man den tatsächlichen Einfluss der vielen verschiedenen Faktoren auf die Schülerleistungen herausfinden will. Dies bedarf detaillierter Arbeiten, die für die PISA-Studie noch nicht in ausreichendem Umfang vorliegen. Mit Bezug auf den weitgehend explorativen Charakter der bisher vorliegenden Analysen betont die OECD selbst, dass "weitere umfangreiche Forschungsarbeiten und Analysen erforderlich" sind, um den Einfluss der verschiedenen Faktoren auf schulische Leistungen der Schüler zu verdeutlichen.
IV. Familiärer Hintergrund und Schülerleistungen
Im Gegensatz zur PISA-Studie liegen für die beiden TIMS-Studien schon detaillierte Analysen der Einflussfaktoren auf die schulischen Leistungen vor, und an den TIMS-Studien hat auch eine größere Anzahl von Ländern teilgenommen. In mikroökonometrischen Regressionsanalysen ist für die TIMS- und die TIMS-Nachfolge-Studie im Einzelnen untersucht worden, wodurch die schulischen Leistungen der rund 450 000 Schülern des siebten und achten Jahrgangs aus 54 Ländern in den Bereichen Mathematik und Naturwissenschaften bestimmt sind. Die untersuchten Einflussfaktoren lassen sich in drei Gruppen einteilen: der familiäre Hintergrund, die finanzielle Ausstattung der Schulen und die institutionelle Ausgestaltung des Schulsystems. Die wichtigsten Ergebnisse dieser Untersuchungen werden im Folgenden dargestellt.
Der familiäre Hintergrund der Schüler erweist sich als der Faktor mit dem stärksten Einfluss auf die Schülerleistungen. So erzielten Schüler, deren Eltern ein abgeschlossenes Universitätsstudium aufweisen, im internationalen Mathematikvergleich 40 Punkte mehr als Kinder von Eltern ohne Sekundarbildung. Wie groß dieser Effekt ist, wird deutlich, wenn man bedenkt, dass der durchschnittliche Leistungsunterschied zwischen Schülern des siebten und des achten Jahrgangs ebenfalls 40 Punkte beträgt. Auch schnitten Schüler, deren Eltern im Inland geboren wurden, sowie Schüler, die mit beiden Elternteilen zusammenleben, in den Leistungstests deutlich besser ab.
Der starke Einfluss des familiären Hintergrunds findet sich nicht nur im internationalen Vergleich, sondern auch in jedem einzelnen Land. Und er spiegelt sich auch darin wider, dass sich in den meisten Ländern ein Viertel bis ein Fünftel der Leistungsunterschiede auf die wenigen messbaren Merkmale des familiären Hintergrunds zurückführen lässt. Dies ist ein Großteil der überhaupt statistisch erklärbaren Leistungsstreuung; Schulmerkmale wie Ausstattung, Lehrereigenschaften oder Schulautonomie tragen weit weniger zur Erklärung der Leistungsunterschiede zwischen Schülern bei.
Mit Hilfe der TIMS-Studie lässt sich auch der Einfluss der Familie in verschiedenen Ländern vergleichen.
Über die Wirkungsmechanismen des familiären Einflusses lässt sich indes nur spekulieren. Einerseits ist es sicherlich so, dass das familiäre Umfeld - u.a. durch erzieherische Maßnahmen, familiäres Lernen im Vorschulalter sowie familiäre Bildungsunterstützung begleitend zum schulischen Lernen - das Lernen der Schüler außerhalb der Schule produktiv unterstützt. Andererseits könnte ein Teil des familiären Einflusses auch auf vererbte Fähigkeiten zurückzuführen sein.
Erwiesen ist hingegen, dass der familiäre Einfluss von der institutionellen Ausgestaltung des Schulsystems abhängt. So ist dieser in solchen Ländern signifikant geringer, die ein zentrales Prüfungssystem aufweisen. Dort ist etwa der Unterschied zwischen Einwanderer- und einheimischen Kindern und der Unterschied zwischen Kindern, deren Eltern einen unterschiedlichen Bildungshintergrund aufweisen, geringer.
V. Schulpolitik undSchülerleistungen:Der Einfluss von Ausgaben undinstitutioneller Struktur
Damit sind wir bei den Einflussmöglichkeiten der Schulpolitik angelangt, die hier in zwei große Bereiche eingeteilt werden sollen: einerseits die finanzielle Ausstattung und andererseits die institutionelle Struktur des Schulsystems. Die empirischen Ergebnisse der Regressionsanalysen untermauern den zuvor angesprochenen bivariaten Befund, dass ein höheres Ausgabenniveau im internationalen Vergleich nicht mit besseren Schülerleistungen einhergeht.
Während die Ergebnisse der Ausgabenpolitik also ambivalent sind und allgemeine Ausgabenerhöhungen nicht zum Ziel zu führen scheinen, hat die institutionelle Struktur des Schulsystems nachweisbar starke Effekte auf den Leistungsstand der Schüler. So erzielten Schüler in Schulsystemen mit zentralen Prüfungen erheblich bessere Leistungen als Schüler dort, wo Schulen oder Lehrer die Prüfungen selber festlegen können.
Zudem hat die Verteilung der Entscheidungsmacht zwischen den Schulen und der Schulverwaltung starken Einfluss auf die Schülerleistungen. Generell scheinen von einer größeren Schulautonomie positive Effekte auszugehen - aber nur dann, wenn Schulen in Feldern wie der Beschaffung von Lehrmitteln sowie der Auswahl und Vergütung der Lehrer frei entscheiden können. In Bereichen wie der Festlegung des Curriculums, der Genehmigung zulässiger Lehrbücher und der Festsetzung des Schulbudgets scheint sich dagegen eine externe Kontrolle positiver auf den Leistungsstand der Schüler auszuwirken.
Die Stellung der Lehrer im Schulsystem hat ebenfalls Auswirkungen auf den Leistungsstand der Schüler, und zwar in Abhängigkeit vom Entscheidungsfeld und von der Art und Weise der Einflussnahme. Eine hohe Lehrmittelverantwortung der Lehrer und eine regelmäßige Überprüfung der Schülerleistungen führt zu einem effektiveren Unterricht. Demgegenüber wirkt sich eine starke Einflussmöglichkeit der Lehrer auf die Festsetzung des Budgets oder des abzudeckenden Themenumfangs bzw. der Lehrergewerkschaften auf das Curriculum negativ auf die Effizienz des Schulsystems aus.
Die institutionellen Einflüsse auf die Schülerleistungen lassen sich verstehen, wenn man bedenkt, dass Menschen auf Anreize reagieren. Nur wenn die Anreize für die am Bildungsprozess beteiligten Personengruppen - Schüler, Lehrer, Schulleiter, Schulverwaltung, Eltern - so gestaltet sind, dass sich der Einsatz für höhere Schülerleistungen auch wirklich lohnt, werden sie sich auch in diesem Sinne verhalten. Daher müssen die institutionellen Rahmenbedingungen im Schulsystem, welche die gegebenen Handlungsfreiräume und Anreize bestimmen, so gesetzt werden, dass sich leistungsförderndes Verhalten für alle Beteiligten lohnt. Dies gilt gerade auch in Bezug auf die Leistungen von Schülern mit einem schwächeren familiären Hintergrund.
Die Einflüsse der institutionellen Gegebenheiten summieren sich auf insgesamt über 200 Punkte in Mathematik und 150 Punkte in Naturwissenschaften. Der maximale, durch institutionelle Unterschiede zu erklärende Leistungsunterschied in Mathematik ist also rund fünfmal so groß wie die Punktzahl, die Schüler der achten Klasse im Durchschnitt mehr erreichen als Schüler der siebten Klasse - fünfmal so groß wie das gelernte Wissen eines ganzen Schuljahres. Mit der richtigen Ausgestaltung des Schulsystems steht also viel auf dem Spiel.
Als wichtigste Konsequenz der internationalen Schülerleistungsstudie TIMSS und ihrer Nachfolgestudie PISA für die Schulpolitik lässt sich deshalb festhalten, dass Erfolg im Schulsystem nicht in erster Linie vom allgemeinen Ausgabenniveau abhängt, sondern eher von den institutionellen Rahmenbedingungen der Schulen. Der internationale Vergleich spricht gegen die Annahme, dass mehr Geld allein zu besseren Leistungen führen würde.
Weiterführende Internetadressen des Autors:
Verweise auf zahlreiche weitere Veröffentlichungen des Autors:
Externer Link: Informationen zu TIMSS und TIMSS-Repeat gibt es unter: