Möglichkeiten, Grenzen und Perspektiven internationaler Bildungsforschung: das Beispiel TIMSS/III
Wilfried Bos/Jürgen Baumert
/ 21 Minuten zu lesen
Link kopieren
Zusammenfassung
Mit der Third International Mathematics und Science Study (TIMSS) liegen verläßliche Testdaten zu den Leistungen von mehr als einer halben Million Schülern aus rund 15 000 Schulen aus mehr als 40 Ländern vor. Durch die Oberstufenuntersuchung (TIMSS/III) wurde für Deutschland erstmalig das erreichte Wissens-und Fähigkeitsniveau der Schülerinnen und Schüler am Ende der Sekundarstufe II für den Bereich der mathematisch-naturwissenschaftlichen Grundbildung in beruflichen und allgemeinbildenden Schulen und für die Fachleistungen in Mathematik und Physik der gymnasialen Oberstufe erfaßt. Die Befunde aus TIMSS/III bestätigen im wesentlichen die Ergebnisse aus der TIMSS-Untersuchung der Sekundarstufe I. Die Testleistungen deutscher Schülerinnen und Schüler liegen am Ende ihrer Schullaufbahn ebenfalls in einem mittleren Bereich, die Unterschiede zu testleistungsbesseren Schülerpopulationen aus vergleichbaren europäischen Staaten und westlichen Industrienationen werden eher größer als kleiner. Die Abstände zu den Spitzengruppen sind groß, überproportional viele deutsche Schülerinnen und Schüler befinden sich auf den Stufen niedrigster Kompetenz. Neben internationalen Vergleichsdaten liegen mit TIMSS Ergebnisse vor, die eine Reihe von bildungspolitischen Auseinandersetzungen relativieren können und auf die Bedeutung der Unterrichts-dimension verweisen. Für die Lehreraus-und -fortbildung und die Fachdidaktiken wurden Hinweise zur Verbesserung des Unterrichts gegeben, Forschungslücken aufgezeigt und Programme zur Verbesserung des mathematisch-naturwissenschaftlichen Unterrichts initiiert.
I. Einleitung
In verschiedenen Ländern werden seit langem die Ergebnisse und die Bedingungen von Schule und Unterricht unter der Fragestellung, welche Bildungsziele unter welchen Randbedingungen von welchen Altersgruppen auf welchem Level erreicht werden, empirisch erfaßt, um Grundlagen für die Diskussion um Quantität und Qualität im Bildungswesen zu erhalten International ist darüber hinaus ein steigendes Interesse an supranationalen Schulleistungsuntersuchungen zu beobachten. Seit Jahrzehnten veröffentlicht die UNESCO bildungsstatistische Jahrbücher, die OECD gibt Bildungsindikatoren heraus und führt in Zukunft mit dem Progamm PISA (Programme for International Student Assessment) regelmäßig Schulleistungsuntersuchungen in den Mitgliedsländern durch. Der internationale Vergleich der Ergebnisse soll eine nationale Standortbestimmung erlauben, eine vielleicht zwingende Notwendigkeit im Prozeß zunehmender Europäisierung und Globalisierung. Deutschland beteiligte sich in den letzten Jahrzehnten nur vereinzelt an diesen Vergleichsstudien.
Die „Third International Mathematics and Science Study“ (TIMSS) steht in einer fast vierzigjährigen Tradition internationaler Schulleistungsvergleiche, die in weltweiten Forschungskooperationen durchgeführt wurden. Die internationale Gesamtverantwortung für TIMSS trägt die „International Association for the Evaluation of Educational Achievement“ (IEA) in Den Haag, der Vertreter von Ministerien, Universitäten und Forschungsorganisationen aus den teilnehmenden Ländern angehören Mit TIMSS wurden 15 Jahre nach den letzten IEA-Studien für den mathematisch-naturwissenschaftlichen Unterricht, der „First and Second International Mathematics Study“ und der „First and Second International Science Study“ -FIMS, SIMS, FISS und SISS -, wieder verläßliche Testdaten zu den Leistungen von insgesamt mehr als einer halben Million Schüler aus rund 15 000 Schulen in 46 Ländern ermittelt und Hintergrundinformationen über deren Unterricht, deren Lehrer und Schulen und Aspekte ihrer nichtschulischen Lebenswelt erfaßt. In einem zusätzlichen Dreiländervergleich -Deutschland, Japan, USA -wurden im Kontext dieser Erhebungen qualitative Schulfallstudien und für die Sekundarstufe 1 eine Videostudie über erteilten Unterricht durchgeführt. Bei TIMSS wurden insgesamt drei unterschiedliche Altersgruppen berücksichtigt: Mit der Population 1 wurde die Primarstufe, mit der Population 2 die Sekundarstufe I und mit der Population 3 (TIMSS/III) die Sekundarstufe II untersucht. Die Datenerhebung fand in allen teilnehmenden Ländern 1995 bzw. 1996 statt. Sie unterlag internationaler Kontrolle, ebenso wie die Stichprobenziehung, die Datenaufbereitung und die Skalierung der Testwerte Den nationalen Daten für den internationalen Vergleich liegt in Deutschland eine Stichprobe von insgesamt 3928 Schülern der gymnasialen Oberstufe und 1417 Schülern in beruflichen Bildungsgängen zugrunde, die an 152 Schulen getestet wurden. Mit dieser Stichprobe wurden Schüler erfaßt, die sich zum Zeitpunkt der Datenerhebung im letzten Jahr ihrer vollzeitlichen Ausbildung in der Sekundarstufe II im allgemeinbildenden oder beruflichen Schulwesen befanden. Jedes der an TIMSS teilnehmenden Länder war verpflichtet, mindestens die Populationen 2, d. h. die Sekundarstufe I, in die Untersuchung einzubringen. Siebzehn der 46 Länder nahmen mit allen drei Populationen an der Untersuchung teil, der größere Teil mit zwei Populationen. Für TIMSS/III liegen Vergleichsdaten aus 24 Ländern vor.
Die internationalen Leistungsergebnisse liegen vor ebenfalls der nationale Bericht für die Sekundarstufe I, in dem auch über die ersten Ergebnisse der TIMSS-Video-Studie berichtet werden Die deskriptiven Ergebnisse zu den Testleistungen der Sekundarstufe II sind veröffentlicht an der Primarstufenuntersuchung beteiligte sich Deutschland nicht. TIMSS/III hat nicht nur jeweils den Leistungsstand in mathematisch-naturwissenschaftlicher Grundbildung, gymnasialer Mathematik und gymnasialer Physik am Ende der Schullaufbahn erfaßt, sondern darüber hinaus ein weites Spektrum an Zusatzinformationen über die nationalen Bildungssysteme der teilnehmenden Länder, die Schulen, den Unterricht, das individuelle Lebensumfeld der Schüler, deren Einstellungen, Interessen und Wünsche etc. erhoben. Eine Publikation, die diese Einzelinformationen strukturiert und verknüpft international vergleichend darstellt, ist in Vorbereitung Ziel dieses Beitrages ist es, an einigen Beispielen aus TIMSS/III Möglichkeiten und Grenzen internationaler Schulleistungsforschung darzustellen und daraus resultierende Diskussionen und Perspektiven für das nationale Bildungswesen aufzuzeigen.
In TIMSS/III wurden drei verschiedene Tests eingesetzt: je ein Test zur voruniversitären Mathematik und Physik, die in der gymnasialen Oberstufe denjenigen Schülern vorgelegt wurden, die entsprechende Grund-bzw. Leistungskurse besucht hatten, und ein Test zur mathematisch-naturwissenschaftlichen Grundbildung, der sowohl in allgemeinbildenden Schulen als auch in beruflichen Bildungsgängen eingesetzt wurde. Durch eine Anzahl von Aufgaben war der Grundbildungstest mit den Tests zur voruniversitären Mathematik und Physik, und diese auch untereinander, verzahnt. Für den Test zur mathematisch-naturwissenschaftlichen Grundbildung wurde keine Lehrplangültigkeit vorausgesetzt. Mit diesem Test sollten für die Bereiche Mathematik und Naturwissenschaften Fähigkeiten erfaßt werden, die einer Person die erfolgreiche Teilnahme am sozialen, kulturellen und ökonomischen Leben in der Gesellschaft erlaubt (Personenfähigkeit). Alle Aufgaben, die hier verwendet wurden, basieren allerdings auf zentralen Unterrichtsstoffen der Sekundarstufe I, sie wurden aber möglichst in anwendungsorientierten Alltagssituationen präsentiert.
Für die Tests zur voruniversitären Mathematik und Physik wurde dagegen eine curriculare Validität angestrebt. Die internationale Testentwicklung basiert hier auf umfangreichen Curriculum-und Lehrwerkanalysen, einer Reihe von Pretests und der Begutachtung der Aufgaben durch internationale und nationale Expertengruppen. Sehr schnell stellte sich dabei heraus, daß für die voruniversitäre Mathematik und Physik ein internationales Kern-curriculum zugrunde gelegt werden kann. Dies ist auch nicht verwunderlich, da die Eingangsvoraussetzungen im tertiären Bildungsbereich international sehr ähnlich sind. Aufgaben mit mangelnder transkultureller Äquivalenz wurden nicht in die endgültige Testversion aufgenommen Bei den Testaufgaben wurden die hauptsächlichen Fachgebiete in voruniversitärer Mathematik (Analysis, Zahlen, Gleichungen und Funktionen, Geometrie, Wahrscheinlichkeitsrechnung und Statistik, Aussagenlogik und Beweise) und in voruniversitärer Physik (Mechanik, Elektrizität und Magnetismus, Wärmelehre, Wellen und Schwingungen, Teilchen-, Quanten-, Astrophysik, Relativitätstheorie) in genügender Differenzierung nach unterschiedlichen Anforderungsniveaus berücksichtigt. So wurde jeweils mit gut 40 Prozent der Aufgaben Wissens-bzw. Routineprozeduren und Anwendungen komplexer Prozeduren bzw. Problemlosen erfaßt. Weniger als 20 Prozent lagen im Bereich Beweisen und Begründen.
Darüber hinaus wurde bei allen Testbereichen darauf geachtet, daß die Aufgaben in verschiedenen Antwortformaten vorlagen. Neben Multiple-Choice-Aufgaben wurden sowohl Aufgaben mit kurzem als auch solche mit ausführlicherem Antwortformat eingesetzt. Die Aufgaben wurden mehrfach vom Englischen in die jeweilige National-sprache und wieder zurück übersetzt, um zu gewährleisten, daß die eingesetzten Testinstrumente in einer sprachlich und inhaltlich einwandfreien Version vorlagen. Für Deutschland können nach Einschätzung der Experten der entsprechenden Landesinstitute bzw. Ministerien mehr als 90 Prozent der hier eingesetzten Testaufgaben zur voruniversitären Mathematik und Physik als lehrplanvalide gelten. Darüber hinaus wurde in Deutschland auch die Unterrichtsvalidität erfaßt, indem die Fachleiter an den Schulen, an denen getestet wurde, befragt wurden, ob Aufgaben, wie sie im Test vorkommen, auch tatsächlich im Unterricht der entsprechenden Schule behandelt worden waren. Nach den Angaben der Fachleiter können mehr als 80 Prozent der Testaufgaben auch als unterrichtsvalide angesehen werden. Aus Platzgründen stellen wir hier nur einige Aufgabenbeispiele aus dem Bereich mathematischer und naturwissenschaftlicher Grundbildung vor (vgl. Abbildung 1).
Die Tests wurden so konstruiert, daß Fähigkeitsbzw. Kompetenzniveaus inhaltlich definiert und auf der Skala der Testwerte bestimmt werden konnten. Die Testwerte sind so skaliert, daß der internationale Mittelwert 500 und die Standardabweichung 100 beträgt. Im Beispiel 4 der Aufgaben zur mathematischen Grundbildung finden wir eine Aufgabe, die einfaches rechnerisches Denken im Alltag charakterisiert. Das richtige Ablesen des Graphen genügt, um die gestellte Frage richtig beantworten zu können. Um diese Aufgabe mit hinreichender Wahrscheinlichkeit lösen zu können, muß ein Schüler im Test mindestens über eine Personenfähigkeit von 435 Punkten verfügen. Von den getesteten Schülern in Deutschland lösten 71 Prozent diese Aufgabe richtig, von der internationalen Population 74 Prozent. Beispiel 3 steht für das Anwenden von Routinen -hier der Dreisatz. Auch diese Aufgabe wird national und international noch von fast drei Viertel der Schüler gelöst. Schwerer fallen Aufgaben wie im Beispiel 2, in denen es um das Verknüpfen von Operationen -hier Prozentrechnung und Rauminhalt -geht. Nur noch 26 Prozent der getesteten Schüler in Deutschland können diese Aufgabe richtig lösen. Ein angemessenes Argumentieren und Problemlosen, wie im Beispiel 1 verlangt, fällt dem größten Teil der Schüler am Ende der Sekundarstufe II schwer. Das Beispiel 4 der Aufgaben zur naturwissenschaftlichen Grundbildung aus dem Bereich der Biologie ist lösbar, wenn man weiß, daß gesunde Ernährung etwas mit Vitaminen zu tun hat. Diese Aufgabe auf der Stufe naturwissenschaftlichen Alltagswissens lösen knapp 90 Prozent der getesteten Schüler. Bei der zweiten Kompetenzstufe wird über das Alltagswissen hinaus das Erklären alltagsnaher Phänomene verlangt. So geht es im Beispiel 3 darum, zu erklären, wie man eine Grippe bekommt. Diese Aufgabe wird von rund zwei Drittel der getesteten Schüler gelöst. Auf der dritten Kompetenzstufe finden sich charakteristische Aufgaben, bei denen elementare naturwissenschaftliche Modellvorstellungen angewandt werden. Die Beispielaufgabe 2 aus dem Bereich der Physik kann nur gelöst werden, wenn das Konzept des Drucks als Verteilung einer Kraft auf eine bestimmte Grundfläche verstanden und angewandt wird. International wird diese Aufgabe von 41 Prozent und national von 52 Prozent der Testpopulation gelöst. Auf der obersten Kompetenzstufe müssen grundlegende naturwissenschaftliche Fachkenntnisse angewandt werden, wie in der Beispielaufgabe 1, bei der es um die Anwendung der Begriffe „potentielle Energie“ und „kinetische Energie“ geht. Während international knapp ein Drittel der getesteten Schüler diese Aufgabe bewältigt, sind es in Deutschland weniger als 20 Prozent.
Die Fachleistungstests für voruniversitäre Mathematik und Physik beinhalten die zentralen Stoff-gebiete der gymnasialen Oberstufe. Sie enthalten zusätzlich aber auch Aufgaben aus Stoffgebieten der Sekundarstufe 1, die in Problemstellungen eingebettet sind bzw. zum Wiederholungsrepertoire gehören. Sie enthalten auch Aufgaben auf sehr hohem Schwierigkeitsniveau, allerdings in einem niedrigeren Komplexitätsgrad als Abituraufgaben, so daß diese Aufgaben als Teilaufgaben bzw. Aspekte von Abituraufgaben gelten können. Ähnliche Fähigkeitsstufen wie für die mathematische Grundbildung und für die naturwissenschaftliche Grundbildung lassen sich auch für die voruniversitäre Mathematik und Physik bestimmen, aus Platzgründen werden hier die entsprechenden Beispiele ausgespart.
Nimmt man die Ergebnisse internationaler Schulleistungsvergleiche zur Kenntnis, so sind es häufig die Ranglisten, die im Vordergrund der Präsentation und Diskussion stehen. Einprägsam wie Fußballtabellen oder Medaillenspiegel vermitteln sie dem Betrachter ein scheinbar klares Bild über die Leistung der teilnehmenden Mannschaften oder Nationen. Im Rahmen einer Standortbestimmung können diese Informationen einen gewissen Beitrag leisten, allerdings nur, wenn umfassendere Betrachtungsweisen nicht ausgespart werden, die aufzeigen, welche Kriterien und Zusatzinformationen herangezogen werden müssen, um diese Ergebnisse sinnvoll interpretieren zu können. Da die internationale Berichterstattung zu TIMSS/III diese Übersichten nicht ausreichend differenziert darstellt und problematisiert, werden wir diesen Aspekt der Studie hier ebenfalls kurz darstellen, ehe wir uns mehr den weitergehenden Betrachtungen und Analysen zuwenden.
Nicht alle TIMSS/III-Länder nutzten die Möglichkeit, die Leistung in den drei Bereichen mathematisch-naturwissenschaftliche Grundbildung, vor-universitäre Physik und voruniversitäre Mathematik zu testen; neun Länder haben nur einen bzw. zwei dieser Bereiche erfaßt. Es können also nur jeweils die Länder miteinander verglichen werden, die den gleichen Bereich getestet haben. Darüber hinaus muß berücksichtigt werden, daß die Anteile der Alterskohorte, die bestimmte Bildungsprogramme durchlaufen, sehr unterschiedlich sind. So finden wir Länder mit hochselektivem und fakultativem voruniversitären Mathematikunterricht (z. B. die USA) ebenso wie Länder, die hohe Anteile der Alterskohorte in voruniversitäre allgemeinbildende Schulprogramme überführen und obligatorisch Mathematikunterricht erteilen (z. B. Österreich). Es ist bei den internationalen Vergleichen zu berücksichtigen, daß auch nur vergleichbare Populationsanteile einander gegenübergestellt werden.
Stellen wir in einem ersten Vergleich die Testergebnisse der Sekundarstufe I denen der Sekundarstufe II gegenüber (vgl. Tabelle 1), können wir für Deutschland feststellen, daß sich die Position im Mittelfeld verfestigt hat. Dies gilt für die meisten Länder. Darüber hinaus ist ein gewisser Schereneffekt zu erkennen. Die Abstände zu einer Reihe von Ländern mit durchschnittlich testleistungsbesseren, aber auch testleistungsschlechteren Schülern vergrößern sich, der Abstand zu den Schülern aus der Spitzengruppe ist erheblich.
Vergleichen wir auf Basis der Kompetenzstufen mathematischer Grundbildung Testleistungen deutscher Schüler (vgl. Tabelle 2) mit denen einiger europäischer Nachbarländer, so wird deutlich, daß wir nicht nur große Abstände zu der Spitzengruppe zu beobachten haben, sondern auch im Bereich der testleistungsschwächeren Schüler überproportional stark vertreten sind. Fast ein Drittel der Schüler der Sekundarstufe II überschreitet nicht die Stufe des Rechnerischen Denkens im Alltag. In Österreich und Norwegen verharren auf dieser Stufe rund 20 Prozent, in der Schweiz und in den Niederlanden gar nur gut zehn Prozent der vergleichbaren Population. Die Ebene des Argumentierens und Problemlösens erreichen von unseren Schülern nur sechs Prozent, in der Schweiz, den Niederlanden und Norwegen sind es doppelt so viele.
Ähnlich verhält es sich bei der naturwissenschaftlichen Grundbildung (vgl. Tabelle 3). Während mehr als ein Achtel der deutschen Schüler auf der Stufe des praktischen Alltagswissens verharren, sind dies in Österreich nur halb so viele, in der Schweiz und den Niederlanden gar nur gut zweiProzent. Gut ein Achtel der deutschen Schüler erreicht die oberste Kompetenzstufe der naturwissenschaftlicheti Fachkenntnisse, in Norwegen und der Schweiz sind dies rund ein Viertel und in den Niederlanden knapp ein Drittel der getesteten Population.
Bei den Fachleistungen in voruniversitärer Mathematik und Physik im internationalen Vergleich ergibt sich das gleiche Bild. Auch hier liegen die deutschen Schüler mit ihren Testleistungen im Mittelfeld, auch hier sind die Abstände zur Spitzengruppe erheblich.
Die Spanne des erteilten Mathematikunterrichts in den ersten acht Schuljahren reicht von 775 Zeit-stunden in Bulgarien bis zu 1 580 Zeitstunden in Frankreich. In Abbildung 2 ist der Zusammenhang zwischen den Testleistungen in Mathematik und der Unterrichtszeit dargestellt. Ein systematischer linearer Zusammenhang zwischen nominaler Unterrichtszeit und Testleistung ist hier nicht erkennbar. Die notwendige Unterrichtszeit für die Bewältigung des Stoffes scheint in allen Ländern gegeben; sie wird aber offensichtlich sehr unterschiedlich genutzt. Für Deutschland scheint der Wirkungsgrad der Unterrichtszeit nicht optimal zusein. Schüler einer Reihe von Ländern erreichen deutlich höhere Testleistungen bei einer geringeren Anzahl von Unterrichtsstunden. Ähnlich sind die Befunde für die Naturwissenschaften. Das gleiche Bild zeichnet sich bei den Fachleistungen in voruniversitärer Mathematik und Physik ab, auch wenn hier die wöchentliche Unterrichtszeit im Fach zugrunde gelegt wird.
Im internationalen Vergleich liegen die deutschen Schüler am Ende ihrer Schullaufbahn, wie schon in der Sekundarstufe I, im Mittelfeld. Dies gilt nicht nur für die beruflichen Schulen, sondern ebenso für die gymnasiale Oberstufe. Überproportional groß ist der Anteil derjenigen, die nicht die Schwellen zu höheren Kompetenzstufen überschreiten. Nur wenigen gelingt es, auf die Ebene höherer Kompetenz vorzudringen. Die Abstände der deutschen Schüler zu den meisten europäischen Nachbarländern und anderen wirtschaftlich wichtigen Nationen sind erheblich. Dieser schon in der Sekundarstufe I erkennbare Trend setzt sich in der Sekundarstufe I! fort, die Abstände werden eher größer als kleiner.
Neben internationalen Vergleichsdaten können mit internationalen Schulleistungsforschungen auch innerhalb eines Landes grundlegende Kenntnisse für eine sachbezogene Diskussion um das nationale Bildungswesen erzielt werden. Einige Beispiele sollen dazu im folgenden gegeben werden. Betrachten wir für den Bereich der mathematischen Grundbildung die Schüler aus den verschiedenen Bildungsgängen (vgl. Abbildung 3) so schneiden erwartungsgemäß die Schüler der gymnasialen Oberstufe und der theoretisch orientierten Bildungsgänge der beruflichen Schulen erheblich besser ab als die Schüler aus den Berufsfach-und Berufsschulen. Eine detaillierte Darstellung (vgl. Tabellen 4 und 5) macht hier deutlich, daß der allergrößte Teil -knapp 90 Prozent -der Schüler aus der praktisch orientierten Berufsbildung im Bereich mathematischer Grundbildung nicht die Kompetenzstufe des Verknüpfens von Operationen erreicht, weniger als ein Prozent die Schwelle zum Argumentieren und Problemlosen überschreitet. Daß immerhin die Hälfte der Schüler der gymnasialen Oberstufe ebenfalls nicht die Kompetenzstufe des Verknüpfens von Operationen erreicht, scheint bemerkenswert.
Im Bereich naturwissenschaftlicher Grundbildung verharrt fast die Hälfte der Schüler aus der praktisch orientierten Berufsbildung auf der Kompetenzstufe der Erklärung einfacher Phänomene, fast niemand erreicht hier die Stufe der Anwendung naturwissenschaftlicher Fachkenntnisse. Von den Schülern der gymnasialen Oberstufe erreicht weniger als ein Drittel dieses Kompetenzniveau.
Im internationalen Vergleich finden wir Länder mit expansivem voruniversitären Bildungssystem, in dem die Schüler hohe Testleistungen erzielen -z. B. Dänemark oder Frankreich aber auch Län-der mit expansivem Bildungssystem, in dem die Schüler niedrigere Testleistungen erzielen -z. B. Österreich oder Deutschland. Wir finden andererseits Länder mit selektiverem Zugang zur voruniversitären Bildung, die hohe Testleistungen bei ihren Schülern verzeichnen -z. B. die Schweiz oder Schweden aber auch Länder mit selektiverem Bildungssystem, in denen die Schüler bei den Tests relativ schlecht abschnitten -z. B. Italien oder USA. Auch innerhalb Deutschlands variieren die Expansionsraten erheblich. Wir finden Bundesländer, die gerade 20 Prozent einer Alterskohorte Einlaß in die gymnasiale Oberstufe gewähren, und wir haben Bundesländer, in denen mehr als 30 Prozent einer Alterskohorte die gymnasiale Oberstufe besuchen.
(Tabelle 4) (Tabelle 5)
Wie aus Abbildung 4 deutlich wird, findet sich bei diesen Ländergruppen kein systematischer linearer Zusammenhang zwischen der Expansionsrate und den mittleren Testleistungen vergleichbarer Schülergruppen. Im Bereich der mathematisch-naturwissenschaftlichen Grundbildung schneiden die Schüler in den höher selektiven Bundesländern etwas besser ab. Betrachten wir aber die Test-leistungen in voruniversitärer Mathematik bei den jeweils besten 20 Prozent, so haben diese Schüler keine höheren Testwerte. In voruniversitärer Physik schneiden die Schüler aus den Ländern, in denen fast ein Sechstel einer Alterskohorte dieses Fach belegt, nahezu gleich gut ab wie die Schüler in den Ländern, in denen nur halb so viele Schüler dieses Fach belegen. Eine stärkere Öffnung der gymnasialen Oberstufe geht hiernach also nicht zwangsläufig mit einem Rückgang des Leistungsniveaus einher, eine kognitive Mobilisierung -d. h. eine generelle Anhebung des Niveaus -durch eine stärkere Expansion ist aber ebenfall nicht nachweisbar.
Innerhalb eines föderalen Systems, in dem nahezu das ganze Schulwesen staatlich organisiert ist, sollte die Quantität und Qualität der Bildungsangebote auf einem ähnlichen Niveau liegen, um die Ausbildungsgüte, die Chancengleichheit und Mobilität zu gewährleisten. TIMSS bildet repräsentativ die Testleistung für Deutschland ab. Im Design der Untersuchung war aber nicht angelegt, systematisch Leistungsunterschiede von Schülern aus einzelnen Bundesländern abzubilden. Die Stichprobe ist allerdings für den Bereich der voruniversitären Mathematik groß genug, um die Bundesländer in etwa drei gleich große Leistungsgruppen aufzuteilen (vgl. Abbildung 5)., Im Grundkurs betragen die Unterschiede zwischen der unteren und der oberen Leistungsgruppe fast eine halbe Standardabweichung, im Leistungskurs immerhin noch mehr als ein Drittel. Diese Unterschiede sind nicht unerheblich, sie lie-gen in einer Größenordnung, die auch bei de internationalen Vergleichen die Ländergruppe voneinander differenzieren. Setzen wir die letzl Halbjahresnote in voruniversitärer Mathemati mit den Testleistungen in Zusammenhang (vg Abbildung 6), so sehen wir, daß die Benotung: maßstäbe zwischen den Ländergruppen innerhal unseres föderalen Systems ebenfalls erheblich varieren -ein bis zwei Notenstufen liegen Schüler bei gleichen Testleistungen auseinander. Dies ist bemerkenswert, werden über Abschlußnoten doch u. a. auch die Zugänge zum tertiären Bildungsbereich mit bestimmt.
Gelegentlich werden bildungspolitische Vorstellungen ohne ausreichende empirische Absicherung vertreten. Auch hier können Erkenntnisse aus internationalen Schulleistungsforschungen zur Erhellung der Sachverhalte beitragen. So ist z. B. die Auseinandersetzung um die Organisationsform der Abiturprüfung -zentral versus dezentral -in Deutschland nicht neu, wohl aber der Versuch, den Effekt auf Fachleistungen nachzuweisen. Als Ausgangshypothese wurde von uns angenommen, daß es in Deutschland keinen nennenswerten Effekt zwischen Organisationsform der Abschlußprüfungen und Testleistung gibt -wissen wir doch aus den Ergebnissen des internationalen Vergleichs, daß Länder mit zentral durchgeführten Prüfungen, wie z. B. Frankreich, ebensoexzellent abschneiden können wie Länder mit dezentraler Prüfungsorganisation, z. B. die Schweiz.
In Deutschland (vgl. Abbildung 7) sind die Testleistungen der Schüler aus Bundesländern mit zentral organisierter Abschlußprüfung in voruniversitärer Mathematik im Grundkurs nachweisbar besser als jene der Schüler aus Ländern mit dezentraler Abschlußprüfung. In den Leistungskursen wird der Unterschied gerade noch signifikant. In den Fachleistungen zur voruniversitären Physik gibt es dagegen keine zufallskritisch abzusichernden Unterschiede. Es scheint für dieses hochselektive Fach unerheblich zu sein, wie die Abschlußprüfung organisiert ist. Es läßt sich also auch in Deutschland keine einheitlich über Fächer'hinweg wirkende qualitätssichernde Funktion zentraler Prüfungen nachweisen. Für die eher im Rahmen eines „Pflichtfaches“ gewählte voruniversitäre Mathematik scheint zumindest auf Grundkurs-ebene die zentrale Prüfungsform ein mögliches Element der Standardsicherung zu sein.
V. Schluß
Abbildung 5
Abbildung 2: Zusammenhang zwischen nominaler Unterrichtszeit in Mathematik in den ersten acht Schuljahren und der Mathematikleistung am Ende der achten Jahrgangsstufe (Mittelwerte der Länder) Quelle: IEA. Third International Mathematics and Science Study. C TIMSS/III-Germany
Abbildung 2: Zusammenhang zwischen nominaler Unterrichtszeit in Mathematik in den ersten acht Schuljahren und der Mathematikleistung am Ende der achten Jahrgangsstufe (Mittelwerte der Länder) Quelle: IEA. Third International Mathematics and Science Study. C TIMSS/III-Germany
Die Leistungen deutscher Schülerinnen und Schüler liegen in den hier untersuchten Fächern im internationalen Vergleich im Mittelfeld. Dies gilt sowohl für die beruflichen Schulen als auch für die gymnasiale Oberstufe. Was sich in der Untersuchung zur Sekundarstufe I abgezeichnet hatte, setzt sich in der Sekundarstufe II fort. Die Abstände zu den führenden europäischen Nachbarstaaten werden eher größer als kleiner. Im Bereich der Spitzenleistungen sind die Unterschiede besonders auffällig. Aber auch der Anteil sehr testleistungsschwacher Schüler ist in Deutschland im Vergleich zu einigen Nachbarländern ungewöhnlich groß. Die relativen Stärken der deutschen Schulabsolventen liegen in der Lösung von Routineaufgaben; Schwächen -dies gilt für die mathematische, aber in besonderer Weise für die naturwissenschaftliche Grundbildung -werden immer dann sichtbar, wenn die Übertragung des Gelernten in neue Kontexte verlangt wird. Ein vergleichender Blick in den Mathematikunterricht der Mittelstufe von drei Ländern legt die Vermutung nahe, daß auch -natürlich nicht allein -die in der Lehrerbildung ein-geschliffene Art der Unterrichtsführung dafür mitverantwortlich sein könnte. Der Mathematikunterricht wird in Deutschland fast durchgängig fachlich kompetent, aber in einer kleinschrittigen, zu einer Lösung führenden Weise erteilt. Diese Unterrichts-führung läßt den Schülern wenig intellektuellen Spielraum. Die hohe fachliche Kompetenz der Lehrkräfte in Deutschland ist jedoch ein guter Ausgangspunkt für eine produktive Weiterentwicklung des Unterrichts.
Die Befunde des internationalen Vergleichs geben zunächst nur Zustandsbilder. Aber schon in dieser Funktion sind sie eine Realitätskontrolle gegenüber gängigen Vermutungen über vermeintliche Tatbestände und Zusammenhänge. TIMSS hat in der Öffentlichkeit Aufmerksamkeit gefunden und nicht wenige Protagonisten im Bildungssystem verärgert, weil deren Programme nicht durch die Ergebnisse gestützt wurden. Insofern liefert der internationale Vergleich gerade innerhalb Europas auch eine realitätsbezogene Meßlatte für das. was in schulischen Bildungsprozessen bei vergleichbarer Investition von Zeit und Geld erreicht werden kann. Die Befunde lassen sich aber auch -und zwar in sehr differenzierter Weise -im Hinblick auf die normativen Vorgaben der Lehrpläne und -soweit es um Mindeststandards geht -gleichermaßen im Hinblick auf die Erwartungen von Abnehmern interpretieren. Auch in dieser Hinsicht ist TIMSS ein Beitrag zur Realitätsprüfung. Wenn die Befunde die gesellschaftlich und politisch gesetzten Normen nicht treffen, ist dies allerdings noch lange kein Menetekel für die wirtschaftliche Prosperität der Bundesrepublik, wie in der öffentlichen Rezeption von TIMSS immer wieder unterstellt wird. Der Zusammenhang von in der Schule erzielten Fach-leistungen und der wirtschaftlichen Entwicklung ist mehr als indirekt und in einer Kausalkette auch nicht nachweisbar. Eher lassen sich die TIMSS-Ergebnisse als Indikator für die gesellschaftliche Wertschätzung von Bildung und die Bereitschaft, Mittel, Zeit und Anstrengung in Lernprozesse zu investieren, deuten. Insofern mögen die Befunde zu Recht Anlaß zur Nachdenklichkeit geben. Von einer. Krise kann jedoch keine Rede sein. Die TIMS-Studie hat einen wichtigen Zweck erfüllt, wenn sie dazu anregt, den reichen Schatz des bereits verfügbaren Wissens über Lernprozesse für eine produktive Schul-und Unterrichtsentwicklung verstärkt zu nutzen und, wo Wissenslücken bestehen, systematisch nach Ursachen zu forschen. Die Diagnose hat nur dienende Funktion, und ohne Entwicklung ist sie nichts wert.
Fragt man nach analytischen Erträgen von TIMSS, liegt die Stärke der Untersuchung weniger in Evidenzen, die spezifische Annahmen stützen, als vielmehr in der Entkräftung gängiger bildungspolitisch motivierter Erklärungsmuster. Einer der kaum zu überschätzenden Vorzüge von TIMSS ist die große Zahl der teilnehmenden Länder. Damit wird die organisatorische Varianz in einer Weise erhöht, die man in großen, föderal organisierten Staaten nicht vorfindet. Auf dieser Basis legen dieBefunde Schlußfolgerungen nahe, die auch in Deutschland helfen können, Problemzonen neu zu lokalisieren. So zeigt der internationale Vergleich, daß die Organisationsstruktur von Schulsystemen und die mathematisch-naturwissenschaftlichen Leistungsergebnisse praktisch unabhängig voneinander variieren. Ob ein Schulsystem zentral oder dezentral verwaltet wird, ob es die Ganz-oder Halbtagsschule präferiert, ob es gegliedert oder integriert organisiert ist, hat offenbar für die Ertragslage des Unterrichts keine eigenständige Bedeutung. Sich mit diesen Befunden anzufreunden fällt insbesondere manchen Vertretern der ideologischen Grabenkämpfe der vergangenen Jahre schwer. Man kann es gar nicht häufig genug wiederholen: Wenn der internationale Vergleich etwas in aller Deutlichkeit zeigt, dann die Obsoletheit des Schulstrukturstreits. Zukunftsaufgabe ist die Weiterentwicklung von Schule und Unterricht in situationsangemessener Form.
Ein weiterer Befund, der sich gut in das Ergebnis-muster der Schul-und Unterrichtsforschung einfügt, ist das Resultat, daß sich kein einzelner Faktor identifizieren läßt, von dem man eine durchschlagende Verbesserung der mathematisch-naturwissenschaftlichen Leistungsergebnisse erwarten könnte. Die Ergebnisse von Bildungsprozessen hängen von komplexen Bedingungsgefügen ab, deren Elemente oftmals wechselseitig, allerdings nicht beliebig, substituiert werden können. Es gibt keinen Königsweg zum Erfolg, sondern vielfältige Zugänge. Die optimale Lösung ist nur im Zusammenspiel sehr unterschiedlicher Faktoren -dazu gehören Kultur, Geschichte, Personen, Sache und Situation -zu ermitteln. Diese Vorstellung widerspricht jedem pädagogischen Dogmatismus. Sie hat aber den Vorzug, durch Ergebnisse der Schul-und Unterrichtsforschung gut belegt zu sein.
Versucht man aus den Befunden von TIMSS konstruktive Schlußfolgerungen zu ziehen, so sprechen die deskriptiven Ergebnismuster dafür, systematische Erklärungen für Leistungsunterschiede sowohl im Unterricht selbst als auch in den subsidiären Systemen zu suchen. Unterricht funktioniert nicht voraussetzungslos. Er ist auf den Rückhalt in unterschiedlichen Stützsystemen angewiesen, deren Zubringerleistungen den Unterrichtserfolg nicht unwesentlich mitbestimmen. Zu diesen Stützsystemen gehören zunächst der schulische Kontext selbst, der hinsichtlich der Professionalität des Lehrkörpers, der akademischen Kultur und Wertschätzung des jeweiligen Fachunterrichts sehr variieren kann. Dann das Elternhaus, das die schulische Arbeit in unterschiedlicher Weise mit-trägt, und nicht zuletzt die Bildungsnähe und Schulkultur einer Gesellschaft insgesamt, die den breiten normativen Rahmen definieren, in den das Lernen in der Schule und der Fachunterricht eingebettet sind. Sie bestimmen die generelle Wertschätzung schulischen Lernens, die Bereitschaft zur Anstrengung und Ausdauer und nicht zuletzt die Qualitätserwartungen. Will man Unterricht optimieren, muß man den systemischen Gesamtzusammenhang im Auge behalten, auch wenn man die Aufmerksamkeit zunächst auf einzelne Problemzonen konzentriert.
Wilfried Bos, Dr. phil. habil., geb. 1953; Hochschuldozent für Forschungsmethodologie an der Pädagogischen Hochschule in Erfurt. Veröffentlichungen u. a.: (zus. mit Jürgen Baumert und Rainer Watermann) TIMSS/III: Schülerleistungen in Mathematik und den Naturwissenschaften am Ende der Sekundarstufe II im internationalen Vergleich. Zusammenfassung deskriptiver Ergebnisse, 2. Auflage, Berlin 1999. Koordinierender Herausgeber von Tertium Comparationis -Journal für internationale Bildungsforschung. Jürgen Baumert, Dr. phil., geb. 1941; Geschäftsführender Direktor am Max-Planck-Institut für Bildungsforschung, Berlin; Professor an der Freien Universität und der Humboldt-Universität zu Berlin. Veröffentlichungen u. a.: (zus. mit Rainer Lehmann) TIMSS -Mathematisch-naturwissenschaftlicher Unterricht im internationalen Vergleich. Deskriptive Befunde, Opladen 1997; Internationale Schulleistungsvergleiche, in: Detlef H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie, Weinheim 1998.