Intelligenz-Struktur-Test I-S-T 70 von Amthauer


1. Art des Tests

Der Intelligenz- Strukturtest ist ein objektives Verfahren zur Bestimmung der Intelligenz, das besonders für Gruppenuntersuchungen geeignet ist, aber auch im Einzelversuch angewendet werden kann. Mit ihm gewinnt man nicht nur einen zuverlässigen Befund über das Intelligenzniveau, sondern auch einen Einblick in die Struktur der Intelligenz. Der IST-70, der für die Prüfung 12 - 60-jähriger genormt ist, ist in bezug auf Gültigkeit, Zuverlässigkeit und Objektivität gesichtert. Er eignet sich für psychologisch-diagnostische Untersuchungen ebenso wie für alle Arten von Untersuchungen, die sich mit Intelligenz oder Begabung beschäftigen. So wird er beispielsweise zur Vorhersage von Ausbildungs- und Berufserfolg verwendet und gilt in deutschen Betrieben und Unternehmen als der mit Abstand am häufigsten verwendete Eignungstest.

2. Entstehungsgeschichte

3. Grundkonzept

Nach Amthauer ist Intelligenz eine strukturierte, intellektuelle Leistungsdisposition, die sich in den Testleistungen des Individuums manifestiert.

Die lntelligenzstruktur ist hierarchisch aufgebaut. Dominante Intelligenzzüge lassen weniger dominante in demnHintergrund treten und beeinflussen und prägen diese.

Der Intelligenzstruktur - Test mißt, wie der Name schon sagt, nicht nur das Intelligenz - Niveau der jeweiligen Person sondern gibt auch Einblick in die „Struktur“ der Intelligenz.

4. Testmaterial und Testaufbau

a) Testmaterial

Das Testmanual besteht aus den Testheften der Parallelformen A1und B2 und einem Fragebogen für den Untertest Merkfähigkeit. Für die einzelnen Untertests wird mit Ausnahme des Untertests Merkfähigkeit, für den es das erwähnte Aufgabenblatt gibt, kein spezielles Material verwendet. Alle für den Probanden wichtigen Anweisungen sind dem Testheft zu entnehmen.

Ferner gibt es eine Handanweisung, die unter anderem auch Normtabellen und Beispielprofile zur Auswertung und Interpretation enthält.

Zur Testdurchführung werden außerdem Bleistifte, Radiergummi und eine Stoppuhr benötigt.

b) Testaufbau

Der I-S-T 70 besteht aus 9 Untertests, die sich inhaltlich vier Bereichen zuordnen lassen: sprachliche Aufgaben (Satzergänzung, Wortauswahl, Analogien und Gemeinsamkeiten), rechnerische Aufgaben (Rechenaufgaben und Zahlenreihen), räumliches Vorstellen (Figurenauswahl und Würfelaufgaben) sowie Merkaufgaben. Jeder Untertest setzt sich aus 20 Einzelaufgaben zusammen.

Im Testheft gibt es für jeweils einen Untertest eine Beispielseite, auf der die Aufgabenstellung erläutert und an Hand von Beispielen verdeutlicht wird. Auf der jeweiligen Rückseite befinden sich dann die zu beantwortenden Fragen.

Einzelne Untertests:

SE = Satzergänzung

Beispiel: Ein Kaninchen hat am meisten Ähnlichkeit mit einem (einer)...?
a. Katze
b. Eichhörnchen
c. Hasen
d. Fuchs
e. Igel

Bedeutung:“Urteilsbildung“, und „selbständiges Denken“

WA = Wortauswahl

Unter fünf vorgegebenen Wörtern soll das Wort gefunden werden, das vier untereinander ähnlichen Wörtern unähnlich ist. Welches Wort paßt nicht zu den anderen vier?

Beispiel:
a. Tisch
b. Stuhl
c. Vogel
d. Schrank
e. Bett

Bedeutung: „Erfassung von sprachlichen Bedeutungsinhalten“; Sprachgefühl und „induktiv sprachliches Denken“ werden geprüft.

AN = Analogien

Beispiel:
Wald : Bäume = Wiese : ?
a. Gräser
b. Heu
c. Futter
d. Grün
e. Weide

Bedeutung: „Kombinationsfähigkeit“; Erfassen und Übertragen von Beziehungen sowie Klarheit und Folgerichtigheit von Beziehungen sich gefordert.

GE = Gemeinsamkeiten

Für zwei von sechs vorgegebenen Wörtern existiert ein Oberbegriff. Welche Wörter gehören zusammen?

Beispiel:
a. Messer
b. Butter
c. Zeitung
d. Brot
e. Zigarre
f. Armband

Bedeutung: „sprachliche Abstraktionsfähigkeit“ , Begriffsbildung

ME = Merkaufgaben

Innerhalb von 3 Minuten sollen 25 Begriffe gelernt werden, die dann später abgefragt werden.

Beispiel:
Das Wort mit dem Anfangsbuchstaben A war ein (eine)...?
a. Sportart
b. Nahrungsmittel
c. Stadt
d. Beruf
e. Bauwerk

Bedeutung: „Merkfähigkeit“
Anmerkung: Aus technischen Gründen kommt dieser Untertest bei der Durchführung an letzter Stelle.

RA = Rechenaufgaben

Beispiel:
Ein Bleistift kostet 25 Pfennige. Wieviel kosten dann drei Bleistifte?

Bedeutung: „Praktisch rechnerisches Denken“; schlußfolgerndes Denken wird geprüft.

ZR = Zahlenreihen

Nach der Versuchsperson unbekannten Regeln aufgestellte Zahlenreihen müssen der Regel entsprechend weitergeführt werden.

Beispiel:
2,4,6,8,10,12,14,?

Bedeutung: „Theoretisch - rechnerisches Denken“; Beweglichkeit und Umstellungsfähigkeit im Denken werden getestet.

FA = Figurenauswahl

Welche Figur erhält man durch das Zusammenlegen der dargestellten Einzelteile?

Bedeutung:“Vorstellungsfähigkeit“; die „gestaltend - konstruktive“ Komponente ist hier angesprochen.

WÜ = Würfelaufgaben

Welcher der dargestellten Würfel wurde so gedreht, daß er jetzt dem Abbild des unteren Würfels entspricht?

Bedeutung: „Räumliches Vorstellen - Können“
Anmerkung: Dieses Merkmal ist von konventioneller Bildung weitgehend unabhängig.

5. Anwendungsbereiche

6. Durchführung:

7. Auswertung:

8. Interpretation:

9. Angaben zur Normierung:

In die Normierung gehen mehr als 30 000 Testergebnisse ein; die Eichstichprobe für die Altersnormierungen bestand aus ungefähr 15 000 Personen, für die Schulbildung aus fast 13 000 und für die Berufsgruppenprofile aus über 5 000 Probanden. Eine Repräsentativität der Stichproben wurde angestrebt, jedoch nicht immer erreicht. So gibt es zum Beispiel teilweise nur sehr kleine Stichproben. (Zum Beispiel für Elektriker: N = 38)

10. Gütekriterien:

nach Amthauer

Objektivität: ist hoch, da die Instruktion schriftlich erfolgt und eine exakte Zeitangabe vorhanden ist.

Reliabilität: ist hoch Validität:

Interne Validität

Externe Validität

Daß der I-S-T 70 Intelligenz mißt, wird durch die Korrelation in der Größenordnung von .60 mit dem CFT unterstrichen. Als ein wichtiger Validitätshinweis für die Subtests gilt, daß sie alle deutlich über .30 mit dem CTF korrelierten.

11. Kritik

Reliabilität:

In einer Studie von Schmidt-Atzert (1997) liegen zwar die Schätzungen für die Reliabilität des Gesamtwertes im Mittel bei .94 und weisen damit den Gesamtwert als ein zuverlässiges Verfahren aus, die Angaben zur Split-Half-Reliabilität der Subtests müssen allerdings als überhöht angesehen werden. Dies wird durch Untersuchungen von Effler und Werner, (1977), und Schallberger er al., (1977), untermauert. Besonders Amthauers Schätzungen zur Reliabilität der verbalen Subtests müssen nach diesen Angaben deutlich nach unten korrigiert werden.

Itemschwierigkeit und Trennschärfe:

Die Items sollten innerhalb eines Subtests zunehmend schwerer zu lösen sein. Im Idealfall beträgt die Korrelation zwischen den Itemnummern und -schwierigkeiten -1. Lediglich beim Subtest Merkaufgaben hatte der Testautor keine Schwierigkeitssteigerung beabsichtigt. Nach den vorliegenden Ergebnissen orientieren sich nur die Subtests Analogien, Gemeinsamkeiten, Rechenaufgaben und Zahlenreihen an dieser Intention.

Auffällig ist weiter die niedrige Trennschärfe in den sprachlichen Aufgabengruppen Satzergänzung, Analogien und Wortauswahl, was darin begründet sein mag, daß eine andere Lösung als die vom Testautor vorgeschlagene (ebenfalls) richtig oder zumindest plausibel ist.

Mängel einzelner Subtests:

Beim Subtest Wortauswahl fallen große Mittelwertsdifferenzen zwischen den vermeintlich parallelen Formen A und B auf. Der Grund der niedrigern Punktzahl bei Verwendung der Form A liegt vermutlich in der höheren Anzahl problematischer Items in dieser Form. Insbesondere intelligentere Probanden kreuzen bei einigen Items Antworten an, die laut Testautor falsch sind, aber trotzdem sinnvoll erscheinen können. So werden beispielsweise auf die Testfrage, welches der folgenden Wörter am wenigsten zu den übrigen paßt, die Antwortmöglichkeiten a)Kompaß b)Uhr c)Wegweiser d)Polarstern und e) Kurs angeboten, wobei die richtige Antwort nach Amthauer e)Kurs lautet. Für die Antwort b) Uhr spricht jedoch, daß es sich um einen Zeitmesser (versus Richtungsmesser) handelt. In mehreren Studien lassen sich ferner Konsistenzkoeffizienten in der Größenordnung von .30 ermitteln.

So daß man also zusammenfaßend sagen kann, daß beide Formen wegen der Mittelwertsdifferenzen und der unterschiedlichen Konsistenzen nicht als parallele Tests gelten können. Form A erfüllt darüber hinaus nicht die Anforderungen an die Reliabilität eines Intelligenztests.

Beim Subtest Analogien liegt zumindest bei einer Probandengruppe (Hauptschüler) ein signifikanter Mittelwertsunterschied zwischen Form A und Form B vor. Möglicherweise ist bei dieser Gruppe eine Bearbeitungsstrategie des Assoziierens dafür verantwortlich, daß sie bei Form A mehr richtige Antworten erzielt als bei Form B.

Die Würfelaufgaben, die sich aus zwei Aufgabentypen, den Flächenwürfeln und den Raumwürfeln, zusammensetzen, müssen ebenfalls mit Vorbehalt betrachtet werden, da Korrelationen mit anderen Intelligenzkennwerten zeigen, daß die Flächenwürfel insgesamt schlechtere Intelligenztest - Items sind als die Raumwürfel. Grund dafür ist nach Putz-Osterloh, daß sich die Würfelaufgaben zum Teil aus Items zusammensetzen, die allein durch Flächenvergleich und ohne räumliches Vorstellen zu lösen seien.

Auch bei den von Amthauer vorgeschlagenen Profilauswertungen ergeben sich Probleme. Drei der vier sprachlichen Subtests ( Satzergänzung, Wortauswahl, Analogien) fallen einerseits durch niedrige Reliabilitäten auf und andererseits durch hohe Ladungen auf einem gemeinamen Faktor, ohne für die Profilauswertung hinreichende Spezifitäten aufzuweisen. Auch konnten neuere Studien die oben erwähnte Unterscheidung zwischen M- bzw. W - Profilen, die nach Amthauer Aufschluß über die Dimension Festigung - Flexibilität geben soll, nicht replizieren. Ferner ist es nach den heutigen Wissensstand als fraglich anzusehen, ob der Vergleich der Testergebnisse mit Berufsgruppenprofilen sinnvoll ist. So ergaben sich beispielsweise in einer Untersuchung zur prognostischen Validität des I-S-T 70 von Schmidt-Atzert und Deter (1993) keine signifikanten Unterschiede in der Intelligenzstruktur, allenfalls im Intelligenz -Niveau für gute wie schlechte Prüflinge.

Zusammenfassend läßt sich jedoch sagen, daß die festgestellten Mängel, trotz berechtigter Kritik, begrenzt und behebbar sind. Der I-S-T 70 erweist sich somit als revisionsbedürftig, allerdings auch als revisionswürdig.

Konsequenzen für den Testanwender:

12. Literatur