Intelligenz-Struktur-Test I-S-T 70 von Amthauer

1. Art des Tests

Der Intelligenz- Strukturtest ist ein objektives Verfahren zur Bestimmung der Intelligenz, das besonders für Gruppenuntersuchungen geeignet ist, aber auch im Einzelversuch angewendet werden kann. Mit ihm gewinnt man nicht nur einen zuverlässigen Befund über das Intelligenzniveau, sondern auch einen Einblick in die Struktur der Intelligenz. Der IST-70, der für die Prüfung 12 - 60-jähriger genormt ist, ist in bezug auf Gültigkeit, Zuverlässigkeit und Objektivität gesichtert. Er eignet sich für psychologisch-diagnostische Untersuchungen ebenso wie für alle Arten von Untersuchungen, die sich mit Intelligenz oder Begabung beschäftigen. So wird er beispielsweise zur Vorhersage von Ausbildungs- und Berufserfolg verwendet und gilt in deutschen Betrieben und Unternehmen als der mit Abstand am häufigsten verwendete Eignungstest.

2. Entstehungsgeschichte

1953 Entwicklung des I-S-T in Anlehnung an die Primary Mental Abilities von Thurstone und den Army General Classification Test
1955 dann die 2.Auflage des I-S-T
1973 wird der I-S-T 70, die 3. veränderte und erweiterte Auflage des I-S-T veröffentlicht

3. Grundkonzept

Nach Amthauer ist Intelligenz eine strukturierte, intellektuelle Leistungsdisposition, die sich in den Testleistungen des Individuums manifestiert.

Die lntelligenzstruktur ist hierarchisch aufgebaut. Dominante Intelligenzzüge lassen weniger dominante in demnHintergrund treten und beeinflussen und prägen diese.

Der Intelligenzstruktur - Test mißt, wie der Name schon sagt, nicht nur das Intelligenz - Niveau der jeweiligen Person sondern gibt auch Einblick in die „Struktur“ der Intelligenz.

4. Testmaterial und Testaufbau

a) Testmaterial

Das Testmanual besteht aus den Testheften der Parallelformen A1und B2 und einem Fragebogen für den Untertest Merkfähigkeit. Für die einzelnen Untertests wird mit Ausnahme des Untertests Merkfähigkeit, für den es das erwähnte Aufgabenblatt gibt, kein spezielles Material verwendet. Alle für den Probanden wichtigen Anweisungen sind dem Testheft zu entnehmen.

Ferner gibt es eine Handanweisung, die unter anderem auch Normtabellen und Beispielprofile zur Auswertung und Interpretation enthält.

Zur Testdurchführung werden außerdem Bleistifte, Radiergummi und eine Stoppuhr benötigt.

b) Testaufbau

Der I-S-T 70 besteht aus 9 Untertests, die sich inhaltlich vier Bereichen zuordnen lassen: sprachliche Aufgaben (Satzergänzung, Wortauswahl, Analogien und Gemeinsamkeiten), rechnerische Aufgaben (Rechenaufgaben und Zahlenreihen), räumliches Vorstellen (Figurenauswahl und Würfelaufgaben) sowie Merkaufgaben. Jeder Untertest setzt sich aus 20 Einzelaufgaben zusammen.

Im Testheft gibt es für jeweils einen Untertest eine Beispielseite, auf der die Aufgabenstellung erläutert und an Hand von Beispielen verdeutlicht wird. Auf der jeweiligen Rückseite befinden sich dann die zu beantwortenden Fragen.

Einzelne Untertests:

SE = Satzergänzung

Beispiel: Ein Kaninchen hat am meisten Ähnlichkeit mit einem (einer)...?
a. Katze
b. Eichhörnchen
c. Hasen
d. Fuchs
e. Igel

Bedeutung:“Urteilsbildung“, und „selbständiges Denken“

WA = Wortauswahl

Unter fünf vorgegebenen Wörtern soll das Wort gefunden werden, das vier untereinander ähnlichen Wörtern unähnlich ist. Welches Wort paßt nicht zu den anderen vier?

Beispiel:
a. Tisch
b. Stuhl
c. Vogel
d. Schrank
e. Bett

Bedeutung: „Erfassung von sprachlichen Bedeutungsinhalten“; Sprachgefühl und „induktiv sprachliches Denken“ werden geprüft.

AN = Analogien

Beispiel:
Wald : Bäume = Wiese : ?
a. Gräser
b. Heu
c. Futter
d. Grün
e. Weide

Bedeutung: „Kombinationsfähigkeit“; Erfassen und Übertragen von Beziehungen sowie Klarheit und Folgerichtigheit von Beziehungen sich gefordert.

GE = Gemeinsamkeiten

Für zwei von sechs vorgegebenen Wörtern existiert ein Oberbegriff. Welche Wörter gehören zusammen?

Beispiel:
a. Messer
b. Butter
c. Zeitung
d. Brot
e. Zigarre
f. Armband

Bedeutung: „sprachliche Abstraktionsfähigkeit“ , Begriffsbildung

ME = Merkaufgaben

Innerhalb von 3 Minuten sollen 25 Begriffe gelernt werden, die dann später abgefragt werden.

Beispiel:
Das Wort mit dem Anfangsbuchstaben A war ein (eine)...?
a. Sportart
b. Nahrungsmittel
c. Stadt
d. Beruf
e. Bauwerk

Bedeutung: „Merkfähigkeit“
Anmerkung: Aus technischen Gründen kommt dieser Untertest bei der Durchführung an letzter Stelle.

RA = Rechenaufgaben

Beispiel:
Ein Bleistift kostet 25 Pfennige. Wieviel kosten dann drei Bleistifte?

Bedeutung: „Praktisch rechnerisches Denken“; schlußfolgerndes Denken wird geprüft.

ZR = Zahlenreihen

Nach der Versuchsperson unbekannten Regeln aufgestellte Zahlenreihen müssen der Regel entsprechend weitergeführt werden.

Beispiel:
2,4,6,8,10,12,14,?

Bedeutung: „Theoretisch - rechnerisches Denken“; Beweglichkeit und Umstellungsfähigkeit im Denken werden getestet.

FA = Figurenauswahl

Welche Figur erhält man durch das Zusammenlegen der dargestellten Einzelteile?

Bedeutung:“Vorstellungsfähigkeit“; die „gestaltend - konstruktive“ Komponente ist hier angesprochen.

WÜ = Würfelaufgaben

Welcher der dargestellten Würfel wurde so gedreht, daß er jetzt dem Abbild des unteren Würfels entspricht?

Bedeutung: „Räumliches Vorstellen - Können“
Anmerkung: Dieses Merkmal ist von konventioneller Bildung weitgehend unabhängig.

5. Anwendungsbereiche

Alter: 12 - 60 Jahre
Der Intelligenz-Struktur-Test ist einer der weilverbreitesten Intelligenztests
Er versucht individuelle Begabungsschwerpunkte zu diagnostizieren
und wird schwerpunktmäßig in der Schul- und Berufsberatung aber auch zur Personalauswahl verwendet.
Der am häufigsten angewandte Eignungstest in deutschen Unternehmen

6. Durchführung:

Der I-S-T kann sowohl als Gruppentest mit einer optimalen Gruppengröße von 10 -20 Testpersonen als auch als Einzeltest benutzt werden.
Die Durchführungsdauer beträgt ungefähr 90 Minuten.
Dabei liest der Testleiter die jeweiligen Aufgabenstellungen laut vor, während der/ die Probanden diese im Testheft mit verfolgen können.
Es gibt für jeden Untertest eine vorgegebene Zeitbeschränkung, die aber mit Ausnahme der Zeit für den ersten Untertest nur der Testleiter kennt. Nach Ablauf der Zeit geht man zum nächsten Testteil über.

7. Auswertung:

Die Auswertung ist standardisiert. Da der I-S-T 70 ein Multiple Choice-Test ist, genügt es eine Auswertungsschablone auf den Antwortbogen zu legen. Die richtigen Antworten der jeweiligen Untertests werden ermittelt und zu einem Untertest-Rohwert zusammengefaßt.
Dann werden die Rohwerte unter Beachtung des Lebensalters des Probanden in Standardwerte umgerechnet.
Es kann ein Gesamt-IQ Wert errechnet werden, den man in Prozentränge umwandeln kann.
Weiter kann der Standardwert der Testperson mit „Schul“-Standardwerten verglichen werden.
Zusätzlich wird die Dimension „Festigung - Flexibilität“ erfaßt, indem man die Standardwerte der Untertests GE + RA für Festigung mit AN + ZR für Flexibilität vergleicht.
Ferner lassen sich Intelligenzprofile erstellen.

8. Interpretation:

Durch Standardwerte und Prozentränge lassen sich Ergebnisse gleichaltriger Testpersonen vergleichen.
Die „Schulstandardwerte“ sorgen für Vergleichbarkeit mit Personen gleicher Schulbildung.
Auf Grund der Untertestergebnisse lassen sich Aussagen über die Intelligenzstruktur der Testperson machen. Hierbei unterscheidet Amthauer zwischen dem M-Profil, das auf einen Begabungsschwerpunkt im sprachlich-theoretischen Bereich verweist und dem W-Profil, das auf einen Schwerpunkt im praktischen Bereich hindeutet.
Im Vergleich mit Berufsprofilen kann berufliche Eignung diagnostiziert werden.

9. Angaben zur Normierung:

In die Normierung gehen mehr als 30 000 Testergebnisse ein; die Eichstichprobe für die Altersnormierungen bestand aus ungefähr 15 000 Personen, für die Schulbildung aus fast 13 000 und für die Berufsgruppenprofile aus über 5 000 Probanden. Eine Repräsentativität der Stichproben wurde angestrebt, jedoch nicht immer erreicht. So gibt es zum Beispiel teilweise nur sehr kleine Stichproben. (Zum Beispiel für Elektriker: N = 38)

10. Gütekriterien:

nach Amthauer

Objektivität: ist hoch, da die Instruktion schriftlich erfolgt und eine exakte Zeitangabe vorhanden ist.

Auch die Auswertung läßt keine subjektiven Einflüsse zu.
Jedoch ist die Profilinterpretation problematisch.

Reliabilität: ist hoch

Retest-Reliabilität: Paralleltestform zwischen r =.947 und r =.91
nach der Teilungsmethode: Odd-Even- Methode: r =.969

Validität:

Interne Validität

Mittel der Korrelation:Untertests mit Gesamtergebnis r =.626
Mittel der Interkorrelation: Untertest mit Untertest r =.302

Externe Validität

Schulzeugnis: r =.455
Lehrerbeurteilung: r =.623
Beruflicher Erfolg: r =.710 für Chemie-Laboranten

Daß der I-S-T 70 Intelligenz mißt, wird durch die Korrelation in der Größenordnung von .60 mit dem CFT unterstrichen. Als ein wichtiger Validitätshinweis für die Subtests gilt, daß sie alle deutlich über .30 mit dem CTF korrelierten.

11. Kritik

Reliabilität:

In einer Studie von Schmidt-Atzert (1997) liegen zwar die Schätzungen für die Reliabilität des Gesamtwertes im Mittel bei .94 und weisen damit den Gesamtwert als ein zuverlässiges Verfahren aus, die Angaben zur Split-Half-Reliabilität der Subtests müssen allerdings als überhöht angesehen werden. Dies wird durch Untersuchungen von Effler und Werner, (1977), und Schallberger er al., (1977), untermauert. Besonders Amthauers Schätzungen zur Reliabilität der verbalen Subtests müssen nach diesen Angaben deutlich nach unten korrigiert werden.

Itemschwierigkeit und Trennschärfe:

Die Items sollten innerhalb eines Subtests zunehmend schwerer zu lösen sein. Im Idealfall beträgt die Korrelation zwischen den Itemnummern und -schwierigkeiten -1. Lediglich beim Subtest Merkaufgaben hatte der Testautor keine Schwierigkeitssteigerung beabsichtigt. Nach den vorliegenden Ergebnissen orientieren sich nur die Subtests Analogien, Gemeinsamkeiten, Rechenaufgaben und Zahlenreihen an dieser Intention.

Auffällig ist weiter die niedrige Trennschärfe in den sprachlichen Aufgabengruppen Satzergänzung, Analogien und Wortauswahl, was darin begründet sein mag, daß eine andere Lösung als die vom Testautor vorgeschlagene (ebenfalls) richtig oder zumindest plausibel ist.

Mängel einzelner Subtests:

Beim Subtest Wortauswahl fallen große Mittelwertsdifferenzen zwischen den vermeintlich parallelen Formen A und B auf. Der Grund der niedrigern Punktzahl bei Verwendung der Form A liegt vermutlich in der höheren Anzahl problematischer Items in dieser Form. Insbesondere intelligentere Probanden kreuzen bei einigen Items Antworten an, die laut Testautor falsch sind, aber trotzdem sinnvoll erscheinen können. So werden beispielsweise auf die Testfrage, welches der folgenden Wörter am wenigsten zu den übrigen paßt, die Antwortmöglichkeiten a)Kompaß b)Uhr c)Wegweiser d)Polarstern und e) Kurs angeboten, wobei die richtige Antwort nach Amthauer e)Kurs lautet. Für die Antwort b) Uhr spricht jedoch, daß es sich um einen Zeitmesser (versus Richtungsmesser) handelt. In mehreren Studien lassen sich ferner Konsistenzkoeffizienten in der Größenordnung von .30 ermitteln.

So daß man also zusammenfaßend sagen kann, daß beide Formen wegen der Mittelwertsdifferenzen und der unterschiedlichen Konsistenzen nicht als parallele Tests gelten können. Form A erfüllt darüber hinaus nicht die Anforderungen an die Reliabilität eines Intelligenztests.

Beim Subtest Analogien liegt zumindest bei einer Probandengruppe (Hauptschüler) ein signifikanter Mittelwertsunterschied zwischen Form A und Form B vor. Möglicherweise ist bei dieser Gruppe eine Bearbeitungsstrategie des Assoziierens dafür verantwortlich, daß sie bei Form A mehr richtige Antworten erzielt als bei Form B.

Die Würfelaufgaben, die sich aus zwei Aufgabentypen, den Flächenwürfeln und den Raumwürfeln, zusammensetzen, müssen ebenfalls mit Vorbehalt betrachtet werden, da Korrelationen mit anderen Intelligenzkennwerten zeigen, daß die Flächenwürfel insgesamt schlechtere Intelligenztest - Items sind als die Raumwürfel. Grund dafür ist nach Putz-Osterloh, daß sich die Würfelaufgaben zum Teil aus Items zusammensetzen, die allein durch Flächenvergleich und ohne räumliches Vorstellen zu lösen seien.

Auch bei den von Amthauer vorgeschlagenen Profilauswertungen ergeben sich Probleme. Drei der vier sprachlichen Subtests ( Satzergänzung, Wortauswahl, Analogien) fallen einerseits durch niedrige Reliabilitäten auf und andererseits durch hohe Ladungen auf einem gemeinamen Faktor, ohne für die Profilauswertung hinreichende Spezifitäten aufzuweisen. Auch konnten neuere Studien die oben erwähnte Unterscheidung zwischen M- bzw. W - Profilen, die nach Amthauer Aufschluß über die Dimension Festigung - Flexibilität geben soll, nicht replizieren. Ferner ist es nach den heutigen Wissensstand als fraglich anzusehen, ob der Vergleich der Testergebnisse mit Berufsgruppenprofilen sinnvoll ist. So ergaben sich beispielsweise in einer Untersuchung zur prognostischen Validität des I-S-T 70 von Schmidt-Atzert und Deter (1993) keine signifikanten Unterschiede in der Intelligenzstruktur, allenfalls im Intelligenz -Niveau für gute wie schlechte Prüflinge.

Zusammenfassend läßt sich jedoch sagen, daß die festgestellten Mängel, trotz berechtigter Kritik, begrenzt und behebbar sind. Der I-S-T 70 erweist sich somit als revisionsbedürftig, allerdings auch als revisionswürdig.

Konsequenzen für den Testanwender:

man sollte nicht Form A der Wortauswahl verwenden d.h. am einfachsten nur mit Form B arbeiten.
Dem Anwender bleibt es überlassen, ob er der Testperson für eine „intelligente“ Antwort, die dem Testautor zufolge jedoch falsch ist, einen Punkt gibt.

12. Literatur

Amthauer,R, (1973), Intelligenzstrukturtest I-S-T 70, Göttingen: Hogrefe
Brickencamp,R, (1975), Handbuch psychologischer und pädagogischer Tests, Göttingen: Hogrefe
Schmidt-Atzert,L;Hommers,W, und Heß,M, (1995), Der I-S-T 70: Eine Analyse und Neubewertung in Diagnostica,41,S 108-130
Schmidt-Atzert,L,und Deter,B, (1993), Intelligenz und Ausbildungserfolg: Eine Untersuchung zur prognostischen Validität des I-S-T 70, Zeitschrift für Arbeits- und Organisationspsychologie, 37, S. 52-63