Seminar: Objektive Testverfahren WS97/98
Friederike Bunzmann
26.11.97

HAWIE-R:

Hamburg-Wechsler-Intelligenztest für Erwachsene Revision 1991

1. Art des Tests

Intelligenztest, Individualverfahren für Altersstufen von 16 bis 74

HAWIE gilt als das bekannteste und am meisten eingesetzte deutschsprachige I.verfahren, seit 1991 gibt es die revidierte Fassung: "Eine Revision war dringend erforderlich, da zum einen die Iteminhalte einzelner Subtests nicht mehr zeitgemäß waren - als Beispiel stellvertretend für eine reihe ähnlich überholter Items ist die Frage nach Briefmarken im Wert von 2 Pfennigen zu nennen-, zum anderen stammte die Normierung für die deutsche Version aus dem Jahr 1956."(Gorlicki)

Fay schreibt in seiner Testinformation, daß Ergebnisse und Untersuchungen zu HAWIE und HAWIE-R nicht vergleichbar sind aus diesem Grund, mehr dazu später in einem gesonderten Punkt, in Erlangen ist dazu eine Studie durchgeführt worden, erst 1997 veröffentlicht.

2. Entstehungsgeschichte

1939: Wechsler-Bellevue-Intelligence-Scale
1955: Wechsler-Adult-Intelligence-Scale (WAIS)
1956: dt. Fassung HAWIE
1981: Revision WAIS-R
1991: HAWIE-R

David Wechsler:

geb. 1896, wuchs in New York auf, Studium, half, die Leistungen von Rekruten im Army-Alpha Test auswerten. Ihm wurde die Notwendigkeit für deine breitere Basis für den Begriff I. als damals üblich war bewußt: Rekruten, die wiederholt bei genormten Tests durchfielen, aber in ihrem Leben ausreichende Arbeitsleistungen und Anpassung im Zivilleben zeigten.I. durfte nicht von der übrigen Persönlichkeit getrennt werden, sowohl affektive als auch kognitive Komponenten:

Er war Kliniker, Chefpsychologe am Bellevue Psychiatric Hospital 1932, ihm gelang die Kombination von Forschung und praktischer Arbeit, mit Einzelpatienten. Seine Bemühungen um die Entwicklung und Standardisierung von Intelligenzskalen gipfelten in einer Batterie, der sogennanten Wechsler-Bellevue-Skala 1939.
=> Buch "The Measurement of Adult Intelligence"1939, im Litverz. angegeben.

Die verschiedenen genannten Testversionen unterscheiden sich zwar nach Aufgabeninhalten, sind aktualisiert, jedoch nicht nach Skalentypen.

Streng genommen handelt es sich beim HAWIE-R nicht um eine Revision des HAWIE. Er ist inhaltlich stärker am Vorbild der revidierten amerikanischen Form, der WAIS-R orientiert. Das Copyright setzt den Bemühungen Grenzen, bei der Neubearbeitung aller veröffentlichten Kritik an der ursprünglichen Version gerecht zu werden. Der amerikanische Herausgeber bestand auf eine möglichst enge Anlehnung der deutschen Version an das amerikanische Original.

3. Grundkonzept

(Alle Zitate sind aus dem ersten Kapitel seines Buches "Die Messung der I. Erwachsener")

Definition: "Intelligenz ist ein hypothetisches Konstrukt, ist die zusammengesetzte oder globale Fähigkeit des Individuums, zielgerichtet zu handeln, rational zu denken und sich wirkungsvoll mit seiner Umwelt auseinanderzusetzen. Sie ist zusammengesetzt oder global, weil sie aus Elementen oder Fähigkeiten besteht, die, obwohl nicht völlig unabhängig, qualitativ unterscheidbar sind."

" Die I. ist jedoch nicht mit der Summe dieser Fähigkeiten identisch, wenn sie diese auch einschließt. Hierfür gibt es drei wichtige Gründe:

die Ergebnisse i. Verhaltens sind nicht nur eine Funktion der Anzahl dieser Fähigkeiten oder ihrer Qualität, sondern auch der Art, in der sie kombiniert sind, d.h. ihrer Konfiguration.
I. Verhalten wird noch von anderen als intellektuellen Faktoren beeinflußt, z.B. durch Trieb und Anreiz"
Das Übermaß einer bestimmten Fähigkeit kann verhältnismäßig wenig zu der Wirksamkeit des Gesamtverhaltens beitragen. Notwendiges Minimum.(Wechsler S.14)

Zum Problem des Messens:

"Obgleich die I. nicht bloß eine Summe intellektueller Fähigkeiten ist, liegt die einzige Möglichkeit ihrer quantitativen Bewertung in der Messung der verschiedenen Seiten dieser Fähigkeiten. Darin liegt kein Widerspruch, sofern wir nicht auf der Identität von allgemeiner Intelligenz und intellektueller Fähigkeit bestehen. Wir identifizieren z.B. auch nicht Elektrizität mit dem Verfahren, sie zu messen.(...)

Wie die Elektrizität kann die allgemeine I. als eine Art Energie angesehen werden. Wir wissen nicht, wie das Wesen dieser Energie letzten Endes beschaffen ist, wir erkennen sie aber - wie bei der Elektrizität - durch die Dinge, die sie vollbringt, oder besser aus den Dingen, die wir mit ihrer Hilfe vollbringen können(...)."

Wechslers theoretisches Konzept folgt der ZweifaktorenTheorie von Spearman: Seine Entdeckung des Generalfaktors "g" und zusätzlich spezifischer Faktoren "s" bezeichnet Wechsler als "eine der großen Entdeckungen in der Psychologie". Aber er stimmt nicht mit Spearmans Begriff der allgemeinen I. voll überein, sondern neben "g" spielen für ihn noch andere entscheidende Faktoren eine Rolle:

Klinische Beweise sind z.B., daß ein Kind mit einem IQ von 75 einwandfrei schwachsinnig sein kann, während ein anderes mit einem gleichen IQ oder sogar mit 5 oder 10 Punkten weniger nicht so klassifiziert werden kann. Es gibt nach Wechsler "nicht-intellektuelle Faktoren der allgemeinen I."- "Gegebenheiten, die man in der Umgangssprache als Temperaments- oder Persönlichkeitsfaktoren bezeichnen könnte".

Das Reden von einem "EQ" ist also keineswegs neu und die trad. I.forscher sind nicht so "böse" und einseitig, wie sie oft dargestellt werden. Im Gegenteil, was Wechsler hier schreibt, klingt sehr am ganzen Menschen orientiert.

Zu Tests:

"I.tests messen mehr als reine Lern-, Denk- oder selbst allgemeine intellektuelle Fähigkeit. Sie messen außerdem unvermeidlich eine Reihe anderer Vermögen(...) Bisher haben Verfasser von I.skalen, wenn sie die Situation erkannte, diese Faktoren als störende Elemente angesehen und sie so weit wie möglich zu beseitigen versucht. Die Erfahrung hat jedoch gezeigt, daß die Tests umso wirkungsloser in der Messung der allgemeinen I. sind, je erfolgreicher man bei der Beseitigung dieser Faktoren ist. Es werden keine Tests benötigt, bei denen die nicht-intellektuellen Faktoren ausgeschaltet sind (selbst wenn dieses möglich wäre). Sondern im Gegenteil Tests, bei denen diese Faktoren deutlich vorhanden und objektiv abschätzbar sind."

Es gibt für ihn die "Allgemeine I." (Gesamt-IQ), die sich in eine "Verbal-" und eine "Handlungs-I." aufteilt. Die Handlungstests "sind ein Versuch in dieser Richtung", eben diese nicht-intellektuellen Faktoren zu messen.

Bevor ich zum Aufbau und den einzelnen Skalen komme möchte ich noch einmal Wechsler zitieren, was er eigentlich für einen Anspruch mit seiner Skala verfolgt:

"Nach unserer Ansicht mißt diese (I.skala) die allgemeine I. in dem oben definierten Sinne. Wir wollen jedoch nicht beanspruchen, sie messe alles, was die allgemeine I. ausmacht, denn kein Test würde gegenwärtig dazu in der Lage sein. Wir können lediglich von einer I.skala verlangen, hinreichende Teile der I. zu messen, damit wir sie als eineigermaßen zuverlässigen Index der globalen Leistungsfähigkeit des Prüflings benutzen können."

Er beansprucht also gar nicht, I. vollständig zu erfassen. Kritikern, die ihm genau das vorwerfen, ist somit von vornherein der Wind aus den Segeln genommen.

4. Testaufbau

Der HAWIE-R besteht aus 11 Untertests, die sich in einen Verbalteil und einen Handlungsteil zusammenfassen lassen.

Die revidierte Version hat nicht mehr die strikte Unterteilung bei der Testdurchführung, durch die gemischte Vorgabe aus beiden Bereichen ist die Testsituation mehr aufgelockert, was ich aus eigener Erfahrung bestätigen kann.

In den einzelnen Untertests wurde meist die Anzahl der Items verändert und teilweise Items ausgetauscht bzw. aktualisiert.

Wechsler hat auf schon in anderen Tests verwendete Aufgaben teilweise zurückgegriffen, im TH sind jeweils frühere Tests genannt, bei denen diese Aufgaben auch schon enthalten sind, z.B. der Army Alpha-Test (1920).

Das Beispiel sollte jeweils am Anfang der Vorstellung der Untertests genannt werden, damit man sich es besser vorstellen kann!

Dann zitiere ich oft wörtlichaus dem TH (abgekürzt für Testhandbuch), wo jeweils angegeben ist, was nach Wechsler in diesem Test gemessen und nach Matarazzo, dessen Buch ein aktualisierender Überblick über Interpretationshilfen und Validitätsstudien ist.

Verbalteil:

Allgemeines Wissen (AW): (Auch Teil des WIP.) Das AW überprüft dasjenige Wissen, "das sich ein Durchschnittsmensch mit durchschnittlichen Bildungsmöglichkeiten selbst aneignen kann" (Matarazzo, 1982). Die Leistung in diesem Untertest ist in beträchtlichem Maße von der Bildung und den kulturellen Erfahrungen des Probanden abhängig. Trotzdem sei dieser Untertes ein recht guter Indikator seiner intellektuellen Kapazitäten, weil das allgemeine Wissensniveau die Aufgeschlossenheit der Person gegenüber der Umwelt widerspiegelt.(...) Die Wissensbereiche, die durch diesen Untertest erfaßt werden, sind bewußt sehr heterogen gehalten.(...) Bei der Neubearbeitung des HAWIE wurde Wert darauf gelegt, keine schwierigen Wörter bei der Aufgabenkonstruktion zu verwenden, um stärker den vom Wortschatz unabhängigen Wissensaspekt hervorzuheben." (TH)
Bsp:
1. "Wieviele Monate hat ein Jahr?"
24."Wieviele Planeten hat das Sonnensystem?" 9

Zahlennachsprechen (ZN): Vorwärts und rückwärts. Ein gutes Zahlengedächtnis erscheint nur von geringer Bedeutung zu sein, doch sind Leistungsausfälle in diesem Untertest klinisch bedeutsam. Schlechte Leistungen können auch auf Aufmerksamkeitsstörungen oder erhöhte Testangst zurückzuführen sein.

Wortschatztest (WT): Die Leistung im WT gilt als "exzellentes Maß" der allgemeinen I. und gutes Maß für die Lernfähigkeit und Informationsbreite einer Person.(Matarazzo)
Bsp: Von "Apfel" (Obst, Frucht) bis "Geoid" (Erdkugel, geometrische Form der Erde)

Rechnerisches Denken (RD): "Das RD ist nach Wechsler ein gutes Maß für die geistige Beweglichkeit und nach Matarazzo ein gutes allgemeines I.maß. Die Leistungen sind jedoch in starkem Maße abhängig von schulischer und beruflicher Erfahrung. Niedrige Testwerte könnten auch auf gemindertes Konzentrationsvermögen und geringe Belastbarkeit zurückzuführen sein. Fast jeder gebräuchliche I.test enthält auch einen Rechentest.
Bsp: "Sie wollen 24km weit wandern und schaffen 3 km in der Stunde. Wieviele Stunden benötigen sie für die ganze Strecke?"

Allgemeines Verständnis (AV): Dieser Untertest ist im Hinblick auf seine inhaltliche Bedeutung nicht sehr präzise erläutert. Allgemein sei er geeignet, den "gesunden Menschenverstand" zu prüfen. Insbesondere erfasse er die generelle Fähigkeit, Erfahrungen zu verwerten (Matarazzo). Die Inhaltsvalidität deutet darauf hin, daß bei der Lösung der Aufgaben sowohl das praktische Urteilsvermögen, als auch die Fähigkeit, aus Erfahrung zu lernen und in Ursache-Wirkungs-Zusammenhängen zu denken, erfaßt werde.
Bsp: "Warum wäscht man seine Kleidung?", "Wenn sie sich am Tag im Wald verirrt hätten, was würden sie tun, um wieder herauszufinden?"

Gemeinsamkeitenfinden (GF):(Teil des WIP) Dieser Untertest ist nach Wechsler wichtig, er gebe Auskunft über die logische Struktur der Denkprozesse und erlaube auch die Unterscheidung zwischen wesentlichen und oberflächlichen Denkprozessen. Insgesamt ist zu vermuten, daß dieser Test vor allem das sprachliche Abstraktionsvermögen erfaßt. Nach Matarazzo läßt er auch qualititative Deutungen bei klinisch auffälligen Probanden zu. So seien beispielsweise bei schizophrenen Patienten häufig übergeneralisierende Antworten zu beobachten.
Bsp: Apfelsine-Banane, Zoo-Bücherei

Handlungsteil:

Bildergänzen (BE): (auch im WIP) BE erfaßt nach Wechsler im weitesten Sinne die Fähigkeit, zwischen wichtigen und unwichtigen Details bei visuellen Vorlagen zu unterscheiden. Matarazzo weist darauf hin, daß das Testergebnis auch abhängig von der Vertrautheit mit dem abgebildeten Gegenstand ist. Das BE erfasse die der Wahrnehmung und Begriffsbildung zugrundeliegenden Fähigkeiten, im visuellen Bereich die Fähigkeit zur Identifikation bekannter Gegenstände und differenziere dabei in erster Linie im unteren I.bereich. Es liegen nicht viele Validitätsstudien vor.
Bsp: Krug und Glas

Bilderordnen (BO): erfaßt nach Wechsler die Fähigkeit des Probanden, die Gesamtsituation zu verstehen und die Einzelaspekte hinsichtlich ihrer bedeutung richtig einzuschätzen. Matarazzo meint etwas konkreter, daß dieser Untertest die Fähigkeit messe, komplexe Situationen zu erfassen und zu bewältigen und daß er gleichzeitig auch Aspekte der sozialen I. messe. Personen, die im BO gute Ergebnisse erzielen, seien selten schwachsinnig, selbst wenn die übrigen Testergebnisse niedrig ausfallen. Bedeutung der qualitativen Interpretation der Testergebnisse: auffordern, Lösungen zu begründen oder beim Lösen der Aufgaben Geschichte erzählen lassen. Auch der Prozeß wird erfaßt!
Bsp.: Bildergeschichte (bereits geordnet!)

Mosaik-Test (MT): (auch im WIP) Den MT hält Wechsler für eine ausgezeichnete Prüfung der allgemeinen I., die gleichzeitig auch für qualitative Auswertungen geeignet ist. Der Testleiter kann gut beobachten, wie sich der Proband mit den Aufgaben auseinandersetzt und welche Lösungsstrategie er verfolgt. Erfaßt wird die Fähigkeit, Formen wahrzunehmen und sie zu analysieren und das Ganze in seine Komponenten zu zerlegen (Matarazzo). Eine Reihe anderer Testverfahren haben diesen Test weitgehend unmodifiziert übernommen.
Bsp: Würfel zeigen und eine Vorlage

Figurenlegen (FL): Das FL wurde trotz methodischer Bedenken von Wechsler in die Testbatterie aufgenommen. Dieser Untertest differnziere schlecht in den höheren I. bereichen, geb aber gute qualitative Hinweise auf den Arbeitsstil des Probanden. Ganz allgemein soll er die Vertrautheit mit Formen und die Fähigkeit, Relationen zwischen Teil und Ganzem herzustellen erfassen (Matarazzo). Durch die Beobachtung des Lösungsverhaltens kann geprüft werden, ob der Proband zielgerichtet oder nach "Versuch und Irrtum" arbeitet, wie er auf Fehler reagiert, wie sich seine Wahrnehmung strukturiertund ob er bei Mißerfolgen vorschnell aufgibt.
Bsp: Elephantteile

Zahlen-Symbol-Test (ZS): Der ZS erfaßt die allgemeine psychomotorische Geschwindigkeit und ist nach Wechsler ein gutes Maß für das Konzentrationsvermögen. Die Ergebnisse sind in starkem Maße altersabhängig. Außerdem erzielen neurotische, d.h. emotional wenig belastbare Probanden häufig schlechtere Ergebnisse als gesunde (Matarazzo). Obwohl Wechsler stets auf die bedeutung des ZS als maß für die geistige Leistungsfähigkeit hinwies, fanden andere Autoren eher Hinweise auf einen engeren Zusammenhang zur motorischen Geschwindigkeit. (neg Auswirkung mangelnder Belastbarkeit gilt wsl eher für psychisch gestörte Probanden)
Bsp: Jeder Zahl wird ein bestimmtes Symbol zugewiesen, Bogen, 90 sec Zeit, wie weit man kommt, "Speed"

"Die Quellenangaben (im TH) machen deutlich, daß es die Wechsler-Skalen in ähnlicher Form schon in zahlreichen anderen Tests gab. Die meisten dieser Skalen, die be Wechsler und den anderen genannten Autoren Verwendung fanden, gehen auf eine gemeinsame Tradition zurück. Sie entwickelten sich aus den ersten Ansätzen zur systematischen I.forschung von Binet (1905) und Binet und Simon (1905). Die historischen Quellen dieser Art der I.diagnostik werden ausführlich bei Matarazzo nachgezeichnet."(TH S.19)

5. Testmaterial

(muß ich nicht mehr erläutern, ergibt sich aus der Vorstellung der einzelnen Untertests)

Testhandbuch
Protokollbögen verbessert, übersichtlich
Spiralordner mit Vorlagen für das Bilderergänzen und den Mosaiktest
Kästchen mit den Bilderserien für das Bilderordnen
Kästchen mit 9 Würfeln für den Mosaiktest
Kartonteile für das Figurenlegen
Auswertungsschablone für den Zahlen-Symbol-Test

Benötigt werden außerdem zwei Bleistifte und eine Stoppuhr.

6. Anwendungsbereiche

Alter: 16-74 Jahre oben erwähnt

"Der Test soll nicht der Untersuchung von Hochbegabten dienen. Er wurde in erster Linie für die klinisch-psychologische Diagnostik entwickelt, bei der es eher um die Untersuchung von Ausfallserscheinungen geht. Der Test differenziert zufriedenstellend bis zu zwei Standardabweichungen über dem Erwartungswert von 100 IQ-Punkten.

IQ-Werte über 150 werden im Handbuch nicht mehr aufgeführt. Im unteren Leistungsbereich differenziert der Test besser, so daß quantitative Vergleiche bis zu drei Standardabweichungen unter dem Erwartungswert, also bis zu einem IQ von 55 Punkten möglich sind."(TH S.46)

7. Durchführung

Einzeltest, Dauer 60-90 Minuten, das TH enthält möglichst wörtlich zu gebende Testanweisungen, der verbesserte Protokollbogen enthält Angaben zu Abbruchkriterien und Bewertung der einzelnen Untertests. Für mehrere Untertests sind Zeitgrenzen angegeben.

Im TH wird betont, daß Einfühlungsvermögen v.a. bei älteren Probanden wichtig ist. Die Bedingunge sollen körperlich bequem sein, Störungen müssen vermieden werden, der Tl sollte mit dem Material gut vertraut sein und die Anweisungen möglichst auswendig können.

(Was ich für sehr schwierig, da sehr viel, halte und auch nicht für unbedingt nötig, solange man das sinngemäß entsprechende sagt)

"Der Tl sollte eine Beziehung herstellen, die den Probanden eher ermutigt, ihn jedoch nicht unter Druck setzt. Der Proband sollte das Gefühl haben, daß ihm die Gelegenheit geboten wird, sein Leistungsvermögen unter guten Bedingungen unter Beweis zu stellen."

(wobei mir nicht klar war, wieviel ich zur Ermutigung sagen darf, z.B. Bestätigen, wenn etwas richtig ist?)

Die Zeitnahme, wird auch im TH betont, verlangt besondere Konzentration. Vergißt man leicht!

"Wenn der Tl den Eindruck hat,daß der Proband sich durch Zeitnahme sehr unter Druck fühlt, kann man ihn darauf hinweisen, daß die Qualität der Lösung wesentlich wichtiger ist als die Geschwindigkeit (ausgenommen beim ZS)." (TH S.47)

8. Auswertung anhand Folie mit Protokollbogen zeogen! Sehr einfach gestaltet

Die Kriterien für die Auswertung sind im TH als auch im Protokollbogen, der sehr handlich gestaltet ist, aufgeführt. Bei den meisten Untertests gibt es objektive Kriterien für die Bewertung. Bei AW, AV, GF und WT werden Bewertungsrichtlinien vorgegeben, die dem Auswerter einen gewissen Ermessensspielraum lassen.

Bsp: "im Wald verirrt" 2P für "Zuhilfenahme von Naturgegebenheiten, 1P für "immer geradeaus gehen", 0P für "rufen, warten, bis Förster kommt"

Die Rohwertsumme jedes Untertests wird in Wertpunkte transformiert, um die Leistungen in den versch. Untertests vergleichbar zu machen. WP Skala hat MW von 10 und s=3. Die WP werden für Verbal- und Handlungsteil und den Gesamttest aufsummiert. Aus den Wertpunktsummen wird anhand von Tabellen der IQ-Wert für V., H. teil und Gesamt abgelesen. Die Auswertung dauert 15-30 Minuten.

Die Umrechnung in Wertpunkte geschieht auf der Basis der Rohwertverteilungen für die 20-34-jährigen, weil nach Wechsler "die geistige Entwicklung in dieser Altersgruppe ihr Maximum erreiche und relativ konstant bleibe".

Nachteil dieses Auswertungsmodus: Die Wertpunkteverteilung für höhere Altersgruppen hat nicht mehr den Erwartungswert von 10 Punkten. Das WPProfil eines Pb gibt an, in welchem Ausmaß sich seine Leistungen in den einzelnen Ut von den Erw.werten für die 20-34J. unterscheidet. Ältere werden also zB benachteiligt.

Den IQ bestimmt Wechsler aber, indem er die WP Summe für jede Altersgruppe gesondert in IQ Werte umrechnet. Zusätzlich wird eine Wertpunkteberechnung B angeboten nicht für IQ Berechnung, als Abweichungswert von der Norm jeder Altersgruppe, bspw auch die Normen für Gymnasiasten. (TH S.13) Altersspez. WP haben Nachteil: Erw. werte, von denen sie abgeleitet sind, sind nicht so zuverlässig wie die für die 20-34j, da mehr in Eichstichprobe.

Diese doppelte Verrechnung kann zu Mißverständnissen führen.

Dieser Verrechnungsmodus von Wechsler wurde übernommen, so sind die Ergebnisse von US vergleichbar in D und USA.

9. Interpretation: Man hat IQ, was bedeutet er?

Wechsler drückt sich vorsichtig aus, wie oben gehört:

"Der Gesamt-IQ gibt einen Hinweis auf das allgemeine geistige Leistungsvermögen des Individuums. Unterschiede zwischen Verbal-und Handlungs-IQ lassen erkennen, ob die beteffende Person mehr praktisch oder eher verbal-theoretisch begabt ist. Die Leistungsbeeinträchtigungen sollten stets vor dem Hintergrund milieuspezifischer Einflüsse und möglicher krankheits- oder verletzungsbedingter Behinderungen interpretiert werden." (TH S.15)

Die IQ-Verteilungen haben in jeder Altersgruppe einen Erwartungswert von 100 Punkten und eine Standardabweichung von 15 Punkten. Der IQ drückt also immer die relative Position aus. Beispielsweise liegt eine Person mit einem IQ von 115 eine Standardabweichung über dem Erwartungswert und ist, als Prozentrang ausgedrückt, besser als 84% aller Angehörigen ihrer Altersgruppe.

TH enthält eine Tabelle zur Umrechnung in PR

Zu Testwertdifferenzen:

TH S.44: Usch in den beiden Testteilen V und H werden häufig als Folgen milieuspezifischer Einflüsse, besonderer erzieherischer Förderung oder einseitiger Begabungen interpretiert. Berechnet man(...) so ist eine Differenz von 5,6 IQ P oder mehr auf dem 5%Niveau sign."

Zur Interpretation von Störungsbildern: Wechsler empfiehlt zur Unterstützung von Differentialdiagnosen bei einer Reihe von psychiatrischen Erkrankungen die Berechnung des Differenzwertes zwischen Verbalteil und Handlungsteil. Für ihn gilt eine Differenz von mind. 11 IQ-Punkten als interpretationsfähiger Wert.

Er behauptet zB, daß Organische Gehirnerkrankungen, Psychosen und Psychoneurosen mit höheren Ergebnissen im Vteil einhergehen, Jugendliche Psychopathen und Schwachsinnige hätten bessere Ergebnisse im Hteil.

Auch betont er das Testprofil eines Pb und stellt Testcharakteristika verschiedener klinischer Gruppen auf. ZB Schizophrene, Neurotiker würden bei bestimmten Ut charakteristisch gut oder schlecht abschneiden.

TH S.45: Die meisten Handbücher zu den Wechsler-Tests enthalten auch Angaben darüber, wie groß der Unterschied der Leistungen eines Pb in zwei Ut sein muß, um statistisch signifikant zu sein. (...) Derartige Berechnungen sind im Hinblick auf ihren diagnostischen Wert jedoch äußerst fragwürdig und für die Wechsler-Tests nicht zu empfehlen.

Das Testkonzept von Wechsler geht davon aus, daß nicht die Leistung in einem einzelnen Ut diagnostisch relevant ist, sondern daß jeweils Utgruppen nach versch. Kriterien "gebündelt" werden und dann miteinander verglichen werden sollten ( z.B. sprachunabhängige vs sprachabhängige Ut oder Tests mit Zeitbegrenzung vs Tests ohne Z.).

(...) Man kann sich grob an der Faustregel orientieren, daß eine Differenz von 3 WP im Allgemeinen nicht mehr als durch den Meßfehler verursacht werden kann. Die klinische Interpretation derartiger Differenzen ergibt allerdings nur einen Sinn, wenn sie der gezielten Überprüfung von Hypothesen dient, die vor der US aufgestellt werden."

Guthke weist darauf hin, daß der in der Praxis immer noch beliebten Profilinterpretation von UtDifferenzen mit großer Skepsis zu begegnen sei.

Im neuen TH fehlen Angaben darüber, wohl mit Absicht, sie hätten aber dazu Stellung beziehen können.

10. Angaben zur Normierung: war beim HAWIE veraltet

Die Normierung erfolgte an einer hinsichtlich Schulbildung, Alter und Geschlecht für die Bundesrepublik des Jahres 1986 repräsentativen Stichprobe von 2000 Personen. Die Probanden verteilen sich auf neun Altersstufen von 16 bis 74 Jahren mit je 200 Probanden, für die Altersgruppen 20 bis 24 und 25 bis 34 Jahre je 300 Probanden. Frauen und Männer waren in jeder Altersgruppe mit 50% vertreten.

An keiner Stelle geht aus dem Text im TH hervor, wann genau die Normdaten erhoben wurden, es muß kurz vor dem 9.11.1989 oder gleichsam "vereinigungsbegleitend" geschehen sein. Ganz offensichtlich konnte jedoch noch kein Einwohner der neuen Bundesländer Eingang in die Normierungsstichprobe finden, es ist schade, daß das im deutschsprachigen Bereich "jüngstnormierte" I.testverfahren dort nur schwer zu interpretierende Ergebnisse zeitigen wird."(Fay S.274)

11. Gütekriterien

Objektivität:

Die Objektivität wird dadurch beeinträchtigt, daß es sich um einen Individualtest ohne Multiple-Choice-Aufgaben handelt. Bei der Testdurchführung können Probanden leicht benachteiligt oder bevorzugt werden. Bei der Testrevision wurde Wert darauf gelegt, die Anweisung übersichtlicher zu gestalten, um die Durchführungsobjektivität zu verbessern. Nach Fay kann von der Sicherstellung der Durchführungsobjektivität im allgemeinen ausgegangen werden.

Bei AW,AV, WT, GF bleibt ein Ermessensspielraum bei der Punktevergabe, der zur Minderung der Auswertungsobjektivität führt. Erfahrene Auswerter urteilen nach den Ergebnissen einer Studie mit größerer Übereinstimmung. 4 Testprotokolle wurden 16 versch. Auswertern vorgelegt, die Streuungen waren zT beträchtlich, AV war am schwersten auszuwerten. Erfahrung verbesser hier die Auswertungsobj., sie ist insges. zufriedenstellend.

Reliabilität:

DasTH teilt Reliabilitätskoeffizienten mit, Maße der internen Konsistenz (Cronbachs Alpha), die von Ausnahmen abgesehen, befriedigen( zwischen .64 (FL) für die 70-74j und .95 (ZS) as höchster wert, beim entscheidenden Gesamt-IQ bei mind. .95 bis .97, was hoch ist . Knapp die Hälfte der Koeffizienten für die 11 Untertests und neun Altersgruppen liegt über .80.

(Fay:Angaben über

Itemanalyse: Angaben zu MW und Trennschärfe (0.08 bis 0.66)

Standardmeßfehler: s=2.60 bis 3.35 (IQ Einheiten) für alle Altersgruppen und den Gesamttest

Homogenität: Subtests interkorrelieren teilweise recht bedeutsam: von Profilinterpretation absehen)

Validität:

Das TH enthält seitenweise verwirrende Interkorrelationsmatrixen und Tabellen und nur wenig Text zu diesem Zentralkriterium. Im Zentrum steht die faktorielle Validierung, wobei die Unterteilung in einen Verbal- und Handlungsfaktor bestätigt wird:

2 Faktoren, die zus. Knapp 56% der Gesamtvarianz aufklären. Vtests höchste Ladung auf 1. Faktor, Hsubtests auf zweitem Faktor (nur ZN und RD haben auf beiden Faktoren substantielle Ladungen).

Zusätzlich werden durch VA gewonne Gruppenunterschiede zwischen Hauptschülern und Gymnasiasten aufgeführt (Usch in VT ca. 1s, in HT geringer), auch zwischen Alkoholikern und Nicht-Alkoholikern (Usch nicht sehr stark).

Für einen Individualtest ist das Verfahren noch als ökonomisch zu beurteilen, die Zumutbarkeit ist auch gegeben und was die Verfälschbarkeit betrifft, dürften Simulationen aufgrund der guten Beobachtungsmöglichkeiten eher zu erkennen sein als bei anderen Verfahren. (Guthke)

12. Vergleichbarkeit von HAWIE und HAWIE-R schon angesprochen

Für die Testversion 1956 gab es umfangreiche Untersuchungen, die gemäß dem TH auch für die modifizierte Auflage gelten. Fay jedoch stellt fest, daß "was es an Untersuchungen zum HAWIE gibt, auf den HAWIE-R nicht übertragbar" ist, es gebe "Veränderungen der Meßbereiche".

Zur Klärung dieser Frage, ob die beiden Versionen äquivalente Ergebnisse liefern, wurden 45 Patienten, m u w, aus der Psychiatrischen Universitätsklinik Erlangen untersucht. In zwei randomisierten Teilgruppen wurde ihnen jeweils an aufeinanderfolgenden Tagen eine Version vorgelegt, Übungseffekt durch t-Tests ausgeschlossen.

Ergebnisse: Keine sign. MW Usch

Die Gesamt-, Handlungs- und Verbal-IQ Werte korrelieren auf einem hohen Niveau, auch die Intrakorrelationen zw. V, H und Ges IQ bei beiden Versionen ergeben ähnliche Werte. Beim HAWIE-R zeichnet sich jedoch eine größere Spannweite und damit eine größere Variationsbreite der Meßwerte ab.

"Ein direkter Vergleich von IQ-Werten beider Verfahren erscheint aufgrund der breiteren verteilung des HAWIE-R gegnüber dem HAWIE nicht zulässig.(...)Unsere Befunde deuten auf eine strukturelle Vergleichbarkeit der revidierten Fassung des HAWIE mit der ursprünglichen Form hin. Beim Einsatz des HAWIE in der klinischen Praxis sind demnach keine wesentlichen Aussageeinbußen zu erwarten; vorteilhaft erscheint seine bessere Differenzierungsfähigkeit in den Extrembereichen."(S.169)

13. Kritik

"Über kaum ein Testkonzept wurde soviel diskutiert und publiziert wie über die Wechsler-Skalen." Es gibt eine Fülle von Punkten, von denen ich nur einige ansprechen kann.

HAWIE-Probleme, die durch die Rezension als gelöst betrachtet werden können, waren u.a.:

Die Normierung war über ein Vierteljahrhundert alt
Aufgabeninhalte waren teilweise veraltet, z.B. die Frage, wieviele Brötchen man für 36 Pfennige kaufen könne
Die Reliabilität einiger Untertests bedurfte dringend der Verbesserung
Die Objektivität der Auswertung einiger Untertests mußte verbessert werden

Der HAWIE ist in vieler Hinsicht eine Verbesserung. Trotzdem führt Guthke eine Reihe von Kritikpunkten an:

· Orientierung nur auf das Denkresultet, nicht auf den Denkprozeß (Lernfähigkeit)

G. ist einseitig auf sein Konzept aus: zB hat man durch Beobachtungsmöglichkeiten teilw Einblick in den Prozeß

Vernachlässigung der kreativen Komponenten
Unterschätzung der I. von "Unterprivilegierten" und Minoritäten

bes. AW und AV sind bildungsabh, werden zwar als gutes Maß bezeichnet, kann aber von der Validierung durch andere Tets kommen, die ja auch solche Aufgaben enthalten: Zirkelschluß!

· zu wenige Untersuchungen zur Validität des HAWIE-R

Fay bemängelt die Bewertung einzelner Items mit guten Argumenten:

Im AW wird nach der Einwohnerzahl Deutschlands und der Zahl der Bundesländer gefragt. "Entweder wurde die Normierungsgruppe exakt zu einer zeit befragt, als die Medien - nicht nur in unserem Land - fast täglich von 80 Millionen Deutschen und den 16 bundesländern berichteten, oder die Itemkennwerte - und damit letztlich die IQ-Schätzungen - wurden mit dem Prozeß der Vereinigung Deutschlands partiell obsolet."(S.275)
Im BE ist nicht mehr der krawattenlose Herr zu finden, dem ein "wichtiger Teil" fehlt, aber der Wasserkrug ist problematisch:FOLIE

Zustand der Schwerelosigkeit: Warum sollte das Wasser so fließen? "Intelligenteste"Antwort wäre, daß die Wasseroberfläche nicht parallel zum Tisch verlaufen dürfe. Auch: dem Krug fehlt etwas haltendes

Im RD wird angenommen, daß die Beziehung Zeit-eingesetzte Kraft umgekehrt proportional sei.
Bei der Frage aus AV "Warum muß man Steuern zahlen?" wird eine Antwort auf die Wozu-Frage erwartet. Wer den eigentlichen Grund nennt, die gesetzliche Verpflichtung erhält null Punkte.

Ich perönlich finde einige Items aus AW und AV ungeeignet, z.B., was ein Geoid ist. Auch ist die Auswertung wie oben erwähnt nicht ganz objektiv und nicht unproblematisch. Außerdem war ich unsicher, wieviel ich zu Anfang des Tests sagen oder informieren darf und in welchem Maße man ermutigen darf, durch Nicken, etc..

Auf die Frage, warum immer noch die klassische Testtheorie als Grundlage verwendet wird, steht im TH nur: "Gegen eine Neukonstruktion auf probabilistischer Grundlage hatte sich der amerikanische Herausgeber jedoch schon bei der Neubearbeitung der Kinderform ausgesprochen."(S.9)

Es wird also nicht erklärt!

Dennoch stellen sich nach Fay Fragen wie:

"Kommt die Revision eines Testverfahrens ohne Nachdenken über eine Revision der Grundkonzeption aus?"

"Kann man, soll man, darf man anno 1991 eine 1939 entwickelte I.konzeption einfach so übernehmen?"

Tewes, der Verfasser des TH, schreibt in seiner Replik, "daß das amerikanische System zur Qualitätskontrolle bei Tests auch in der hiesigen Diskussion oft als vorbildlich bezeichnet wird. Es muß davor gewarnt werden, zum Schutz des eigenen Testmarkts Kriterien festzulegen, z.B. testtheoretischer Art, die die originale Adaptation solcher international gebräuchlichen Verfahren erschweren, die selbst einer strengen Qualitätskontrolle im eigenen Land unterliegen."(S.43)

Man liest noch bei Grubitzsch, den ich nicht verwendet habe, weil er sich nur auf den HAWIE bezieht: Der HAWIE weise alle inzwischen als klassisch zu bezeichnenden sozialen Benachteiligungsfaktoren auf: soz. Herkunft, Sprachgebundenheit.

Man sollte auf die Anwendung unbedingt verzichten.

ABER vorsichtig sein mit so einseitigen Stellungnahmen!

Abschließend möchte ich Guthke zitieren, der seine Rezension beendet mit dem Fazit:

"Trotz der aufgeführten Mängel bleibt der HAWIE-R für die klinische Einzelfalluntersuchung Erwachsener und wegen seiner internationalen Verbreitung für die klinisch-psychologische Forschung gegenwärtig konkurrenzlos."

14. Literaturangaben

Fay, E. (1993). Testinformation: HAWIE-R. Diagnostica, 39, 271-279

Gorlicki, C. u.a. (1997). Der HAWIE-R in der klinischen Praxis. Zeitschrift für Differentielle und Diagnostische Psychologie, 18, Heft 3, S.164-170

Guthke, J. & Herzberg, Ph.Y. (1997). Testrezension zu HAWIE-R. ZDDP, 18, Heft 1/2, S.39-42 mit anschließender Replik von U. Tewes

Matarazzo, J.D. (1982). Die Messung und Bewertung der Intelligenz Erwachsener nach Wechsler. Bern: Huber

Tewes, U. (1991). HAWIE-R. Hamburg-Wechsler Intelligenztest für Erwachsene. Revision 1991. Handbuch und Testanweisung. Bern: Huber.

Wechsler, D. (1964). Die Messung der Intelligenz Erwachsener. Textband zum Hamburg-Wechsler-Intelligenztest für Erwachsene (HAWIE). Bern: Huber