HAWIE gilt als das bekannteste und am meisten eingesetzte deutschsprachige I.verfahren, seit 1991 gibt es die revidierte Fassung: "Eine Revision war dringend erforderlich, da zum einen die Iteminhalte einzelner Subtests nicht mehr zeitgemäß waren - als Beispiel stellvertretend für eine reihe ähnlich überholter Items ist die Frage nach Briefmarken im Wert von 2 Pfennigen zu nennen-, zum anderen stammte die Normierung für die deutsche Version aus dem Jahr 1956."(Gorlicki)
Fay schreibt in seiner Testinformation, daß Ergebnisse und Untersuchungen
zu HAWIE und HAWIE-R nicht vergleichbar sind aus diesem Grund, mehr dazu
später in einem gesonderten Punkt, in Erlangen ist dazu eine Studie
durchgeführt worden, erst 1997 veröffentlicht.
Er war Kliniker, Chefpsychologe am Bellevue Psychiatric Hospital 1932,
ihm gelang die Kombination von Forschung und praktischer Arbeit, mit Einzelpatienten.
Seine Bemühungen um die Entwicklung und Standardisierung von Intelligenzskalen
gipfelten in einer Batterie, der sogennanten Wechsler-Bellevue-Skala 1939.
=> Buch "The Measurement of Adult Intelligence"1939, im Litverz. angegeben.
Die verschiedenen genannten Testversionen unterscheiden sich zwar nach Aufgabeninhalten, sind aktualisiert, jedoch nicht nach Skalentypen.
Streng genommen handelt es sich beim HAWIE-R nicht um eine Revision
des HAWIE. Er ist inhaltlich stärker am Vorbild der revidierten amerikanischen
Form, der WAIS-R orientiert. Das Copyright setzt den Bemühungen Grenzen,
bei der Neubearbeitung aller veröffentlichten Kritik an der ursprünglichen
Version gerecht zu werden. Der amerikanische Herausgeber bestand auf eine
möglichst enge Anlehnung der deutschen Version an das amerikanische
Original.
Definition: "Intelligenz ist ein hypothetisches Konstrukt, ist die zusammengesetzte oder globale Fähigkeit des Individuums, zielgerichtet zu handeln, rational zu denken und sich wirkungsvoll mit seiner Umwelt auseinanderzusetzen. Sie ist zusammengesetzt oder global, weil sie aus Elementen oder Fähigkeiten besteht, die, obwohl nicht völlig unabhängig, qualitativ unterscheidbar sind."
" Die I. ist jedoch nicht mit der Summe dieser Fähigkeiten identisch, wenn sie diese auch einschließt. Hierfür gibt es drei wichtige Gründe:
Wie die Elektrizität kann die allgemeine I. als eine Art Energie angesehen werden. Wir wissen nicht, wie das Wesen dieser Energie letzten Endes beschaffen ist, wir erkennen sie aber - wie bei der Elektrizität - durch die Dinge, die sie vollbringt, oder besser aus den Dingen, die wir mit ihrer Hilfe vollbringen können(...)."
Wechslers theoretisches Konzept folgt der ZweifaktorenTheorie von Spearman: Seine Entdeckung des Generalfaktors "g" und zusätzlich spezifischer Faktoren "s" bezeichnet Wechsler als "eine der großen Entdeckungen in der Psychologie". Aber er stimmt nicht mit Spearmans Begriff der allgemeinen I. voll überein, sondern neben "g" spielen für ihn noch andere entscheidende Faktoren eine Rolle:
Klinische Beweise sind z.B., daß ein Kind mit einem IQ von 75 einwandfrei schwachsinnig sein kann, während ein anderes mit einem gleichen IQ oder sogar mit 5 oder 10 Punkten weniger nicht so klassifiziert werden kann. Es gibt nach Wechsler "nicht-intellektuelle Faktoren der allgemeinen I."- "Gegebenheiten, die man in der Umgangssprache als Temperaments- oder Persönlichkeitsfaktoren bezeichnen könnte".
Das Reden von einem "EQ" ist also keineswegs neu und die trad. I.forscher sind nicht so "böse" und einseitig, wie sie oft dargestellt werden. Im Gegenteil, was Wechsler hier schreibt, klingt sehr am ganzen Menschen orientiert.
Es gibt für ihn die "Allgemeine I." (Gesamt-IQ), die sich in eine "Verbal-" und eine "Handlungs-I." aufteilt. Die Handlungstests "sind ein Versuch in dieser Richtung", eben diese nicht-intellektuellen Faktoren zu messen.
Bevor ich zum Aufbau und den einzelnen Skalen komme möchte ich noch einmal Wechsler zitieren, was er eigentlich für einen Anspruch mit seiner Skala verfolgt:
"Nach unserer Ansicht mißt diese (I.skala) die allgemeine I. in dem oben definierten Sinne. Wir wollen jedoch nicht beanspruchen, sie messe alles, was die allgemeine I. ausmacht, denn kein Test würde gegenwärtig dazu in der Lage sein. Wir können lediglich von einer I.skala verlangen, hinreichende Teile der I. zu messen, damit wir sie als eineigermaßen zuverlässigen Index der globalen Leistungsfähigkeit des Prüflings benutzen können."Er beansprucht also gar nicht, I. vollständig zu erfassen. Kritikern, die ihm genau das vorwerfen, ist somit von vornherein der Wind aus den Segeln genommen.
Die revidierte Version hat nicht mehr die strikte Unterteilung bei der Testdurchführung, durch die gemischte Vorgabe aus beiden Bereichen ist die Testsituation mehr aufgelockert, was ich aus eigener Erfahrung bestätigen kann.
In den einzelnen Untertests wurde meist die Anzahl der Items verändert und teilweise Items ausgetauscht bzw. aktualisiert.
Wechsler hat auf schon in anderen Tests verwendete Aufgaben teilweise zurückgegriffen, im TH sind jeweils frühere Tests genannt, bei denen diese Aufgaben auch schon enthalten sind, z.B. der Army Alpha-Test (1920).
Das Beispiel sollte jeweils am Anfang der Vorstellung der Untertests genannt werden, damit man sich es besser vorstellen kann!
Dann zitiere ich oft wörtlichaus dem TH (abgekürzt für Testhandbuch), wo jeweils angegeben ist, was nach Wechsler in diesem Test gemessen und nach Matarazzo, dessen Buch ein aktualisierender Überblick über Interpretationshilfen und Validitätsstudien ist.
Handlungsteil:
"Die Quellenangaben (im TH) machen deutlich, daß es die Wechsler-Skalen
in ähnlicher Form schon in zahlreichen anderen Tests gab. Die meisten
dieser Skalen, die be Wechsler und den anderen genannten Autoren Verwendung
fanden, gehen auf eine gemeinsame Tradition zurück. Sie entwickelten
sich aus den ersten Ansätzen zur systematischen I.forschung von Binet
(1905) und Binet und Simon (1905). Die historischen Quellen dieser Art
der I.diagnostik werden ausführlich bei Matarazzo nachgezeichnet."(TH
S.19)
"Der Test soll nicht der Untersuchung von Hochbegabten dienen. Er wurde in erster Linie für die klinisch-psychologische Diagnostik entwickelt, bei der es eher um die Untersuchung von Ausfallserscheinungen geht. Der Test differenziert zufriedenstellend bis zu zwei Standardabweichungen über dem Erwartungswert von 100 IQ-Punkten.
IQ-Werte über 150 werden im Handbuch nicht mehr aufgeführt.
Im unteren Leistungsbereich differenziert der Test besser, so daß
quantitative Vergleiche bis zu drei Standardabweichungen unter dem Erwartungswert,
also bis zu einem IQ von 55 Punkten möglich sind."(TH S.46)
Im TH wird betont, daß Einfühlungsvermögen v.a. bei älteren Probanden wichtig ist. Die Bedingunge sollen körperlich bequem sein, Störungen müssen vermieden werden, der Tl sollte mit dem Material gut vertraut sein und die Anweisungen möglichst auswendig können.
(Was ich für sehr schwierig, da sehr viel, halte und auch nicht für unbedingt nötig, solange man das sinngemäß entsprechende sagt)
"Der Tl sollte eine Beziehung herstellen, die den Probanden eher ermutigt, ihn jedoch nicht unter Druck setzt. Der Proband sollte das Gefühl haben, daß ihm die Gelegenheit geboten wird, sein Leistungsvermögen unter guten Bedingungen unter Beweis zu stellen."(wobei mir nicht klar war, wieviel ich zur Ermutigung sagen darf, z.B. Bestätigen, wenn etwas richtig ist?)
Die Zeitnahme, wird auch im TH betont, verlangt besondere Konzentration. Vergißt man leicht!
"Wenn der Tl den Eindruck hat,daß der Proband sich durch Zeitnahme
sehr unter Druck fühlt, kann man ihn darauf hinweisen, daß die
Qualität der Lösung wesentlich wichtiger ist als die Geschwindigkeit
(ausgenommen beim ZS)." (TH S.47)
Bsp: "im Wald verirrt" 2P für "Zuhilfenahme von Naturgegebenheiten, 1P für "immer geradeaus gehen", 0P für "rufen, warten, bis Förster kommt"
Die Rohwertsumme jedes Untertests wird in Wertpunkte transformiert, um die Leistungen in den versch. Untertests vergleichbar zu machen. WP Skala hat MW von 10 und s=3. Die WP werden für Verbal- und Handlungsteil und den Gesamttest aufsummiert. Aus den Wertpunktsummen wird anhand von Tabellen der IQ-Wert für V., H. teil und Gesamt abgelesen. Die Auswertung dauert 15-30 Minuten.
Die Umrechnung in Wertpunkte geschieht auf der Basis der Rohwertverteilungen für die 20-34-jährigen, weil nach Wechsler "die geistige Entwicklung in dieser Altersgruppe ihr Maximum erreiche und relativ konstant bleibe".
Nachteil dieses Auswertungsmodus: Die Wertpunkteverteilung für höhere Altersgruppen hat nicht mehr den Erwartungswert von 10 Punkten. Das WPProfil eines Pb gibt an, in welchem Ausmaß sich seine Leistungen in den einzelnen Ut von den Erw.werten für die 20-34J. unterscheidet. Ältere werden also zB benachteiligt.
Den IQ bestimmt Wechsler aber, indem er die WP Summe für jede Altersgruppe gesondert in IQ Werte umrechnet. Zusätzlich wird eine Wertpunkteberechnung B angeboten nicht für IQ Berechnung, als Abweichungswert von der Norm jeder Altersgruppe, bspw auch die Normen für Gymnasiasten. (TH S.13) Altersspez. WP haben Nachteil: Erw. werte, von denen sie abgeleitet sind, sind nicht so zuverlässig wie die für die 20-34j, da mehr in Eichstichprobe.
Diese doppelte Verrechnung kann zu Mißverständnissen führen.
Dieser Verrechnungsmodus von Wechsler wurde übernommen, so sind
die Ergebnisse von US vergleichbar in D und USA.
"Der Gesamt-IQ gibt einen Hinweis auf das allgemeine geistige Leistungsvermögen des Individuums. Unterschiede zwischen Verbal-und Handlungs-IQ lassen erkennen, ob die beteffende Person mehr praktisch oder eher verbal-theoretisch begabt ist. Die Leistungsbeeinträchtigungen sollten stets vor dem Hintergrund milieuspezifischer Einflüsse und möglicher krankheits- oder verletzungsbedingter Behinderungen interpretiert werden." (TH S.15)
Die IQ-Verteilungen haben in jeder Altersgruppe einen Erwartungswert von 100 Punkten und eine Standardabweichung von 15 Punkten. Der IQ drückt also immer die relative Position aus. Beispielsweise liegt eine Person mit einem IQ von 115 eine Standardabweichung über dem Erwartungswert und ist, als Prozentrang ausgedrückt, besser als 84% aller Angehörigen ihrer Altersgruppe.
TH enthält eine Tabelle zur Umrechnung in PR
Zu Testwertdifferenzen:
TH S.44: Usch in den beiden Testteilen V und H werden häufig als Folgen milieuspezifischer Einflüsse, besonderer erzieherischer Förderung oder einseitiger Begabungen interpretiert. Berechnet man(...) so ist eine Differenz von 5,6 IQ P oder mehr auf dem 5%Niveau sign."
Zur Interpretation von Störungsbildern: Wechsler empfiehlt zur Unterstützung von Differentialdiagnosen bei einer Reihe von psychiatrischen Erkrankungen die Berechnung des Differenzwertes zwischen Verbalteil und Handlungsteil. Für ihn gilt eine Differenz von mind. 11 IQ-Punkten als interpretationsfähiger Wert.
Er behauptet zB, daß Organische Gehirnerkrankungen, Psychosen und Psychoneurosen mit höheren Ergebnissen im Vteil einhergehen, Jugendliche Psychopathen und Schwachsinnige hätten bessere Ergebnisse im Hteil.
Auch betont er das Testprofil eines Pb und stellt Testcharakteristika verschiedener klinischer Gruppen auf. ZB Schizophrene, Neurotiker würden bei bestimmten Ut charakteristisch gut oder schlecht abschneiden.
TH S.45: Die meisten Handbücher zu den Wechsler-Tests enthalten auch Angaben darüber, wie groß der Unterschied der Leistungen eines Pb in zwei Ut sein muß, um statistisch signifikant zu sein. (...) Derartige Berechnungen sind im Hinblick auf ihren diagnostischen Wert jedoch äußerst fragwürdig und für die Wechsler-Tests nicht zu empfehlen.
Das Testkonzept von Wechsler geht davon aus, daß nicht die Leistung in einem einzelnen Ut diagnostisch relevant ist, sondern daß jeweils Utgruppen nach versch. Kriterien "gebündelt" werden und dann miteinander verglichen werden sollten ( z.B. sprachunabhängige vs sprachabhängige Ut oder Tests mit Zeitbegrenzung vs Tests ohne Z.).
(...) Man kann sich grob an der Faustregel orientieren, daß eine Differenz von 3 WP im Allgemeinen nicht mehr als durch den Meßfehler verursacht werden kann. Die klinische Interpretation derartiger Differenzen ergibt allerdings nur einen Sinn, wenn sie der gezielten Überprüfung von Hypothesen dient, die vor der US aufgestellt werden."
Guthke weist darauf hin, daß der in der Praxis immer noch beliebten Profilinterpretation von UtDifferenzen mit großer Skepsis zu begegnen sei.
Im neuen TH fehlen Angaben darüber, wohl mit Absicht, sie hätten
aber dazu Stellung beziehen können.
An keiner Stelle geht aus dem Text im TH hervor, wann genau die Normdaten
erhoben wurden, es muß kurz vor dem 9.11.1989 oder gleichsam "vereinigungsbegleitend"
geschehen sein. Ganz offensichtlich konnte jedoch noch kein Einwohner der
neuen Bundesländer Eingang in die Normierungsstichprobe finden, es
ist schade, daß das im deutschsprachigen Bereich "jüngstnormierte"
I.testverfahren dort nur schwer zu interpretierende Ergebnisse zeitigen
wird."(Fay S.274)
Die Objektivität wird dadurch beeinträchtigt, daß es sich um einen Individualtest ohne Multiple-Choice-Aufgaben handelt. Bei der Testdurchführung können Probanden leicht benachteiligt oder bevorzugt werden. Bei der Testrevision wurde Wert darauf gelegt, die Anweisung übersichtlicher zu gestalten, um die Durchführungsobjektivität zu verbessern. Nach Fay kann von der Sicherstellung der Durchführungsobjektivität im allgemeinen ausgegangen werden.
Bei AW,AV, WT, GF bleibt ein Ermessensspielraum bei der Punktevergabe, der zur Minderung der Auswertungsobjektivität führt. Erfahrene Auswerter urteilen nach den Ergebnissen einer Studie mit größerer Übereinstimmung. 4 Testprotokolle wurden 16 versch. Auswertern vorgelegt, die Streuungen waren zT beträchtlich, AV war am schwersten auszuwerten. Erfahrung verbesser hier die Auswertungsobj., sie ist insges. zufriedenstellend.
Reliabilität:
DasTH teilt Reliabilitätskoeffizienten mit, Maße der internen Konsistenz (Cronbachs Alpha), die von Ausnahmen abgesehen, befriedigen( zwischen .64 (FL) für die 70-74j und .95 (ZS) as höchster wert, beim entscheidenden Gesamt-IQ bei mind. .95 bis .97, was hoch ist . Knapp die Hälfte der Koeffizienten für die 11 Untertests und neun Altersgruppen liegt über .80.
(Fay:Angaben über
Itemanalyse: Angaben zu MW und Trennschärfe (0.08 bis 0.66)
Standardmeßfehler: s=2.60 bis 3.35 (IQ Einheiten) für alle Altersgruppen und den Gesamttest
Homogenität: Subtests interkorrelieren teilweise recht bedeutsam: von Profilinterpretation absehen)
Validität:
Das TH enthält seitenweise verwirrende Interkorrelationsmatrixen und Tabellen und nur wenig Text zu diesem Zentralkriterium. Im Zentrum steht die faktorielle Validierung, wobei die Unterteilung in einen Verbal- und Handlungsfaktor bestätigt wird:
2 Faktoren, die zus. Knapp 56% der Gesamtvarianz aufklären. Vtests höchste Ladung auf 1. Faktor, Hsubtests auf zweitem Faktor (nur ZN und RD haben auf beiden Faktoren substantielle Ladungen).
Zusätzlich werden durch VA gewonne Gruppenunterschiede zwischen Hauptschülern und Gymnasiasten aufgeführt (Usch in VT ca. 1s, in HT geringer), auch zwischen Alkoholikern und Nicht-Alkoholikern (Usch nicht sehr stark).
Für einen Individualtest ist das Verfahren noch als ökonomisch
zu beurteilen, die Zumutbarkeit ist auch gegeben und was die Verfälschbarkeit
betrifft, dürften Simulationen aufgrund der guten Beobachtungsmöglichkeiten
eher zu erkennen sein als bei anderen Verfahren. (Guthke)
Zur Klärung dieser Frage, ob die beiden Versionen äquivalente Ergebnisse liefern, wurden 45 Patienten, m u w, aus der Psychiatrischen Universitätsklinik Erlangen untersucht. In zwei randomisierten Teilgruppen wurde ihnen jeweils an aufeinanderfolgenden Tagen eine Version vorgelegt, Übungseffekt durch t-Tests ausgeschlossen.
Ergebnisse: Keine sign. MW Usch
Die Gesamt-, Handlungs- und Verbal-IQ Werte korrelieren auf einem hohen Niveau, auch die Intrakorrelationen zw. V, H und Ges IQ bei beiden Versionen ergeben ähnliche Werte. Beim HAWIE-R zeichnet sich jedoch eine größere Spannweite und damit eine größere Variationsbreite der Meßwerte ab.
"Ein direkter Vergleich von IQ-Werten beider Verfahren erscheint aufgrund
der breiteren verteilung des HAWIE-R gegnüber dem HAWIE nicht zulässig.(...)Unsere
Befunde deuten auf eine strukturelle Vergleichbarkeit der revidierten Fassung
des HAWIE mit der ursprünglichen Form hin. Beim Einsatz des HAWIE
in der klinischen Praxis sind demnach keine wesentlichen Aussageeinbußen
zu erwarten; vorteilhaft erscheint seine bessere Differenzierungsfähigkeit
in den Extrembereichen."(S.169)
HAWIE-Probleme, die durch die Rezension als gelöst betrachtet werden können, waren u.a.:
· Orientierung nur auf das Denkresultet, nicht auf den Denkprozeß (Lernfähigkeit)
G. ist einseitig auf sein Konzept aus: zB hat man durch Beobachtungsmöglichkeiten teilw Einblick in den Prozeß
· zu wenige Untersuchungen zur Validität des HAWIE-R
Fay bemängelt die Bewertung einzelner Items mit guten Argumenten:
Auf die Frage, warum immer noch die klassische Testtheorie als Grundlage verwendet wird, steht im TH nur: "Gegen eine Neukonstruktion auf probabilistischer Grundlage hatte sich der amerikanische Herausgeber jedoch schon bei der Neubearbeitung der Kinderform ausgesprochen."(S.9)
Es wird also nicht erklärt!
Dennoch stellen sich nach Fay Fragen wie:
"Kommt die Revision eines Testverfahrens ohne Nachdenken über eine Revision der Grundkonzeption aus?""Kann man, soll man, darf man anno 1991 eine 1939 entwickelte I.konzeption einfach so übernehmen?"
Tewes, der Verfasser des TH, schreibt in seiner Replik, "daß das amerikanische System zur Qualitätskontrolle bei Tests auch in der hiesigen Diskussion oft als vorbildlich bezeichnet wird. Es muß davor gewarnt werden, zum Schutz des eigenen Testmarkts Kriterien festzulegen, z.B. testtheoretischer Art, die die originale Adaptation solcher international gebräuchlichen Verfahren erschweren, die selbst einer strengen Qualitätskontrolle im eigenen Land unterliegen."(S.43)
Man liest noch bei Grubitzsch, den ich nicht verwendet habe, weil er sich nur auf den HAWIE bezieht: Der HAWIE weise alle inzwischen als klassisch zu bezeichnenden sozialen Benachteiligungsfaktoren auf: soz. Herkunft, Sprachgebundenheit.
Man sollte auf die Anwendung unbedingt verzichten.
ABER vorsichtig sein mit so einseitigen Stellungnahmen!
Abschließend möchte ich Guthke zitieren, der seine Rezension beendet mit dem Fazit:
"Trotz der aufgeführten Mängel bleibt der HAWIE-R für
die klinische Einzelfalluntersuchung Erwachsener und wegen seiner internationalen
Verbreitung für die klinisch-psychologische Forschung gegenwärtig
konkurrenzlos."
Gorlicki, C. u.a. (1997). Der HAWIE-R in der klinischen Praxis. Zeitschrift für Differentielle und Diagnostische Psychologie, 18, Heft 3, S.164-170
Guthke, J. & Herzberg, Ph.Y. (1997). Testrezension zu HAWIE-R. ZDDP, 18, Heft 1/2, S.39-42 mit anschließender Replik von U. Tewes
Matarazzo, J.D. (1982). Die Messung und Bewertung der Intelligenz Erwachsener nach Wechsler. Bern: Huber
Tewes, U. (1991). HAWIE-R. Hamburg-Wechsler Intelligenztest für Erwachsene. Revision 1991. Handbuch und Testanweisung. Bern: Huber.
Wechsler, D. (1964). Die Messung der Intelligenz Erwachsener. Textband zum Hamburg-Wechsler-Intelligenztest für Erwachsene (HAWIE). Bern: Huber