dinsdag 26 maart 2024

Israël: "Ja, het land is in de war nu. Een hopeloze situatie."

 

Laatst bijgewerkt: 26/3/2024 om 23.44

 

In de Trouw van vandaag (dinsdag, 26 maart 2024) zie ik een foto staan van een oudere dame, die nog steeds met grote ogen, monter de wereld inkijkt. Het blijkt een interview te zijn met dichtster en toneelschrijfster Judith Herzberg. Dat zegt me niets, want ik heb een blinde vlek voor namen van mensen en heb weinig met dichters en toneel.

De oudere dame blijkt inmiddels 89 te zijn. Dan valt het kwartje. Het is de dochter van Abel Herzberg, de Joodse Nederlander die zo koel en waarnemend wist te schrijven over het innerlijk en uiterlijk van fascisten. Van buiten glimmend gepoetste laarzen en een indrukwekkend uniform, maar van binnen leeg.

Judith is als kind opgehaald en meegenomen door Jo, voordat Abel met zijn vrouw door de bezetters werden afgevoerd via Barneveld naar Westerbork en vandaar naar het concentratiekamp. Maar misschien zeg ik het nu wat krom, want Westerbork was natuurlijk ook al een soort concentratiekamp.

Het stuk Rivka van Judith is net voor de tweede keer in Duitsland opgevoerd. Zelf vindt ze het een van haar beste toneelstukken. Ze hoopt dat het ook een keer in Nederland zal worden opgevoerd.

In de jaren tachtig woonde Judith in Israël. Joop van Tijn van Vrij Nederland wilde, dat ze daar verhalen schreef over het dagelijkse leven.

Maar wat heeft al dit bovenstaande van doen met het onderwerp van deze blog? Dat komt nu.

Wat vindt ze van Israël nu? Zou ze er niet opnieuw naar toe moeten om verhalen te schrijven over het dagelijkse leven daar?

En dan zegt ze: "'Ja, het land is in de war nu. Een hopeloze situatie."

Ik had het zelf niet beter kunnen verwoorden.

 

Israël heeft te kampen, waar vrijwel ieder land momenteel mee te kampen heeft: de ruk naar rechts. De steeds verder toenemende verrechtsing.

Gedacht vanuit het soortenmodel noemde ik dat vroeger de toenemende alfa-bètafactor. In het soortenmodel worden vier verschillende soorten mensen van elkaar onderscheiden. Dat onderscheid wordt gemaakt op basis van hun score op RWA (Right Wing Authoritarianism) en SDO (Social Dominance Orientation).

Mensen die hoog scoren op beide (RWA+, SDO+) lijden aan het koning/keizer-syndroom. Mensen die laag scoren op beide (RWA-, SDO-) lijden aan het boer/productie-syndroom.

Maar hoe wordt je koning/keizer? Dat lukt alleen met de hulp van de twee andere soorten. De gewone volgelingen/gelovigen (RWA+, SDO-) en de 'men of action' (RWA-, SDO+).  De koning/keizer (of alfa) heeft dus zijn inner circle van andere alfa's, vervolgens zijn generaals en officieren (de men of action) en tenslotte zijn manschappen (de gewone volgelingen/gelovigen).

Al die mensen moeten eten en willen natuurlijk ook spelen (vermaak) en andere leuke dingen. Wie gaan daar voor zorgen? Wel zij niet, dat is duidelijk. Daar zijn die domme bèta's prima geschikt voor. Die mensen moet blij zijn, dat ze nog leven!

Macht, discriminatie en agressie is het verdienmodel van de machtige groep (de lethal union). Wat houdt de machtige groep bijelkaar? Wat is de centrale variabele? We weten nu dat dat bevooroordeeldheid is. Vroeger noemde ik dat de alfa-bètafactor.

Maar al die weelde en luxe, gecombineerd met het 'zalige' van niet echt productiewerk hoeven doen, trekt natuurlijk steeds meer mensen aan. Iedereen wil het graag zo gemakkelijk mogelijk hebben. Met andere woorden: in een rijke landbouwsamenleving (wat alle moderne samenlevingen zijn) neemt de bevooroordeeldheid steeds verder toe.

Mensen worden steeds meer gericht op zichzelf en hun positie in de machtige groep. Ze willen sociaal scoren, veel macht hebben en snel rijk zijn. En verder vooral genieten en seks hebben, zo lang het kan.

Het gevolg is dat ze steeds meer via hun emotionele systeem (systeem 1) gaan denken. Hun denken wordt kroegpraat, wordt sociaal babbelen, wordt rechts geleuter. Als je het mooi wilt zeggen: het wordt 'snel denken'. In werkelijkheid is het geen denken, maar babbelen, leuteren.

Het gevolg is dat ze niet meer via hun rationele systeem (systeem 2, het brein) gaan en kunnen denken. Ze komen steeds meer los te staan van de harde werkelijkheid. Hun denken wordt steeds meer babbelen.

Ik noem dat verrechtsing. De weg kwijt zijn. Het contact met de werkelijkheid verloren hebben.

Maar Judith omschrijft het voor Israël treffend en kernachtig: 'Het land is in de war nu'.

Als je in die toestand bent beland (je bent je rationele denken kwijt, doordat je dat nooit ontwikkeld en gekoesterd hebt), zit je in een behoorlijk hopeloze situatie. Precies zoals Judith het verwoordt.















maandag 25 maart 2024

Het raadsel van 'The Authoritarian Personality' -- deel II

 

Laatst bijgewerkt: 27/3/2024 om 17.19

 

De vorige blogpost (het eerste deel van twee) over het boek The Authoritarian Personality (TAP), dat in 1950 verscheen, eindigde ik zo:

"De onderzoekers hebben zich door hun negatieve emoties over de lage betrouwbaarheid van PEC laten meeslepen, waardoor ze zich niet realiseerden dat ze via de E- en PEC-schaal tweemaal dezelfde factor hebben gemeten."

 "Tot zover bevat mijn verhaal niets nieuws, want het voorgaande heb ik in andere bewoordingen eerder gerapporteerd op deze blog. Maar nu komen we bij de volgende poging bevestiging te krijgen voor de validiteit van de E-schaal door deze te correleren met de beroemde/beruchte F-schaal. Hier verandert mijn eerder gerapporteerde belangrijk."


Als de PEC-schaal de E-schaal niet kon bevestigen, moesten ze dat op een andere manier proberen, dachten de auteurs van TAP. Het overtuigend aantonen van de kronkel in de kop van 'fascisten' kon immers alleen lukken als een totaal andere maat hetzelfde opleverde als de E-schaal. Men moest 'fascisme' tweemaal met succes meten, voordat er een redelijk overtuigend verhaal zou ontstaan.

Men zocht de oplossing in de constructie van de F-schaal. Die vragenlijst was bedoeld de 'fascistische' persoonlijkheid bloot te leggen door te vragen naar de diepere kenmerken daarvan.

Welke kenmerken? Deze (p. 255 e.v., TAP):

1. Conventionalisme (4 items) -- Rigid adherence to conventional, middle-class values.

2. Authoritarian Submission (7 items) -- Submissive, uncritical attitude toward idealized moral authorities of the ingroup.

3. Authoritarian Aggression (8 items) -- Aggression: Tendency to be on the lookout for, and to condemn, reject, and punish people who violate conventional values.

4. Anti-intraception (4 items) -- Opposition to the subjective, the imaginative, the tender—minded.

5. Superstition and Stereotypy (6 items) -- The belief in mystical determinants of the individual's fate; the disposition to think in rigid categories.

6. Power and "Toughness" (7 items) -- Preoccupation with the dominance-submission, strong-weak, leader-follower dimension; identification with power figures; overemphasis upon the conventionalized attributes of the ego; exaggerated assertion of strength and toughness.

7. Destructiveness and Cynicism (2 items) -- Generalized hostility, vilification of the human.

8. Projectivity (5 items) -- The disposition to believe that wild and dangerous things go on in the world; the projection outwards of unconscious emotional impulses.

9. Sex (3 items) -- Exaggerated concern with sexual "goings-on."

 

Het probleem met deze lijst is dat dezelfde items geteld worden bij meerdere kenmerken. (Items zijn ondergebracht in meerdere subschalen tegelijk). Wie de hierboven vermelde aantallen optelt, komt uit op 46. In werkelijkheid telde de F-schaal 30 items.

Een volgend probleem is, dat wie de vermelde lijst in TAP (p. 255 e.v.) het aantal afzonderlijke items probeert te achterhalen, uitkomt op 29. Maar in werkelijkheid telde de F-schaal 30 items. Dat soort slordigheden vergroot het vertrouwen van de lezer in de onderzoekers niet.
Ook 9 kenmerken van de fascistische persoonlijkheid denken te zien, maar vervolgens niet voor ieder kenmerk een aantal aparte items te genereren, komt ongelukkig over. Wanneer men dan vervolgens ook nog items voor meedere kenmerken tegelijk gaat gebruiken, wordt de lezer niet opgewekter.

De resulterende F-schaal bleek behoorlijk betrouwbaar (0.90 gemiddeld, p. 258). De gemiddelde onderlinge correlatie tussen de items bedroeg volgens 0.13 (p. 261) op een selecte steekproef. Via de formule voor testverlenging vindt men dan een betrouwbaarheid van 0.82 voor 30 items (met gestandaardiseerde varianties). Een waarde die dus goed kan kloppen, rekening houdend met een afrondingsfout en de nogal geselecteerde steekproef.

Naar we nu weten, had de schaal echter twee belangrijke problemen. Allereerst werden de veronderstelde subschalen niet teruggevonden in de data. De gemiddelde correlatie tussen de items in een subschaal was niet hoger dan de gemiddelde correlatie tussen de items van verschillende subschalen.

Ten tweede kon de vragenlijst eenvoudig gefaket worden door systematisch het hoge of het lage antwoord te kiezen. Alle items waren zo geformuleerd, dat iemand die het er mee eens was, voortdurend hoog scoorde, dus als 'fascist' antwoordde. Dit probleem staat ook bekend als response-bias.

Dit laatste probleem gold echter niet voor de 5 PEC-items. Hier kwamen wel 'omgekeerde' items in voor. De hoge correlatie tussen E en PEC na correctie voor onbetrouwbaarheid had dit punt dus kunnen weerleggen.

De auteurs van TAP relativeerden het eerste probleem. De subschalen waren (bij nader inzien?) slechts bedoeld als hulpmiddel en waren verder niet echt van belang. (Waarom die indeling dan eerst wel uitgebreid behandelen?) Het ging erom dat alle items enigszins dezelfde factor maten. Dat resulteerde in een betrouwbare lijst en daar ging het om.

Ze rapporteren een correlatie van gemiddeld 0.73 tussen de E- en de F-schaal (p. 263). Maar de E-schaal was niet perfect betrouwbaar en de F-schaal ook niet. Om te weten in hoeverre beide schalen dus dezelfde factor meten, moet je corrigeren voor die dubbele onbetrouwbaarheid via de correctie voor attenuation.

In mijn eerdere weergaven van de gebeurtenissen dacht ik dat de auteurs dit niet wisten en dit niet hadden gedaan. In een voetnoot op pagina 264 van TAP blijkt echter, dat ze dit wel wisten en wel hebben gedaan:

"8 The correlation coefficient which, theoretically, would result if two scales were perfectly reliable, i.e., if the average obtained r were corrected for attenuation, is about .9. This indicates a striking correspondence, though not a complete identity, of what is measured by the two scales."

In een voetnoot? Dit was belangrijke informatie, die de gevonden correlatie van 0.73 in een totaal ander daglicht zette. Waarom stond dit niet in de tekst?

Voetnoot 8 refereert aan de volgende passage in de tekst (p. 262-264, terwille van de leesbaarheid heb ik twee witregels tussengeplaatst):

"It is obvious, therefore, that if the reliabilities of the two scales were increased (which can be done by increasing the number of items within each) the correlation between E and F would be very high indeed.8

This is not to say, however, that E and F for all practical purposes measure the same thing.

A correlation of .775 means that about two-thirds of the subjects who score in the high quartile on the one scale, score in the high quartile on the other, and that there are practically no reversals, i.e., cases in which a subject is high on one scale but low on the other. If one wished to use the F scale alone in order to single out subjects who were practically certain to be highly ethnocentric, i.e., in the high quartile on the present E scale, it would be necessary for him to limit himself to those scoring at the very highest extreme on F, perhaps the top 10 percent."

De auteurs van TAP zien die correctie voor onbetrouwbaarheid als een soort theoretische exercitie, die ze liefst snel weer achter zich laten. Ja, als je oneindig veel items zou gebruiken, dan zou je natuurlijk een nog hogere correlatie vinden. Maar tja, dat hadden ze niet gedaan!

Vervolgens komen ze met een correlatie van .775, die niet gevonden is. Ze redeneren dan dat als je twee testen hebt, die precies hetzelfde meten, een onderlinge correlatie van .775 eigenlijk nog te laag is om individueën betrouwbaar te classificeren. Dat verhaal klopt wel, maar dan heb je het over de betrouwbaarheid. Niet over dat, wat de test probeert te meten! De validiteit.

In dit geval gaat het echter om de validiteit. Een onbetrouwbare test kan nog steeds een valide maat zijn voor iets, maar bevat slechts een klein beetje 'iets' en heel veel ruis. De items van de F-schaal zijn een goed voorbeeld. In de geselecteerde steekproef hadden ze een betrouwbaarheid van slechts 0.13. Ze bevatten weinig iets en veel ruis. Maar als je 60 van die items hebt, levert dat een test met een betrouwbaarheid van 0.90. Deze bevat dus veel iets en weinig ruis.

Met andere woorden: de auteurs van TAP waren op de hoogte met de correctie voor onbetrouwbaarheid, ze wisten ook hoe ze die moesten berekenen, maar ze snapten de functie niet. Een bekend probleem in de wiskunde en statistiek. Mensen leren sommen maken, leren formules te gebruiken, maar snappen niet, waartoe dat alles dient.

Programmas als SPSS maken dit tegenwoordig allemaal nog erger. Mensen generen vellen vol diepzinnige en geheimzinnige cijfers, snappen er in feite amper iets van en baseren daarop vervolgens hele onderzoeksrapporten met soms volstrekt wilde conclusies. Dat probleem speelde in 1950 dus ook al.

Met de hierboven geciteerde voetnoot 8 is nog iets merkwaardigs. De auteurs vermelden correlaties en betrouwbaarheden altijd in twee decimalen nauwkeurig. Maar nu opeens in één decimaal. Waarom? Wie de moeite neemt de zaak na te rekenen vindt een voor onbetrouwbaarheid gecorrigeerde correlatie tussen de E-schaal en de F-schaal van 0.86. Als je dat afrondt op 1 decimaal nauwkeurig, krijg je 0.9. In werkelijkheid vonden ze dus 0.86, maar waardeerden ze dat op tot 0.9. Dat leek beter.

De voor onbetrouwbaarheid gecorrigeerde correlatie van 0.86 tussen de E-schaal en de F-schaal betekent dat E en F bij perfect betrouwbare maten ongeveer drie vierde (74 procent) van alle variantie gemeenschappelijk hebben. Ze meten dus niet volledig hetzelfde, maar wel in zeer hoge mate hetzelfde.

Dat ze niet volledig hetzelfde meten, na correctie voor onbetrouwbaarheid, is in werkelijkheid alleen maar positief. Anders zou je immers in feite tweemaal precies dezelfde maat gehanteerd hebben. Nu is duidelijk dat het echt om twee verschillende maten gaat. Twee maten die in hoge mate dezelfde factor meten, maar op totaal verschillende manieren.


De auteurs van TAP deden in totaal drie poging de fascistische persoonlijkheid bloot te leggen. Ze hadden vertrouwen in de eerste poging en terecht. De E-schaal (Etnocentrisme-schaal) had betrouwbare subschalen en die subschalen correleerden onderling behoorlijk. Alle subschalen maten in hoge mate dezelfde factor.

Maar om redelijk zeker te zijn, dat ze hiermee inderdaad de 'fascistische' persoonlijkheid te pakken hadden, hadden ze bevestiging nodig van een tweede maat, bedoeld die persoonlijkheid aan te tonen.

De eerste poging tot bevestiging was de PEC-schaal en hoewel ze die terugbrachten tot ver onder het minimum gewenste aantal items, lukte die poging. Alleen de auteurs staarden zich zo blind op de veronderstelde slechte betrouwbaarheid, dat ze die niet meer wilden en durfden te berekenen. Dan zou de schande -- een bijna volstrekt onbetrouwbare maat -- publiek worden. Door die nalatigheid konden ze niet zien dat hun poging tot bevestiging desondanks volledig was geslaagd.

Omdat de eerste poging mislukt was, naar ze dachten, ondernamen de auteurs een tweede poging: de constructie van de F-schaal. Bedoeld de fascistische persoonlijkheid via kenmerken van de diepe persoonlijkheid bloot te leggen. Maar de correlatie tussen de E-schaal en de F-schaal bleek weer belangrijk lager dan men gehoopt had.

In dit geval berekenden ze echter wel de correlatie tussen beide variabelen na de correctie voor onbetrouwbaarheid te hebben uitgevoerd. Ze vonden een prachtige waarde, die ze zelf nog wat opwaardeerden door af te ronden op 1 decimaal.

Maar in werkelijkheid begrepen ze niet goed, wat ze precies gevonden hadden Dit was toch een soort berekende waarde? De echte correlatie was helemaal niet zo hoog, dachten ze, en daar ging het toch om.

Hoe moet je dit alles verklaren? Onderzoekers vinden twee keer goud, maar snappen niet, dat ze goud hebben gevonden.

 

Ik zit al meer dan 50 jaar in het empirisch sociaal-wetenschappelijke onderzoek. Als data-analist, als toekijker, als lezer van onderzoek, als docent en als onderzoeker. Tegenwoordig en ondertussen al heel lang, als onafhankelijk onderzoeker. Een groot goed!

Ik heb dit soort zaken al vele malen meegemaakt. Altijd ging het om mensen die hun onderzoeksvraag niet duidelijk hadden. Die met imponerende verhalen kwamen in plaats van met goed onderzoek. Om mensen die ingewikkelde technieken toepasten, maar niet de moeite wilden nemen om zich daarin echt te verdiepen. 

Met andere woorden: het gaat om mensen die genetisch als het ware niet geschikt zijn voor natuurwetenschappelijk onderzoek. In termen van deze blog: het gaat om bevooroordeelde mensen. Om 'sociale' mensen. Niet om nerds, met een vreemde passie hebben om te willen begrijpen, hoe de wereld in elkaar steekt.

Ik denk dus dat in ieder geval een aantal van de (voorin vermelde) auteurs van TAP en mogelijk allemaal, behoorlijk hoog scoorden op dat, wat ze zelf probeerden te meten. Dus op bevooroordeeldheid.

Wat zijn de aanwijzingen?

1. Eerst dat vreemde onderscheid maken tussen 'auteurs' en mensen die slechts een hoofdstuk mogen bijdragen.

2. Dan zo emotioneel reageren op een ten onrechte ingekorte vragenlijst, dat je de betrouwbaarheid niet meer berekent en niet meer wilt weten.

3. Vervolgens de 'correction for attenuation' uitrekenen, maar de waarde opwaarderen door die af te ronden op 1 decimaal.

4. Wel de 'correction for attenuation' uitrekenen en vermelden, maar niet snappen wat het resultaat precies betekent.

5. Je onderzoek in een onvoorstelbaar dik boek presenteren, terwijl uiteindelijk maar een klein deel  van dat boek de informatie bevat, waar het uiteindelijk om gaat.

6. Je vraagstelling niet goed duidelijk hebben en niet goed duidelijk maken.

7. Je methode niet goed duidelijk hebben, maken, en volgen.

 

We weten nu dat de auteurs van TAP driemaal bevooroordeeldheid gemeten hebben op verschillende manieren. Dat dat lukte, kwam niet doordat de auteurs zulke vreselijk goede onderzoekers waren. Dat kwam, doordat bevooroordeeldheid voortdurend zo algemeen aanwezig is, dat het bijna niet gemist kan worden, zodra je er gericht naar op zoek gaat.

Bevooroordeeldheid is zelfs zo algemeen aanwezig, dat onderzoekers in de sociale wetenschappen en de alfawetenschappen er vaak behoorlijk hoog op scoren. Dat is enerzijds mijn persoonlijke waarneming, anderzijds is het ook wat het soortenmodel suggereert. De auteurs van TAP waren op dit punt helaas niet echt uitzonderlijk.

Voor de goede orde: ik denk dat bevooroordeeldheid door de cultuur en tijdgeest waarin we leven, inmiddels ook in bijvoorbeeld de klimaatwetenschap en andere natuurwetenschappen vaak een probleem is geworden. Het is te optimistisch om te denken dat het daar niet voorkomt.

Waar moet je dan aan denken? Men produceert in de klimaatwetenschap vaak prachtige verhalen over hoe het allemaal misschien toch heel erg mee zou kunnen vallen. Dat is 'mooi', maar er valt te voorzien dat het ijs op Groenland en Antartica niet heel erg onder de indruk zal zijn van al die 'mooie' verhalen.


Het raadsel van TAP is, als je het globaal stelt, dat er iets mis is met het boek. Voor Altemeyer was dat duidelijk: er was heel veel mis met dat boek. Met het werk van Altemeyer is ook wel eens iets mis, maar er is nooit fundamenteel iets mis. Wat is dan precies het verschil?

Ik denk dat Altemeyer het ooit verwoord heeft. Hij puzzelde graag. Deden de auteurs van TAP dat ook? Het lijkt me niet erg aannemelijk.

Het wezenlijke probleem van TAP is dat de auteurs niet echt bezig waren een puzzel op te lossen. Het boek was in de eerste plaats een middel om sociaal hogerop te komen, in ieder geval voor een aantal van de voorin vermelde auteurs. Hun in doorsnee te hoge mate van bevooroordeeldheid is, wat TAP tot een boek maakt, waarin -- onderzoeksmatig gezien -- vreemde dingen gebeuren.









 



zondag 24 maart 2024

Het raadsel van 'The Authoritarian Personality' -- deel I

 

Laatst bijgewerkt: 24/3/2024 om 23.59

 

Het boek 'The Authoritarian Personality' (TAP) dat in 1950 verscheen, geldt als het begin van het empirische onderzoek naar discriminatie en facisme. Met 'discriminatie' werd niet bedoeld dat mensen een auto anders behandelen dan een hond, maar werd 'sociale discriminatie' bedoeld. Met 'fascisme' werd bedoeld 'enthousiasme voor de strongman'.

Het boek heeft ladingen kritiek losgemaakt, maar uiteindelijk -- na bijna 75 jaar -- leidde al die ophef tot de bijna onvoorstelbare resultaten op het gebied van discriminatie en agressie, die we nu hebben.

Dat het boek die cult-status tenslotte kon krijgen, danken we vooral aan het werk van wijlen Bob Altemeyer. Zonder zijn bijna levenslange werk om de F-schaal te verbeteren, wat resulteerde in de RWA-schaal en onze kennis over 'rechtse autoritaristen', zou het boek mogelijk verzonken zijn in de diepten van het verleden.

In dit verband is er nog een bijzonderheid te melden. Altemeyer vond TAP aanvankelijk helemaal niks. Ook later zag hij vooral problemen met het in TAP uitgevoerde onderzoek.

Waarom ging hij dan toch door op dit gebied, waar veel psychologen vaak weinig mee hebben? Er zijn leukere dingen dan de Holocaust. Altemeyer formuleerde het zo: hij puzzelde graag. Dit was een soort grote puzzel, het was leuk die op te lossen.

Terug naar het boek. Met het boek zijn een aantal merkwaardige zaken. Op bepaalde punten is het een vreemd boek.

Het idee achter het boek was relatief simpel. Duitse Joden waren voor zichzelf tot de overtuiging gekomen dat er met de nazi's in Duitsland iets was. Dat het mensen waren met een gemankeerde persoonlijkheid.

Mijn vader kwam in Nederland tijdens de bezettingsjaren tot een soortgelijke conclusie. Hij had een stel NSB'ers in zijn kennissenkring en had zich afgevraagd: hoe kun je enthousiast zijn voor zo'n foute club? Zijn conclusie was als volgt: het waren op zich goede mensen, waar niets mis mee was, maar ze hadden 'een kronkel in de kop'. Iets in hun hoofd zat niet goed.

Waar moet je beginnen als je onderzoek wilt doen naar de Holocaust? Het populaire antwoord is, dat alles begon met Hitler. Maar als je beter kijkt, zie je dat dat niet klopt. Hitler was een oproerkraaier, het was iemand die een grote menigte met zijn toespraken kon opzwepen. Dat soort mensen heb je echter overal en altijd.

De vraag was dus, hoe had deze oproerkraaier de macht kunnen grijpen? Hij kon pas aan de macht komen, nadat een belangrijke minderheid van de Duitsers op hem stemden.

Wie waren die Duitsers? De meeste Duitsers stemden niet op Hitler. Wat maakte dat sommige Duitsers dat wel deden en Hitler door dik en dun steunden? Met andere woorden: was het mogelijk de kronkel in de kop van fascisten echt aan te tonen?

 

Ik probeer hier de zaken zo simpel en helder mogelijk op te schrijven. En zo kort mogelijk. Dat is een soort natuurwetenschappelijke traditie. Einstein schijnt daar ooit iets over opgemerkt te hebben. Het moet allemaal zo kort mogelijk, maar niet zo kort, dat het onduidelijk of onvolledig wordt. De auteurs van TAP waren echter niet geschoold in de natuurwetenschappelijke traditie.

Het principe dat Einstein zo pakkend verwoordde, was niet besteed aan de auteurs. De tekst gaat eindeloos door. Zelfs de twee mensen die meer geschoold waren in de statistische verwerking van vragenlijstonderzoek, hebben de neiging eindeloos door te keuvelen over van alles en nog wat. Dat maakt het achterhalen van wat men nu precies gedaan en gevonden heeft, niet eenvoudiger.

Het boek telt 984 bladzijden (inclusief de twee voorwoorden, exclusief dankwoord, inhoudsopgave, index en literatuurlijst). Het gaat, afgezien van de tabellen en figuren, om dicht bedrukte bladzijden. Ongeveer 500 woorden per pagina. In totaal dus ongeveer een half miljoen woorden.

Was deze wijdlopigheid in die tijd en in die kringen normaal? In de serie boeken waarin TAP verscheen, was een jaar eerder (1949) Prophets of Deceit verschenen. Ook dit boek ging over de Holocaust, maar dan niet over de mensen die de strongman aan de macht hielpen, maar over de mensen die strongman probeerden te worden en te zijn. Dit boekje telt 160 niet te grote, prettig leesbare bladzijden. Die vreemde wijdlopigheid was dus in die tijd en in dat verband absoluut geen culturele norm. Het is echt een kenmerk waarmee TAP zich onderscheidt. Wat mij betreft: in negatieve zin.

 

Als je beter kijkt naar de hoofdstukken in het boek, zie je dat slechts twee van de vier vermelde auteurs scholing en ervaring hadden met de statistische verwerking van persoonlijkheidsvragenlijsten. Dat waren: Daniel J. Levinson en R. Nevitt Sanford.

De twee andere voorin vermelde auteurs, Else Frenkel—Brunswick en T. W. Adorno, worden in dit deel van het boek over de vragenlijsten , alleen vermeld bij de F-schaal (hoofdstuk VII), maar niet als eerste auteur. Dat was Sanford.

Frenkel-Brunswick was verantwoordelijk voor 'Part II' (198 bladzijden). Adorno was verantwoordelijk voor 'Part IV' (184 bladzijden).

Alleen deel 1 van het boek (Part I) is gewijd aan het vragenlijstonderzoek en telt 260 bladzijden. Slechts iets meer dan een vierde van het hele boek vormde de basis voor waar we nu zijn.


'Part III' telde 114 bladzijden en handelde over de problemen en de scoring van de Thematic Apperception Test. Het eerste hoofdstuk was van Betty Aron (niet voorin vermeld als auteur). Het tweede hoofdstuk was van Levinson.

'Part V' telde (exclusief het slothoofdstuk) 184 bladzijden in drie hoofdstukken. Je zou dit deel kunnen zien als een soort toegift. Het eerste hoofdstuk was van Sanford, het tweede van William R. Morrow (voorin ook niet vermeld als auteur) en het derde hoofdstuk was van Maria Hertz Levinson (voorin ook niet vermeld als auteur).

Het slot-hoofdstuk telt 6 bladzijden en is kennelijk namens de voorin het boek vermelde auteurs. Het begint namelijk zo: "The most crucial result of the present study, as it seems to the authors, ..."

Je bent allemaal wetenschappelijk geschoold en je schrijft allemaal in hetzelfde boek over 'sociale discriminatie'. Je bent dan geneigd te verwachten, dat iedereen als gelijkwaardig lid van het team wordt gezien. In dit geval werd er echter openlijk onderscheid gemaakt. Er waren vier 'echte' auteurs en er waren drie 'onechte'. Die laatsten mochten wel een hoofdstuk schrijven, maar waren niet van voldoende gewicht om voorin vermeld te worden als auteur. Men dacht kennelijk: onderscheid moet er zijn.


Hoe pakten de auteurs het probleem van het vinden van de 'kronkel in de kop' aan? De eerste poging was om antisemitisme te meten met een vragenlijst. Dat leek goed te lukken, het leverde een betrouwbare lijst op. Alle items leken hetzelfde te meten.

Maar openlijk vragen naar de mening over Joden is natuurlijk niet ideaal. Je hebt dan kans dat echte jodenhaters invullen dat ze Joden fantastische mensen vinden. Men probeerde de lijst daarom breder te maken door te vragen naar de mening over zwarte mensen, de mening over andere Amerikaanse minderheden en de mening over het eigen land (Patriotism, vaderlandsliefde). Deze nieuwe vragenlijst had dus vier sublijsten.

Al die vier sublijsten bleken betrouwbaar (de score op de even items correleerde hoog met de score op de oneven items) en bleken alle vier dezelfde factor te meten. Deze resulterende lijst noemde men Etnocentrisme (E) of de E-schaal. Etnocentrisme betekent dat mensen de eigen groep als ideaal en norm zien en andere groepen als afwijkend, fout en minderwaardig.

Was Etnocentrisme inderdaad de kronkel in de kop die men zocht? Kon je met Etnocentrisme inderdaad nazi's herkennen? Als je daar zeker van wilde zijn, had je minstens nog een aparte check nodig, leek het.

Als check vroeg men naar de politiek economische overtuiging. Men dacht dat 'fascisten' qua denkbeelden op dit gebied nogal rechts moesten zijn. Deze PEC-schaal (Political Economic Conservatism-schaal) bleek minder betrouwbaar (0.70) dan de E-lijst, maar voor onderzoeksdoeleinden (om groepen te karakteriseren) leek dat nog voldoende.

Vervolgens was men pennywise, maar pound foolish. Men wilde zuinig doen, maar daardoor stortte de hele check uiteindelijk volledig inelkaar. Men bracht de PEC-lijst terug tot de helft: 5 items. Dan was de lijst sneller in te vullen door de respondenten, dacht men. Maar een vragenlijst met een matige betrouwbaarheid, die vervolgens ook nog eens gehalveerd wordt, heeft daarna natuurlijk doorgaans  een veel te lage betrouwbaarheid. En dat was precies wat er gebeurde.

Wat leverde het onderzoek naar het verband tussen E en PEC op? Als alles goed was, zou men een mooie correlatie moeten vinden, omdat E en PEC allebei op verschillende manieren de aanleg moesten meten om enthousiast te zijn over de strongman. De correlatie die men vond, hield echter niet over. Kennelijk hadden E en PEC wel een factor gemeenschappelijk, maar maten ze tegelijkertijd allebei ook nog steeds iets anders, dacht men.

Letterlijk vermeldt TAP (p. 180) (de witregels heb ik terwille van de leesbaarheid tussengevoegd):

"The general level of the E-PEC correlations demonstrates that ethnocentrism and conservatism, as measured by the present scales, are significantly but imperfectly related.7  In everyday terms, we may say that conservatives are, on the average, significantly more ethnocentric than liberals are. The more conservative an individual is, the greater the likelihood that he is ethnocentric — but this is a probability and not a certainty.

Since the existence of an affinity between these ideological patterns has often been observed previously, the present correlations are perhaps less a startling discovery than an indication of the validity of the scales. To those who have been unaware of the E-PEC relationship, the significance of the correlations must be stressed.To those who tend to equate conservatism and ethnocentrism as psychological trends in the individual, it must be pointed out that the correlations are far from perfect.

Even with a much more reliable measure of PEC, the correlation with E could hardly average over .70 — a value inadequate for predictive purposes. It becomes necessary, then, to understand what produces the close association between these ideological patterns in the individual, as well as what systematic factors — apart from ignorance or misinformation — make the E-PEC correlation less than 1.0."

 

Welke correlatie vond men eigenlijk tussen E en PEC? De gemiddelde correlatie (over verschillende groepen; niet de beste manier om een correlatie te berekenen over een groot bestand!) was 0.57 (p. 179). Maar om die correlatie op waarde te kunnen schatten, heb je de betrouwbaarheden nodig van de twee betrokken variabelen. Omdat men dacht dat die akelig laag zou uitvallen, had men die echter maar niet berekend.

Wie de tekst nauwkeurig leest, ziet echter dat op p. 175 van TAP de gemiddelde onderlinge correlatie tussen de 5 items van de gehalveerde PEC-schaal staat vermeld als 0.14. Maar dat betekent dat de items (na standaardisatie op een standaarddeviatie van 1) een betrouwbaarheid hadden van gemiddeld 0.14. Via de Spearman-Brown formule voor testverlenging vind je dan voor 5 items samen een betrouwbaarheid van 0.45. Inderdaad nogal laag.

Maar als de betrouwbaarheid rond de 0.45 ligt en de gevonden correlatie bedraagt 0.57 dan is er een soort probleem. Want een variabele kan nooit hoger met een variabele correleren dan de wortel uit zijn betrouwbaarheid. In dit geval: 0.67. Met andere woorden: de gevonden correlatie was gelet op de onbetrouwbaarheid van de maat, vrijwel maximaal.

Wanneer we ook nog rekening houden met de onbetrouwbaarheid van de E-schaal (0.80) dan vinden we via de formule voor 'attenuation' een maximaal mogelijke correlatie van 0.60 wanneer beide variabelen (E en PEC) perfect betrouwbaar gemeten zouden zijn. Met andere woorden: rekening houdend met de onbetrouwbaarheid van beide variabelen was de gevonden correlatie vrijwel maximaal. Om precies te zijn, na correctie voor onbetrouwbaarheid 0.95.

De onderzoekers hebben zich door hun negatieve emoties over de lage betrouwbaarheid van PEC laten meeslepen, waardoor ze zich niet realiseerden dat ze via de E- en PEC-schaal tweemaal dezelfde factor hebben gemeten.

 

Tot zover bevat mijn verhaal niets nieuws, want het voorgaande heb ik in andere bewoordingen eerder gerapporteerd op deze blog. Maar nu komen we bij de volgende poging bevestiging te krijgen voor de validiteit van de E-schaal door deze te correleren met de beroemde/beruchte F-schaal. Hier verandert mijn eerder gerapporteerde belangrijk.

Dat rapporteer ik ter wille van de lengte echter in de volgende blogpost.










dinsdag 19 maart 2024

De rest van Amerika heeft zijn verstand verloren

 

Het artikel waar Google News me op attendeert, is getiteld: "Joe Biden’s Superfans Think the Rest of America Has Lost Its Mind" (https://www.nytimes.com/2024/03/04/us/politics/biden-voters-democrats.html).

Het is nogal een zuur artikel. De mensen die pro Biden zijn, als je moet kiezen tussen hem en Trump niet zo'n moeilijke keuze, worden weggezet als een stel wereldvreemde, oude zakken. Ik ben het echter helemaal met die 'oude zakken' eens. De mensen die voor Trump zijn, hebben hun verstand verloren!

Ik denk zelfs dat niet alleen de rest van Amerika zijn verstand verloren heeft, maar dat het een wereldwijd verschijnsel is. In Nederland zitten we met het probleem. Zweden heeft het probleem. Frankrijk heeft het probleem. Italië heeft het probleem. Turkije heeft het probleem. Israël heeft het probleem. Gaza had het probleem en misschien nog wel. Libanon heeft het probleem. De Britten hebben het probleem. Haïti heeft het probleem al heel lang. En zo kan ik nog wel even doorgaan.

Kan ik mijn bewering hard maken? Ik beperk me even tot Amerika. Dan hebben we een concreet geval.

 

In eerste instantie focus ik op bevooroordeeldheid. Door het laatste grote onderzoek van wijlen Bob Altemeyer weten we dat bevooroordeeldheid de variabele is die het enthousiasme voor Trump het best voorspelt en ook behoorlijk goed voorspelt (r>0.80).

Maar daarna verzink ik in een soort moeras. Ik kan (na een nacht zoeken via Google) geen directe bevestiging vinden voor een relatie tussen bevooroordeeldheid en slecht denken.

Als je erover nadenkt, misschien ook niet zo vreemd. Bevooroordeeldheid wordt al heel lang gemeten en dat schijnt altijd goed te lukken, maar verder lijkt er nog veel onbekend over te zijn.

Er is geen duidelijke inhoudelijke definitie zoals die je voor RWA wel hebt. Bij RWA heb je dankzij Altemeyer uitgebreid valideringsonderzoek, maar dat lijkt bij 'prejudice' vooral te ontbreken. RWA is gestandaardiseerd via een vaste reeks items, maar ook dat ontbreekt bij bevooroordeeldheid.

Vervolgens is er een probleem met de tweede poot van de vergelijking: het 'slechte denken'. Helemaal maagdelijk terrein, lijkt het. Er bestaat tot nu toe geen geaccepteerde maat voor iets als 'goed denken'. Intelligentie heeft er misschien wel mee te maken, maar is toch niet precies hetzelfde.

 

In tweede instantie blijkt het echter simpel. Met Trump-stemmers is iets merkwaardigs aan de hand. Ze geloven op grote schaal dat Trump de verkiezingen gewonnen heeft, terwijl hij die in werkelijkheid verloren heeft. Dat percentage ligt tegenwoordig op maar liefst 69 procent (https://www.washingtonpost.com/dc-md-va/2024/01/02/jan-6-poll-post-trump/). Meer dan twee derde van alle Trump-enthousiasten gelooft in iets, dat duidelijk onwaar is.

Dat bevestigt een voorspelling van het soortenmodel. De hoge cultuur (de cultuur van de strongman) hanteert sociale waarheid en niet feitelijke waarheid. Wat de leider en leiders beweren, blaten de volgelingen/gelovigen en de 'men of action' slaafs na en accepteren ze vervolgens als absolute waarheid.

Maar als je sociale waarheid hanteert om je status in de groep in stand te houden en zo mogelijk te verhogen, dan hanteer je normaal systeem 1 en niet systeem 2. Met andere woorden: bevooroordeelde geesten hanteren inderdaad als manier van denken: systeem 1 (het snelle 'denken', het babbelen).

 

In dit kader is er nog een tweede soortgelijk punt. De inwoners van de staten die overwegend op Trump stemmen, stemmen nogal eens tegen hun belang in. Of ze handelen tegen hun belang in. Men overziet als het ware de situatie niet goed, laat zich leiden door zijn gevoel en door wat de groep beweert en kiest vervolgens het verkeerde alternatief.

Een concreet voorbeeld hiervan is het zich niet laten inenten tegen COVID. In Trump-country zijn daardoor in verhouding veel meer slachtoffers gevallen dan in de democratische VS-staten. Dat laat zien, dat het denken van de Trump-stemmers in doorsnee inderdaad niet is afgestemd op de harde werkelijkheid.

 

Conclusie?

Wat we hier gevonden hebben, is dat bevooroordeeldheid gekoppeld blijkt te zijn aan niet feitelijk denken (aan babbelen, aan systeem 1 'denken'). Bevooroordeelde personen hanteren sociale waarheid, in plaats van feitelijke waarheid, precies zoals het soortenmodel voorspelt.

Dankzij het zure bericht op de website van de New-York Times weten we nu, dat bevooroordeeldheid inderdaad gekoppeld is aan de manier van denken. Bevooroordeelde personen hanteren systeem 1 (het snelle 'denken', ze babbelen). Het zijn extreem bevooroordeelde mensen, die harde problemen denken te kunnen oplossen met borrelpraat.

Ik veronderstelde dat verband al eerder, maar hier hebben we een concreet voorbeeld, dat het laat zien en bevestigt.


Mag je dit niet feitelijke 'denken' (systeem 1 denken, babbelen/leuteren, snel 'denken') aan duiden als 'slecht denken'?

Je moet je eigenlijk realiseren waar die twee manieren van denken oorspronkelijk voor bedoeld waren. Wat de functie was.

Jagers/verzamelaars hebben twee belangrijke manieren van bestaan. Om voedsel te bemachtigen moeten ze interacteren met de harde natuur. Ze moeten dan hun systeem 2 optimaal benutten. Ze moeten in die omstandigheden hun brein overuren laten maken, omdat ze te maken hebben met de harde natuur.

Maar bij het nuttigen van de buit in het relatief veilige dorp of nederzetting, is het belangrijk dat je de onderlinge band versterkt. Alleen kun je in het oerwoud niet overleven en ben je ten dode opgeschreven. Het doel is, dat je je als gemeenschap samen, als het moet, je verdedigt en de strijd aangaat. Wat je dus doet, is samen plezier maken, lol maken, samen eten, samen drinken en sociaal de juiste dingen zeggen.

Dingen die wij nu ook nog volop doen en misschien wel te vaak en te veel. Maar ook dingen waar in beginsel niets mis mee is, zo lang we het mate doen en begrijpen, waarom we het doen.

Iemand die echter alleen maar borrelpraat produceert, moet vervolgens niet gek opkijken als het in het gevaarlijke oerwoud mis gaat.

Wij hoeven gelukkig geen voedsel meer te bemachtigen in dat gevaarlijke oerwoud, maar ook wij zijn uiteindelijk nog steeds volledig afhankelijk van die harde, externe wereld.

Als dus het zeewater in 2100 vijf meter of meer gestegen is, zoals sommige klimaatwetenschappers zich nu soms laten ontvallen, gaat het niet lukken om met borrelpraat dat water terug te duwen.

En als de mannetjes van Poetin straks voor de deur staat, gaat het niet lukken om zijn troepen met borrelpraat terug te krijgen naar dat grote land waar ze vandaan komen.

De mensen die oprecht denken dat ze in dat soort gevallen met borrelpraat de wereld naar hun hand kunnen zetten . . .

Ik denk, dat je die moet noemen, wat ze zijn: knettergek, volkomen mesjokke. Of om het wat aardiger te formuleren: ze zijn de weg kwijt. Ze weten niet meer precies waar ze zijn en wat ze aan het doen zijn. 

Dat is dus, wat we met bevooroordeeldheid meten. 


 

 

 

 

 

 

 

 

zaterdag 16 maart 2024

Alleen oude knarren koken nog zelf, lijkt het

 

Als het soortenmodel klopt, en dat moet bijna wel want het is vrijwel volledig gebaseerd op empirische gegevens, dan neemt in landbouwsamenlevingen (culturen waar landbouw zorgt voor het voedsel) de alfa-bètafactor geleidelijk steeds verder toe. Met andere woorden: de mensen worden in doorsnee steeds bevooroordeelder.

Wat wil dat zeggen? Mensen gaan steeds meer denken via hun onderbuik (systeem 1, het snelle 'denken'), terwijl het moeizame denken met het hoofd (systeem 2, het trage denken) steeds meer in onbruik raakt en steeds minder goed beheerst wordt.

Een paar blogposten eerder ging het over het sterk toegenomen overgewicht. Een steeds groter deel van de bevolking heeft overgewicht. Hoe kan dat? Mijn verklaring was niet populair, maar wel simpel: mensen krijgen steeds minder zelfbeheersing. Ze worden steeds bevooroordeelder.

We zijn nu een paar dagen verder. De Volkskrant brengt een groot artikel: "Zelf je eten koken lijkt steeds meer iets voor mensen van boven de 50" (12/3/2024, p. 25). Veel jonge mensen maken het zichzelf graag makkelijk. Dus je koopt iets, of je laat iets brengen, maar zelf koken is vaak een brug te ver.

Het lijkt allemaal plausibel. En het past volledig bij mijn verklaring van de afnemende zelfbeheersing en de toenemende bevooroordeeldheid. Het toenemende systeem 1 denken.

Want als je kookt, moet alles wel kloppen. Je hebt te maken met de harde natuur. Zelf eten koken is toch even je systeem 2 gebruiken.

Net als: wandelen, rennnen, joggen, dansen, klussen, goed autorijden, fietsen, suppen, kanoën, zingen, zakelijk schrijven, rekenen, boekhouden, computergames spelen met harde feedback. En ga zo maar door.

 

 

 

 

 

 

 

 

 

 


woensdag 13 maart 2024

Falende crisiszorg is alleen mogelijk door het leger van slaafse, agressieve, uniforme volgelingen/gelovigen (RWA+)

 

Laatst bijgewerkt: 16/3/2024 om 3.59

 

Het aritkel staat in de Volkskrant van dinsdag, 12 maart 2024. Het gaat over crisiszorg voor jongeren. De titel zegt misschien al genoeg. De titel luidt: 'Ruim 20 uur per dag eenzaam opgesloten'.

Tja, dat is natuurlijk ook een methode. Je wilt iemand zogenaamd helpen en dan sluit je die persoon gewoon op.

Waarom doen mensen dat? 

Dat is in dit geval niet zo moeilijk uit te leggen. De zogenaamde 'zorgverlener' stelt 24 uur per dag, 7 dagen per week individuele zorg te verlenen. Ik weet niet wat de huidige dagprijs is, maar enige tijd geleden lag die royaal boven de duizend euro per dag.

We zijn allemaal mensen en we moeten allemaal leven en we willen allemaal brood op de plank, en heel veel mensen willen graag ook nog heel veel meer dan alleen dat. Zorgverlening is een geweldig verdienmodel.

Maar dat is toch zielig voor die hulpbehoevende jongere? De één zijn dood, is de ander zijn brood. Dan moeten ze maar gewoon zorgen geen hulp nodig te hebben. Simpel toch?

Hoe is het mogelijk dat zogenaamde zorgverleners voortdurend hun kwalijke praktijken ongeremd kunnen voortzetten? Want het opsluiten van jeugdigen is niets nieuws op dit gebied. En het zal hierna ook niet anders worden.

Mag je dit de betrokken zorgverleners kwalijk nemen? Dat zijn ook maar gewoon mensen, die graag geld en status willen.

In het empirische discriminatie-onderzoek (het empirische onderzoek naar 'fascisme') is men tenslotte tot het inzicht gekomen dat mensen als Hitler en Stalin niet het echte probleem vormen. Want als je zulke mensen weghaalt, is er onmiddellijk iemand anders die de plaats van strongman probeert in te nemen. Het echte probleem zit bij hun basis. De volgelingen/gelovigen die de strongman op het schild hijsen.

Zo is het bij zorgverleners ook. Het echte probleem zijn niet de mooipratende zorgverleners, maar het volstrekt onkritische publiek dat zich maar wat graag door hen laat oplichten.

Kunnen we dat meten? Ja, dat kunnen we meten. De eigenschap die maakt dat mensen volstrekt onkritisch de mooipraterij van de strongman geloven, meten we als 'rechts autoritarisme' met de RWA-schaal (Right Wing Authoritarianism-schaal) van wijlen Bob Altemeyer.

De mensen die hoog op die maat scoren, hebben drie merkwaardige eigenschappen waardoor ze gedefineerd worden als 'volgeling/gelovige'.

1. Ze zijn extreem onderworpen en volgzaam aan mensen, die ze zien als hoger.

2. Ze zijn extreem agressief, zodra hun leiders daarvoor het groene licht geven of daartoe aanzetten.

3. Ze willen ten koste van alles volstrekt normaal zijn en naadloos passen in hun groep.

Als al deze slaafse, agressieve, uniforme mensen niet zo talrijk waren en zo goedgelovig, zouden al die pseudo zorgverleners geen enkele kans krijgen hun kwalijke praktijken uit te oefenen.











 







 


zondag 10 maart 2024

Elf procent van de elfjarigen wil van het andere geslacht zijn! Of toch niet?

 

Laatst bijgewerkt: 12/3/2024 om 16.31

 

Ik zie het nieuws laat in de nacht of vroeg in de ochtend, het is maar hoe je het tijdstip van kwart over vijf 's ochtends aanduidt. De kop staat op het voorblad van het Dagblad van het Noorden. Elf procent van de elfjarigen wil van het andere geslacht zijn.

Dit is een blog over discriminatie, niet over transgenders en transgenderisme. Wat heeft dit nieuws te maken met zaken als discriminatie, geweld, agressie, corruptie, oorlog, burgeroorlog en genocide? Ogenschijnlijk niets, maar in werkelijkheid heel veel.

Wat betekent het, wanneer elf procent van de elfjarigen aangeeft het eens te zijn met de stelling, 'Ik wil van het andere geslacht zijn'?

Ik zou denken, dat dat betekent dat een belangrijk deel van die elfjarigen geslacht ziet als iets, dat je zelf kunt en mag kiezen. Terwijl we het vroeger zagen als iets dat je nu eenmaal was. Je was 'jongen' of 'meisje'. In werkelijkheid waren er natuurlijk ook mensen die er lichamelijk wat tussenin vielen, maar daar hielden we op die leeftijd nog geen rekening mee.

Maar als je geslacht ziet als iets dat je zelf mag kiezen, betekent dat ook, dat je leeft vanuit je ideeënwereld. Je voelt je (voor jezelf meer aangetrokken tot) de tegenovergestelde sekse en daarom zie je dat, als wat je eigenlijk bent en wilt zijn. Een typisch geval van systeem 1 denken. Dat is echter nog niet alles.

Denken vanuit de onderbuik (via systeem 1) is typerend voor bevooroordeeldheid. Dat is de centrale variabele die aangeeft of mensen discrimineren, agressief zijn, impulsief handelen, corrupt zijn, zaken verzinnen, liegen, 'mooi' praten en toch ook heel belangrijk: of ze enthousiast de (aspirant) strongman zullen steunen.

Elf procent van de elfjarigen die kiest voor de tegenovergestelde sekse, laat dan zien dat er in de samenleving op het punt van bevooroordeeldheid (systeem 1 denken) iets heel erg mis zit, ben ik dan geneigd te denken.

Die conclusie past perfect bij wat we via een veelheid van andere indicatoren al weten. De handjes zitten steeds losser aan het lijf, verkeersdeelnemers maken steeds meer ongelukken, brugdelen vallen onbedoeld uit de takels, plafonds en vloeren komen onverwachts naar beneden, het wegdek in tunnels wordt opeens door opwellend water omhoog gestuwd en ga zo maar door.

 

Maar klopt dat verhaal uit de krant in dit geval wel helemaal? Het kan best zijn dat die onvrede met het biologische geslacht inderdaad is toegenomen en dat ook de rest van mijn verhaal hierboven daardoor helemaal klopt. Maar in tweede instantie zie ik toch ook enkele problemen, waardoor die conclusie wat prematuur is.

Een eerste probleem dat ik zag na het opvragen van het onderzoeksrapport waarop het hele verhaal gebaseerd is (https://link.springer.com/article/10.1007/s10508-024-02817-5), is dat de onderzoekers op een belangrijk punt, een punt waar in feite hun hele onderzoek op gebaseerd is, hebben volstaan met één enkele vraag.

Psychologen hebben daar slechte ervaringen mee. Hoe weet je dan zeker dat de bedoeling van de vraag echt is overgekomen? Veel kinderen hebben tegenwoordig leesproblemen en begripsproblemen. Verder had je altijd al een belangrijke groep kinderen, waar iets mee was op het gebied van leren en intelligentie, waardoor ze al problemen hadden met simpele vragen.

Stel je voor dat deze hele blog over empirisch onderzoek naar discriminatie gebaseerd zou zijn op één enkele vraag, namelijk: bent U antisemiet? Vrijwel iedereen zou vermoedelijk antwoorden: 'nee'.

Als enige optie zouden we vervolgens moeten concluderen dat er eigenlijk helemaal geen antisemieten waren te vinden. Maar als je dan nog verder doordenkt: dan kunnen er dus ook nooit mensen geweest zijn, die de Holocaust uitvoerden en mogelijk maakten. En als je vervolgens dan nog verder door zou redeneren, zouden we ons moeten bekeren tot het leger van de Holocaust-ontkenners. Met andere woorden: onderzoek doen is prima, maar je moet het wel serieus en goed doen.

Kortom, als je je hele onderzoek ophangt aan het begrijpen van een enkele vraag, dan is er in je universitaire opleiding behoorlijk wat, heel erg mis gegaan.

Voor de goede orde: dit waren onderzoekers van het UMCG. Dat betekent niet, dat alle onderzoekers daar van dit kaliber zijn, zeker niet, maar je mag dus ook niet uitsluiten dat sommigen dat wel zijn.

Een volgend probleem waar ik tegen aanliep is: welke vraag hebben de onderzoekers nu precies gebruikt? Toch wel belangrijk, als je je hele onderzoek ophangt aan één enkele vraag. Volgens het onderzoeksverslag deze:

"I wish to be of the opposite sex".

Maar dit waren Nederlandse kinderen. Je zou denken, dat de onderzoekers die vraag dan wel vertaald zullen hebben en mogelijk hebben ze dat ook gedaan, maar het staat niet vermeld in hun verslag. Als alles draait zoals in dit geval om één enkele vraag, vind ik dat uiterst onzorgvuldig en slordig.

Volgens de krantenartikelen was de stelling die men gebruikt heeft echter:

"Ik wil van het andere geslacht zijn".

Maar is 'ik wens van het andere geslacht te zijn' inderdaad precies hetzelfde als 'ik wil van het andere geslacht zijn'? De ervaring leert, dat zodra je een kleinigheid verandert aan een geformuleerde vraag, je heel veel verandert. Als je dan dus in je artikel wel de Engelse variant vermeldt, maar niet de Nederlandse vertaling, is het hele onderzoek in feite oncontroleerbaar geworden. In meer wetenschappelijke termen: niet repliceerbaar. Bull-shit dus.

Dan de antwoordmogelijkheden. Een ja/nee-vraag of een waar/onwaar-vraag is qua beantwoording vaak het simpelst. Maar in dit geval waren de antwoordalternatieven:

0-Not True, 1-Somewhat or Sometimes True, 2-Very True or Often True.

Als je kiest voor 'Not True', wat betekent die '0-' daarvoor dan precies daarvoor? Voor een respondent lijkt me die '0' nodeloos verwarrend.

Dan dat tweede alternatief. Je krijgt een stelling voorgelegd en die stelling zou 'somewhat' (een beetje) waar zijn. Ik leerde vroeger bij logica dat een stelling waar was of niet. Maar een beetje waar? Dat kan alleen als je gevoelsmatig denkt, via systeem 1.

Alsof dat allemaal nog niet genoeg is, krijgt de respondent vervolgens ook nog een extra keuze. In plaats van 'somewhat' mag hij/zij ook lezen 'sometimes' (soms). Voor het derde alternatief geldt dit probleem op dezelfde wijze.

Je moet bedenken, je legt dit voor aan een qua intelligentie brede groep van elfjarigen, waarin dus ook gemiddeld intelligente en laag intelligente kinderen zitten. Dan is dit toch allemaal verwarrend en ingewikkeld? Wat voor respondenten dacht men precies te ondervragen? Een groep aanstaande gymnasiumleerlingen?


Vervolgens ging ik op zoek naar die elf procent. Voor dat je dat kunt doen, moet je eerst de respondentengroep een beetje duidelijk hebben en hoe men daar precies aankwam. Wel, dat viel niet mee. De onderzoekers vermelden slechts dit:

"We used data from the Tracking Adolescent’s Individual Lives Survey (TRAILS). Detailed information about TRAILS sampling procedures is provided elsewhere (Oldehinkel et al., 2015). In this study, data from both the population cohort (TRAILS) and the clinical cohort TRAILS-CC were used (combined: N = 2772; 53% male at T1) to enrich the sample for common child psychiatric diagnoses (see Table 1 for the sample characteristics)."

Als onderzoeker en wetenschapper heb ik geleerd dat onderzoek op eigen benen behoort te staan. Toen Galilei zijn valproeven deed, min of meer het begin van de moderne, empirische wetenschap, refereerde hij niet aan de literatuur op zijn gebied van eerdere grootheden voor hem of aan waarnemingen van horen zeggen. Integendeel: hij sloeg zelf de hand aan de ploeg. Hij ging zelf experimenteren en meten. Wat hij bij zijn 'valproeven' aan metingen vond, kun je zelfs nu nog steeds (zelfs via internet) nalezen.

Maar deze onderzoekers zeggen eigenlijk: ja, luister eens, van die dataverzameling weten we eigenlijk geen flikker af. En het interesseert ons ook geen bliksem. Dat staat elders wel ergens beschreven. Als je het echt wilt weten, zoek je het maar na.

Maar onderzoek staat en valt met de onderliggende dataverzameling. Hoe kun je er anders zeker van zijn, dat die data kloppen? Wie is er dan precies verantwoordelijk voor die data?

Als data-anlyst in de sociale wetenschappen was altijd de eerste stap, waarmee ik begon, de data te checken. De doorsnee psycholoog vond dat bespottelijk, maar vrijwel altijd bleek er wel iets en soms heel veel niet te kloppen. 

In dit geval krijgen we echter via het onderzoeksverslag geen enkele duidelijkheid en geen enkele garantie voor de validiteit en juistheid van de data waar men alles op stelt te baseren. Er wordt van ons gevraagd: er het beste maar van te hopen. De onderzoeker hebben het niet gecheckt en als wij als lezers dat nu ook maar niet doen, mogen we hun 'mooie' verhaal zo geloven.

 

Wie waren de respondenten? Ook dat wordt in het artikel niet duidelijk. Hoeven we als lezers kennelijk ook niet te weten. Gewoon kinderen!

Ook de opzet van het onderzoek laat zich uit de tekst nogal moeizaam achterhalen. Men heeft een groep kinderen op een of andere manier geselecteerd en die een aantal jaren gevolgd, waarbij men steeds na verloop van enige tijd, opnieuw data verzamelde bij wat nog over was van de oorspronkelijke groep. In het kader van deze blogpost doen die latere dataverzamelingen verder niet ter zake, omdat we ons concentreren op die eerste meting bij elfjarigen, maar het feit dat je je opzet zo knullig beschrijft, vertelt iets over je niveau als onderzoeker.

Zijn de uitkomsten van deze meting representatief voor doorsnee kinderen? Wat blijkt uit het citaat hierboven is dat de respondentengroep bestond uit twee delen. Men had kennelijk ongeveer 80% redelijk normale kinderen in de respondentengroep en ongeveer 20% kinderen die een psychiatrische diagnose hadden. Met andere woorden: de totale groep was volledig niet representatief!

Goed, maar we zijn nog steeds op zoek naar die 11 procent. Is dat nu een verzinsel van de pers of staat het echt in het onderzoeksverslag? In het 'abstract' van het verslag staat dit: 

"In early adolescence, 11% of participants reported gender non-contentedness."

Met 'early adolescence' bedoelt men kennelijk de respondenten als ze rond de elf jaar zijn. Met 'gender non-contentedness' bedoelt men, niet schrikken:

"Gender non-contentedness was assessed with the item "I wish to be of the opposite sex" of the Youth Self-Report (YSR; Achenbach & Rescorla, 2001) at T1 through T3 and with the same item of the Adult Self-Report (ASR; Achenbach & Rescorla, 2003) at T4 through T6. Participants indicated to which extent the statement applied to them during the past six months, by rating each item on a three-point Likert scale: 0-Not True, 1-Somewhat or Sometimes True, and 2-Very True or Often True"

De bedoeling was dat de respondenten aangaven of de uitspraak, dat men de andere sexe wilde zijn voor hen van toepassing was: 'gedurende de afgelopen 6 maanden'. Met andere woorden: weer een extra bepaling in de vraag om de hele zaak nog moeilijker en lastiger te maken voor deze arme ongeveer elfjarigen.

Wat bedoelt men hier met 'Likert scale'. Als psychometricus ben ik uiteraard vertrouwd met die term, maar weet ik ook dat verschillende mensen daar verschillende dingen onder verstaan. De vraag is dus: wat bedoelt men er hier mee?

In dit geval gaat het om een enkel item. Men bedoelt er dan kennelijk een beoordelingsschaal mee, die loopt van helemaal oneens naar helemaal eens, waarop de respondent de intensiteit van zijn gevoel kan aangeven. Dus dit idee:

helemaal oneens I----------------------------------------------I  helemaal eens.

De bedoeling is dat de respondent op het schaaltje via een kruisje aangeeft, waar men zit.

Onderzoekers vinden zo'n glijdende schaal echter vaak onhandig en perken dan de keuzemogelijkheden in. In dit geval had de respondent drie mogelijkheden.

In dit geval zouden we dan krijgen:

0-Not True  /  1-Somewhat or Sometimes True  /  2-Very True or Often True.

De alternatieven staan in volgorde van toenemende intensiteit. Het lijnstukje waarop men een kruisje kan plaatsen, heeft in dit geval geen functie meer en heb ik weggelaten. De bedoeling is dat de respondent het gewenste alternatief omcirkelt of onderstreept.

Maar op een normale Likert beoordelingsschaal is het midden altijd neutraal. Je bent het niet oneens met de stelling, maar ook niet eens. Je onthoudt je van een oordeel. Het middelste alternatief is hier  '1-Somewhat or Sometimes True'.

Dat betekent dus dat elfjarigen die het een lastige of moeilijke vraag vonden, veiligheidshalve het neutrale midden gekozen zullen hebben. De hoge response op deze vraag duidt daar ook op, men kon gewoon neutraal antwoorden. Er was geen reden de vraag over te slaan. De onderzoekers zien de keuze voor het neutrale midden echter at als een absoluut bewijs voor de 'gender non-contentedness' van de respondent.

Het wordt echter nog gekker. We waren op zoek naar de 11 procent, die men in het 'abstract' vermeld heeft. Men heeft gemakshalve beide groepen (de gewone en de psychiatrisch gediagnostiseerde kinderen) bijelkaar genomen. Als je dat doet, krijg je de volgende aantallen. Ik zet ze in de volgorde van de schaalalternatieven:

2392 / 250  / 66.

Van de in totaal 2772 respondenten hebben 2392 + 250 + 66 = 2708 deze vraag beantwoord. Dat is afgerond 98 procent. Voor zo'n lastige vraag best veel. Dat maakt het extra plausibel, dat relatief veel respondenten gemakshalve het middelste alternatief hebben gekozen.

De onderzoekers hebben vervolgens alle respondenten die alternatief 2 en alternatief 3 kozen, bijelkaar gekieperd. Duidelijk allemaal genderproblemen, geen twijfel mogelijk! Dat levert 250 + 66 = 316 respondenten op met een verondersteld genderprobleem.

Maar 316 van 2708 respondenten levert op 11,7 procent. Afgerond: 12 procent. En niet 11 procent zoals de onderzoekers stellen!

Nu scheelt dat maar een enkel procentje en het zou een ongelukkige en slordige afrondingsfout kunnen zijn. Aan de andere kant wordt dat foute percentage wel vermeld in het abstract en gecommuniceerd naar de pers. Je communiceert iets nadrukkelijk, maar je neemt niet de moeite om het eerst minstens drie keer te checken. Ben je dan een 'wetenschappelijk onderzoeker' of een 'ordinaire praatjesmaker'?

Dat is echter opnieuw nog niet alles. Wie de percentages in 'Table 1' van het artikel gaat checken, vindt een hele reeks percentages, die niet klopt. Men heeft er niet eenmaal een potje van gemaakt, maar men heeft er systematisch een potje van gemaakt.

Nog zijn we er niet. Men stelde nadrukkelijk uit te gaan van een Likert-scale en vermeldde bij de alternatieven zelfs de schaalwaarden. Bij een Likert-scale tel je de punten van de respondent op alle vragen op tot de totaal-score. In dit geval was er slechts één vraag en haalt een respondent dus 0, 1 of 2 punten.

Maar dat betekent dus in ieder geval wel, dat je de respondenten die om wat voor reden dan ook kozen voor het middelste alternatief ook echt half moet rekenen. Je kunt als onderzoeker niet zo maar even een half goed antwoord opwaarderen tot een volledig goed antwoord. Deze 'onderzoekers' zien het probleem -- dat ze volledig zelf onnodig in het leven hebben geroepen -- echter niet. Waarom zou je de twijfelaars niet een puntje extra geven, moeten ze gedacht hebben.

Als je het resultaat op de juiste manier berekent, krijg je: 250 x 0.5 + 66 = 191. Dat levert 191 van 2708 op, of 7,1 procent. Een belangrijk lagere waarde dan de 11 procent die de onderzoekers gevonden zeggen te hebben. En ook dan geldt nog steeds, dat die grote groep die het middelste alternatief koos mogelijk als neutraal antwoord toch volledig wordt meegerekend.

Waarom dit geknoei met uitkomsten? Het artikel levert het antwoord. De 'onderzoekers' wilden aantonen dat genderdysforie in de jeugd heel normaal is. Men begon dus met een foute insteek. Men dacht niet, hoe zit dit nu precies? Nee, men wilde aantonen dat genderdysforie in de jeugd heel normaal is.

Vervolgens heeft men vanuit die instelling de nodige moeite gedaan om een lekker hoog percentage te 'vinden'. In werkelijkheid dus: 'te scheppen'.

Het doel van het onderzoek was niet te achterhalen, hoe het werkelijk zit in de harde wereld. Het doel van de 'onderzoekers' was hun geloof zo met 'feiten' te onderbouwen, dat ze het vervolgens breed konden communiceren. En het is duidelijk dat deze 'onderzoekers' in die opzet ook geslaagd zijn. Hun verhaal stond in ongeveer alle media.

Maar in werkelijkheid is dit niet het verhaal van serieuze onderzoekers, maar het verhaal van volgelingen/gelovigen die met hun boodschap een groot publiek aan zich hopen te binden en daardoor zelf in status hopen te stijgen. Het is in wezen een ultra-rechts strongman-verhaal. Het is een 'mooi' verhaal ophangen, dat niet klopt met de harde feiten.

Het lijkt me heel plausibel dat er veel kinderen zijn, die tijdelijk of misschien zelfs steeds, liever de andere sekse zouden zijn, mits je dat echt zou kunnen kiezen. Waarom niet? Maar dit onderzoek toont dat helaas niet overtuigend aan.

Wat dit onderzoek wel aantoont, is dat sommige onderzoekers de benaming 'onderzoeker' niet verdienen. We kunnen dat soort mensen misschien beter benoemen als 'pseudo-wetenschappelijke praatjesmakers'.

In dit geval is er echter nog belangrijk meer dan alleen een pseudo-wetenschappelijk artikel in een erkend tijdschrift met een onzin-verhaal. Het verhaal heeft in de landelijke media royaal aandacht gekregen. Slecht onderzoek is iets van alle tijden.

Maar dat de uitkomsten van zo'n onderzoek vervolgens massaal worden overgenomen door de dames en heren journalisten, zonder dat iemand ook maar even een poging doet het verhaal te checken, is mijns inziens een teken aan de wand.

Deze uitkomsten passen naadloos in de grote trend van deze tijd. Steeds meer gebabbel en geleuter, steeds meer borrelpraat en onderbuik-verhalen. We kunnen dat meten als toenemende bevooroordeeldheid. En we merken het als toenemende irrationaliteit en andere gekkigheid. Al met al voorspelt dit helaas weinig goeds.