Statistik og journalistik

Randi Isager på dr.dk
Udsnit af Randi Isagers artikel på dr.dk, 4. jan

Den 4. januar 2010 vågnede jeg op om morgenen og var sprogforsker. Det kunne jeg læse i aviserne, at jeg var, og så måtte det jo det være sandt, eller hvad?

Det hele begyndte en dag i begyndelsen af december. Jeg sad ved computeren og forsøgte at gøre min fremtidsroman om Medea Olsen færdig, og som så ofte kunne jeg ikke rigtigt finde på noget at skrive. Tankerne vandrede.

De foregående dage havde jeg lagt mærke til, at forskellige mennesker, der blev udspurgt om det ene eller det andet i fjernsynet, alle sagde, at de var optaget af noget. Hvis jeg anstrenger mig, kan jeg huske helt tilbage til tiden omkring afslutningen af den spanske borgerkrig, og jeg mener bestemt ikke, at man sagde “optaget af” i hver anden sætning dengang. Jeg mindes ikke, at jeg har hørt Stauning sige det.

Jeg forsøgte så at bruge Google til at finde ud af, hvornår folk var begyndt at sige “optaget af” i tide og utide, men jeg opdagede, at Google har en meget kortere hukommelse, end jeg selv har. Google er ikke velegnet til at følge ændringer i sprogbrugen over længere tid, fordi hovedparten af de prøver på almindeligt dagligdags sprog, man kan finde, højst er nogle få år gamle. Der findes selvfølgeligt ældre tekster, men de er som regel i et for højt stilleje til at kunne bruges til undersøgelser af almindelig sprogbrug.

Så faldt det mig ind, at Google måtte egne sig udmærket til at sammenligne sprogbrugen i nutidige tekster. Det kunne jeg hurtigt bekræfte, og så gik jeg i gang med at undersøge hvor hyppigt udtrykket “optaget af” forekommer i forskellige tekster. Mit slutopgør med Medea Olsen blev udsat, og jeg producerede i stedet indlægget “Klichéer på alle hylder”, som ved en tilfældighed havnede i Sprogmuseet.

En naturvidenskabelig bagtanke

Søren Schauser i Berlingske Tidende
Udsnit af Søren Schausers artikel på berlingske.dk, 4. jan

Det har været en fornøjelse at læse de mange kommentarer mit indlæg har udløst i Sprogmuseets hjemmeside og mange andre steder. Særligt har det moret mig, at forskellige kommentatorer har ment, at jeg havde en skjult dagsorden, og den skulle være at nedgøre Socialdemokraterne eller glorificere Dansk Folkeparti. De har ramt helt forkert.

Når sandheden skal frem, så havde jeg en bagtanke med min undersøgelse, og det var at demonstrere, at sproget kan betragtes som et biologisk fænomen og undersøges med en naturvidenskabelig metode. Mit fag er biokemi. Jeg har ikke det ringeste begreb om sprogforskning, men jeg ved, hvordan man griber en naturvidenskabelig undersøgelse an.

Naturvidenskabelig forskning beskæftiger sig med det, der kan tælles, måles og vejes. Man kan for eksempel tælle, hvor mange rødspætter, der er højrevendte og hvor mange, der er venstrevendte. Hvis en fangst er på 735 rødspætter og tre af dem viser sig at være venstrevendte så udgør de venstrevendte 0,4% af fangsten og sikkert også af den bestand som befinder sig på havets bund. Før man offentliggør et sådant resultat overvejer man, om der kan være fejlkilder i undersøgelsen, der bevirker at resultatet kan være forkert.

Rødspætten er en usymmetrisk fisk, så det er umuligt at tage fejl af, om den er højrevendt elle venstrevendt, det beror ikke på et skøn. Hvis man tæller fiskene et par gange, kan man også være sikker på, at der ikke sniger sig nogen fejl ind der. Lidt større problemer kan det volde, at afgøre om en fisk faktisk er en rødspætte eller, om den er en krydsning med en beslægtet art, men her vil en trænet biolog ikke tage fejl. Endelig kunne man forestille sig, at de højrevendte rødspætter lettere lader sig fange end de venstrevendte, og fangsten derfor ikke er repræsentativ for bestanden, men det er vist for langt ude. Når man har overvejet de mulige fejlkilder, kan man med god samvittighed fremlægge sit resultat ledsaget af en beskrivelse af metoden, man har brugt og en diskussion af de mulige fejlkilder.

Nu vil de læsere, der habituelt leder efter skjulte dagsordner, allerede være overbevist om, at den pædagogiske historie om optælling af højre- og venstrevendte rødspætter i virkeligheden er ment som en fabel, der skal sige noget om højre- og venstreorienterede mennesker, men de tager fejl igen. Historien skal blot lede læseren ind på den tankegang, at der ikke er nogen principiel forskel på at tælle rødspætter og tælle ord. Ord kan lige så vel være objekt for en naturvidenskabelig undersøgelse, som rødspætter kan, og præsentationen af  resultatet af undersøgelsen skal også her være ledsaget af en metodebeskrivelse og en diskussion af mulige fejlkilder. Metodebeskrivelsen skal gøre det muligt for andre at eftergøre undersøgelsen og kontrollere resultatet.

XX i jp.dk
Udsnit af Mathias Stigsgaards artikel på jp.dk, 4. jan

En offentliggjort undersøgelse regnes i naturvidenskaben først for helt troværdig, når den er blevet eftergjort af flere andre. Derfor appellerede jeg i mit indlæg flere gange til læserne om selv at prøve metoden, som jeg havde beskrevet i detaljer. Det er jo ikke så svært.

Blandt kommentatorerne er der to, der fortæller at de selv har afprøvet metoden på andre hjemmesider, end dem jeg havde valgt, men ingen fortæller, at de har tjekket mine optællinger. Derimod er der flere, der synes at være overbevist om, at hvis undersøgelsen blev gjort på den efter deres mening rigtige måde, så ville den give et helt andet resultat. Til dem sige jeg, som man gør det i naturvidenskaben: Det kan vel være, men bevis det.

Fejkilder

Det er især min klichéliste, der er blevet kritiseret. Den kritik havde jeg forudset. Jeg skrev udtrykkeligt i mit indlæg, at min klichéliste var et subjektivt input til undersøgelsen og, at enhver var velkommen til selv at prøve med en klichéliste efter eget valg, men ingen fortæller, at de har gjort det. Kritikerne har valgt den nemme vej, at nøjes med at forudsige resultaterne af sådanne undersøgelser. Hvis de prøvede at udføre undersøgelserne på alternative klichélister, ville de muligvis opleve, at virkeligheden kan være genstridig overfor forudfattede konklusioner.

Jeg har også i mit indlæg antydet, at jeg ikke aner, hvordan Google virker. Jeg kan derfor have overset metodiske fejlkilder. De, som har indsigt i Googles virkemåde og særheder, kan muligvis forbedre undersøgelsen, og jeg vil indtrængende opfordre dem til at gøre det.

Når jeg så energisk forsøger at lokke andre til at gentage og forbedre min undersøgelse, så er det fordi, den drejer sig om noget vigtigt. De politiske partier har brug for et objektivt portræt af deres sprog. Det kan giver anledning til gavnlige korrektioner. Mit indlæg ville nok ikke have vakt postyr i dagspressen, hvis emnet havde været helt uinteressant.

Søren på bt.dk
Udsnit af Søren Mortensens artikel på bt.dk, 5. jan

De politiske partiers villighed til at få ryddet op i deres klichéer, når de får dem stukket op under næsen, kan naturligvis ikke betragtes som givet. Således spørger kulturordfører Mogens Jensen (S) BT´s journalist, hvordan man kan sige “samfundets svageste” eller “ufinansieret” på en anden måde. Dog mente han, at man nok skal underkaste sproget på sin hjemmeside et servicetjek.

“servicetjek” –  Ak ja. Spildte Guds ord på Balle-Lars.

Procentregning

Det er en almindelig erfaring, at når man læser i aviserne om noget, som man selv har et godt kendskab til, så opdager men, hvor overfladiske og upålidelige avishistorier kan være. Den erfaring har jeg gjort endnu en gang.

I samtlige tilfælde, hvor mit indlæg har været journalistisk behandlet, er jeg blevet kaldt sprogforsker. Den opmærksomme journalist burde måske have bemærket, at jeg har angivet min titel som mag. scient. og derfor have undersøgt, om det kan passe, at en person med en naturvidenskabelig uddannelse er sprogforsker. Det er jeg som allerede nævnt ikke, medmindre et enkelt indlæg i en blog har gjort mig fortjent til denne titel.

Hans Henrik på 180grader.dk
Udsnit af Hans Henrik Juhls artikel på 180grader.dk, 2. jan

Meget værre er journalisternes omgang med procentregning. Hvordan kan nogen finde på at skrive noget så åbenlyst urimeligt som: “S er 93 pct. kliché” på grundlag af en undersøgelse, hvor det flere gange er fremhævet, at de fremlagte tal er relative?

Hvis jeg havde gjort min liste over almindelige udtryk længere ville summerne af forekomster af almindelige udtryk være blevet større, og alle tallene for klichéer pr tekstenhed ville være blevet tilsvarende mindre, men forholdet imellem dem ville have været uændret.

Historien bliver også publiceret på engelsk. En slags. Her en maskinoversættelse af artiklen fra 180grader.dk på liberalisten.pointblog.dk
180graders statistikforståelse bliver også publiceret på engelsk. En slags. Her en morsom maskinoversættelse på liberalisten.pointblog.dk

Hvis hvert partis tal for klichéer pr tekstenhed var blevet ti gange mindre, ville tallet for S have været 0.093 og for DF 0.02, men forholdet mellem dem ville stadig have været ca. 5.

Hvis journalisten så havde brugt den samme omsætningsmetode fra relative tal til procenter ville han have skrevet “S er 9,3 pct. kliché”, hvis han overhovedet havde skrevet noget.

Det er ikke kun én journalist, der er skyldig. De bruger alle mine relative tal, som om de var procenter.

Nu sidst har ekstern lektor i sprogpsykologi Charlotte Marie Bisgaard Nielsen skrevet et indlæg. Det begynder med en henvisning til mit indlæg og slutter med at udtrykke skepsis overfor ”lingvisternes brug af skemaer og computerprogrammer”. ”Inden for mit studieområde taler vi fortrinsvis med mennesker om deres sprog” slutter hun.

Det, der står mellem indledningen og slutningen, er sort tale for mig. Jeg er ikke sikker på, at jeg har forstået, hvad det handler om, men jeg har da i det mindste lært et nyt ord: ”sprogsyn”. Det ord kan sikkert ligesom ”menneskesyn”  bruges til at fordømme andre med.

Jeg troede nu, at jeg havde skrevet slutreplikken, men så fik jeg den tanke, at der kunne være opfundet andre sammensatte ord, der ender på -syn og har fordømmelsespotentiale. Der var gevinst i første søgning på Google: ”klimasyn”.

Hans Degn, mag. scient.
biokemiker

4 kommentarer

  1. Jeg skal gerne indrømme, at den overskrift jeg valgte da jeg delte dit indlæg på 180grader var intet mindre end overmåde sensationel – Det var skam også med fuldt overlæg og rettet mod en bestemt målgruppe. Jeg havde aldrig regnet med at det ville sprede sig til andre medier, hvor journalisterne gjorde med teksten som det passede dem.

    Jeg er nu heller ikke journalist eller noget i den dur, men blot en simpel student. Og som sagt valgte jeg at udlægge tallene på den mest sensationelle måde, velvidende, at det var urimeligt overfor Liste A. Urimeligheden til trods, ændrer det dog ikke så meget på, hvordan fordelingen af klichéer er de forskellige partier imellem.

    Jeg vil dog påpege, at det af min tekst fremgår, at du er naturvidenskaber, som benytter sig af en metode, som er kendt fra korpuslingvistikken (som uanset, hvad Fr. Bisgaard Nielsen måtte mene, er en fremragende metode til at undersøge sprogbrug).

  2. Jeg synes du er en udmærket sprogforsker af en biokemiker at være. Tænk hvor let man kan skifte kurs hvis man bare har de statistiske værktøjer i orden.

    Jeg fik i hvert fald mere ud af at læse dine indlæg end Marie Bisgaards, som, når nu vi snakker om titler, er ekstern lektor i sprogpsykologi. Det er mig uvist hvad det egentlig er sprogpsykologer tror de undersøger ved at tale med mennesker om deres sprog.

  3. @ Hans Henrik

    Når du vidste at din opsummering af Hans Degns artikel var løsagtig, fejlagtig, vildledende, hvorfor gjorde du det så?
    Er det en arbejdsform du vil anbefale andre? Én du ofte selv bruger? Bør man læse alt hvad du eller 180 grader skriver, med ekstra agtpågivenhed?

  4. Man bør altid tage indhold som man finder på et brugerdrevent site med et gran salt, for man kan sagtens finde indhold, som er lagt op af andre årsager end blot at informere den generelle befolkning. For mit vedkommende var det et spørgsmål om at finde ud af om jeg kunne spinne artiklen til at få en høj ranking. Dét kunne jeg. Det var intet mindre end et eksperiment udi sociale medier.

Skriv kommentar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *