I riktig gamle dager, sånn for ti år sida, ble det ofte sagt at å lage en god test tar ti år og en million kroner. Men det var da, det, og itte no.
Når skårene på testen regnes ut, blir de vektet i forhold til et utvalg som alt har tatt testen. I riktig gamle dager ble tester fylt ut med blyant på papir, og det å finne mennesker til dette utvalget – gjerne kalt normeringsgruppa – krevde en solid porsjon fotarbeid.
I våre dager bruker man nettet.
Men, sier du, det er ikke tilfeldig hvem som tar sånne tester på nettet? Og det har du såklart rett i. Men det hjelper godt om svært mange ikke-tilfeldige mennesker tar testen. Utover dette finnes det såklart statistiske metoder for å utjevne. Det er tilmed en egen vitenskap for å avdekke tullesvar.
Men det som ligger til bunns er enten empirisk forskning – altså at tesresultatene veies opp mot et eller annet – som typisk er måten arbeidspsykologiske tester lages. I sånne sammenhenger er man ikke så interessert i å måle personlighet ut fra Big 5, man er interessert i å finne egenskaper som går direkte på leveringsdyktighet i arbeidslivet. Men nå finnes det masse forskning som viser sammenhenger mellom de gode arbeidspsykologiske testene og Big 5, så det å bruke Big 5-test er ikke lenger så fjernt som det var – det krever bare at den som administrerer testen kan veldig mye.
Dersom alt man ønsker er å lage en test som måler Big 5, finnes det ferdige sett med spørsmål på nettet (International Personality Item Pool), som kan oversettes. Man må likevel teste ut spørsmålene for å sjekke om oversettelsen er riktig. For tjue år siden oppdaget jeg f.eks. at original på engelsk ikke med noen velvilje betyr original på norsk. Oppfinnsom derimot duger fint.
Ca. halvparten av spørsmålene skal være negative. Man skal ikke bare spørre om ting du liker å gjøre, men også om ting du ikke liker å gjøre. Ellers blir resultatet skjevt.
Dernest følger statistisk analyse av svarene, eller nærmere bestemt faktoranalyse (Hvis du er skikkelig nerd insisterer du på at principal component analysis ikke egentlig er faktoranalyse. Det går bra, det. Du kan også begynne å kverulere over at betingelsene for å gjøre faktoranalyse sjelden eller aldri er oppfylt, men da er du statsviter eller sosialøkonom eller noe. Selv Microsoft Azure går med på at dataene mine er normalfordelte). I faktoranalysen finner man hvilke spørsmål som oftest blir besvart på samme måte.
Det neste er å måle alpha-verdien, som er i hvor stor grad det er intern konsistens i svarene. Hvis alpha-verdien er veldig høy, kan man fjerne noen av spørsmålene, fordi de da spør om det samme. Er den veldig lav, er noen av spørsmålene dårlige, og er den negativ, har du glemt å snu fortegnet på minst et av spørsmålene. Alpha skal være sånn passe høy, sånn at du vet at spørsmålene dreier seg om mye av det samme. Personlighetsfaktorene er brede, har du for høy alpha, er du for spisset.
Vitenskapen om testkonstruksjon er snart hundre år gammel. De første vitenskapelige artiklene kom i mellomkrigstida, og dreide seg i kanskje i hovedsak om å finne mening i data. De kanskje viktigste artiklene om validitet, altså om hvordan man finner ut om det man finner i testene har med virkeligheten å gjøre, kom på slutten av femtitallet. Du kan faktisk gjøre en god jobb med å utvikle personlighetstester selv om du ikke kjenner statistikk og metode etter 1957.
Når det gjelder de teoretiske modellene – altså kunskap om det som skal måles i motsetning til hvordan man måler det – kom det en interessant artikkel i så seint som i går. Hvor forskere som bruker metoder fra 1934 kritiseres for å se bort fra metoder som ble utviklet i 1969.