I dette innlegget skal vi dykke ned i konseptet R^2, et nøkkelelement i regresjonsanalyse som forteller oss hvor godt modellen vår forklarer dataene. R^2 går under flere navn: det er også kjent som forklaringsgrad, determinasjonskoeffisient eller «forklart varians». R^2 uttales «R kvadrert» eller «R i annen».
R^2, enkelt forklart
R^2, altså forklart varians, er en statistisk måling som forteller oss hvor godt dataene passer til en regresjonsmodell. Hvis dataene passer bra, betyr det at modellen har en god evne til å predikere den avhengige variabelen, og R^2 er høy. Hvis dataene passer dårlig, vil det si at modellen har svak evne til å predikere den avhengige variabelen, og R^2 er lav. Hvor godt dataene passer kan vi altså tallfeste med R^2.
R^2 tar verdier mellom 0 og 1, hvor 0 indikerer at modellen vår ikke forklarer variansen i dataene i det hele tatt, mens 1 indikerer at modellen perfekt forklarer variansen.
Et eksempel – hvor godt kan vi forutsi studenters karakterer?
La oss si at vi har gjennomført en studie for å se om det er en sammenheng mellom antall timer studert og karakterene oppnådd av studentene. Hvis vi beregner en R^2 på 0.6 for denne studien, betyr det at 60% av variansen i karakterene kan forklares av antall timer studert. Dette ville vært veldig bra! Hvis vi derimot beregner en R^2 på 0, betyr det at modellen ikke kan forklare noen av variasjonene i karakterene. Sagt på en annen måte: modellen predikerer ikke studenters karakterer bedre enn bare å gjette gjennomsnittet av karakterer i klassen.
En nyttig måte å tenke på R^2 er å se det som et mål på hvor mye bedre regresjonsmodellen vår er til å forutsi den avhengige variabelen enn bare å ta snittet av den avhengige variabelen. Hvis ikke regresjonsmodellen vår predikerer karakterer med større sikkerhet enn bare å gjette gjennomsnittlig karakter i klassen, er den jo ubrukelig! For hver gang vi øker R^2, forbedrer vi modellen vår sammenlignet med bare å gjette gjennomsnittet.
R^2 i enkel og multippel regresjon
R^2 kan brukes både i enkel og multippel regresjon. I enkel regresjon, hvor vi bare har én uavhengig variabel, forteller R^2 oss hvor mye av variansen i den avhengige variabelen som kan forklares av den uavhengige variabelen.
I multippel regresjon, hvor vi har mer enn én uavhengig variabel, forteller R^2 oss hvor mye av variansen i den avhengige variabelen som kan forklares av alle de uavhengige variablene tatt sammen.
Jeg håper denne forklaringen har gitt deg en bedre forståelse av R^2 og dens rolle i regresjonsanalyse.
Ønsker du å lære mer om statistikk og metode, kan du finne utfyllende eksamenskurs i statistikk og metode utviklet av toppstudenter nedenfor – sjekk det ut!