Correlatie en Regressie

Het gaat hier om de samenhang (correlatie) tussen twee variabelen, tussen variabele X en variabele Y. Als we X veranderen, verandert Y dan ook? En hoe? En kunnen we, als we dat weten, betrouwbaar generaliseren of voorspellen?
Let wel: het gaat hier om een enkelvoudige correlatie, een ‘lineair verband’ tussen maximaal twee kwantitatieve variabelen.

Stel variabele X als oorzaak (onafhankelijke variabele) en Y als gevolg (afhankelijke variabele).
We meten de waarden van X en Y in verschillende situaties waarbij we de waarden van X regelmatig veranderen. Hoe meer meetmomenten, des te betrouwbaarder wordt het resultaat.
De resultaten van de meting plaatsen we in een tabel.

Grafiek
Voor meer inzicht zetten we de gegevens in een spreidingsdiagram (scattergram, strooiingsdiagram) met onafhankelijke variabele X op de horizontale as en afhankelijke variabele Y op de verticale as.
Een regressielijn (linear trendline) geeft de aard van de samenhang weer. Want, berekend volgens de kleinste kwadratenmethode, wordt de lijn zo getrokken dat de verticale afstand van alle punten tot de lijn het kleinst is. (Σ di²)

Bijvoorbeeld: Reader Statistiek blz.67

Een regressielijn heeft een richting.
Is de richtingscoëfficiënt (richtingsgetal, rico, regressiecoëfficiënt) positief, dan loopt de lijn omhoog. Wat wil zeggen: als X groter wordt, wordt Y ook groter.
Is de richtingscoëfficiënt negatief, dan loopt de lijn naar beneden: als X groter wordt, wordt Y kleiner.

Berekenen van de regressielijn
De formule voor de regressielijn is Y = a · X + b. Als we X invullen, bepalen we Y.
SPSS haalt veel gegevens uit de tabel, waaronder:
• de regressiecoëfficiënt a, geeft de richting en de steilheid van de lijn aan;
• de regressieconstante b, het startgetal, geeft de hoogte aan;

SPSS geeft ook de betrouwbaarheid aan van rico a en startgetal b. Daarover later meer.

De sterkte van het verband: de correlatiecoëfficiënt
SPSS levert ook een cijfer voor dit verband tussen X en Y, altijd tussen 1 en -1.
De formulering voor het correlatiecoëfficiënt is R(X,Y).

1 = R  …. volkomen correlatie
1 > R > 0,9 zeer sterke correlatie
0,9 > R > 0,7 sterke correlatie
0,7 > R > 0,4 matige correlatie
0,4 > R > 0,2 zwakke correlatie
0,2 > R > -0,2 verwaarloosbare correlatie
-0,2 > R > -0,4 zwakke correlatie
-0,4 > R > -0,7 matige correlatie
-0,7 > R > -0,9 sterke correlatie
-0,9 > R > -1 zeer sterke correlatie
R = -1 volkomen correlatie

Afgeleid van de correlatiecoëfficiënt R(X,Y) is de determinatiecoëfficiënt R².
Te berekenen door te kwadrateren of af te lezen uit SPSS als ‘R square’. Ook de determinatiecoëfficiënt zegt iets over de correlatie in lineair verband tussen onafhankelijke variabele X en afhankelijke variabele Y.
Hoeveel procent van de verandering van Y wordt verklaard door X?
Verklaarde variantie: · 100%
Hoeveel procent van de verandering van Y wordt verklaard door ‘eigen variantie’ van Y?
Eigen variantie: (1-R²) · 100%

Bij voorbeeld:
R (X,Y) = -0,968
R² = 0,937 en (1-R²) = 0,063
93,7% van de variantie is verklaard door X en 6,3% is eigen variantie.

Hoe dichter de determinatiecoëfficiënt bij 1 ligt, des te betrouwbaarder zijn voorspellingen vanuit de lineaire regressielijn. Zoals bij het interpoleren en extrapoleren.

Let wel: het gaat hier om een enkelvoudige correlatie, een ‘lineair verband’ tussen maximaal twee kwantitatieve variabelen.

In plaats van variabele X kan de tijd t genomen worden om een correlatie te onderzoeken. Zo’n regressieanalyse levert mogelijk een zogenaamde trend op.

Bijvoorbeeld:
Reader Statistiek blz.72.

Interpoleren op basis van een lineaire regressielijn: