Chi-kwadraattoets

Op basis van een aselecte steekproef, van hooguit 5%,  kunnen we generaliseren. We kunnen iets beweren in de vorm van een hypothese. Voorbeeld hypothese: er bestaat verband tussen ‘variabele een’ en ‘variabele twee’.
Met de Chikwadraattoets kunnen we statistisch toetsen of die bewering standhoudt. Bij voorkeur als de twee variabelen in kwestie van nominaal of ordinaal meetniveau zijn.

De nulhypothese H0 is waar totdat het tegendeel is aangetoond.
De alternatieve hypothese H1 is het tegendeel van de nulhypothese. Door middel van een steekproef kijken we of de alternatieve hypothese H1 waar is.

Bijvoorbeeld:
H0: de naamsbekendheid van ChocoMocca is ≤ 75%.
H1: de naamsbekendheid van ChocoMocca is > 75%.
of
H0: er is geen verband tussen geslacht en alcoholconsumptie.
H1: er is statistisch verband tussen geslacht en alcoholconsumptie.

De Chikwadraattoets
We nemen een steekproef uit de populatie om te berekenen of H1 waar is. En we maken een kruistabel van de twee variabelen waar het om gaat.
Zijn de gevonden verschillen toeval of het resultaat van een verband?

De Chikwadraattoets bestaat uit twee berekeningen:
a. de berekening van de toetsingsgrootheid X²
b. de berekening van de kritieke grenswaarde
Gevolgd door het constateren welke uitkomst van de twee berekeningen het grootst is. En de conclusie die dat voor de alternatieve hypothese heeft.

Bepalen van toetsingsgrootheid
We berekenen de kolom- en rijtotalen. [bijvoorbeeld Statistiek blz.87]
Op basis van deze totalen berekenen we de te verwachten frequenties E, op één decimaal afgerond.

Berekening te verwachte frequenties:
• rijtotaal · kolomtotaal / steekproefgrootte n.
• afronden op één decimaal

Alle E’s moeten minstens 5 zijn. Anders moet de steekproef of de klassen worden aangepast.

De verwachte frequenties E verschillen van de waargenomen frequentie O.
De grootte van die verschillen berekenen we met de chikwadraatformule:
X² = Σ (OE)² / E.
Daaruit volgt de waarde van de toetsingsgrootheid X².

Berekening toetsingsgrootheid:
• de som van de chikwadraatformules voor iedere cel ín de kruistabel.

Bepalen van kritieke grenswaarde
De toetsingsgrootheid is erg groot als we veel cellen hebben. We gaan daarom rekening houden met het aantal rijen en kolommen van de kruistabel.
We berekenen het aantal vrijheidsgraden met de formule
vhg = (R-1) · (K-1).
Waarbij R staat voor het aantal rijen van de kruistabel en K voor het aantal kolommen.

Berekening vrijheidsgraden:
vhg = (aantal rijen – 1) · (aantal kolommen -1)

Voordat we de kritieke grenswaarde opzoeken moeten we eerst kiezen met welke mate van betrouwbaarheid we een uitpraak willen doen:

bij 95,0% → significantieniveau of onbetrouwbaarheidsdrempel α = 0,050
bij 97,5% → significantieniveau of onbetrouwbaarheidsdrempel α = 0,025
bij 99,0% → significantieniveau of onbetrouwbaarheidsdrempel α = 0,010
bij 99,5% → significantieniveau of onbetrouwbaarheidsdrempel α = 0,005

Met de gemaakte keus bekijken we de tabel van de Chikwadraatverdeling:
In de juiste kolom zoeken we de kritieke grenswaarde die hoort bij de berekende vrijheidsgraden.
[zie Statistiek blz.104]

Toetsingsgrootheid X² versus kritieke grenswaarde
Nu kunnen we kijken of de toetsingsgrootheid, het verschil tussen de verwachting en de waarneming, groot genoeg is om H1 als ‘waar’ te bestempelen. De toetsingsgrootheid moet dan groter zijn dan de kritieke grenswaarde:

Als X² ≥ de kritieke grenswaarde, dan is H1 waar en wordt H0 verworpen.
Als X² < de kritieke grenswaarde, dan is H1 niet waar en is H0 waar.

De conclusie als X² ≥ de kritieke grenswaarde
Met een betrouwbaarheid van ….. % kan worden gesteld dat er verband bestaat tussen ‘variabele een’ en ‘variabele twee’.
De nulhypothese H0 is daarom niet waar en wordt verworpen.