Abhängigkeit und Chi-Quadrat

Untersuchung der Abhängigkeit nominalskalierter Daten

Bei der Untersuchung des Zusammenhangs zweier nominalskalierter Merkmale ist es nicht möglich, formale Aussagen über die Art des Zusammenhangs zu machen. Man kann zunächst nur feststellen, dass eine Abhängigkeit besteht. Worin diese Abhängigkeit besteht lässt sich nicht direkt sagen, da wir es ja mit nomialskalierten Daten zu tun haben. Man ist also auf die Untersuchung weiterer Merkmale angewiesen. Ohne Kenntnis weiterer Merkmale ist die einzige Möglichkeit, die besteht, zu untersuchen, wie ausgeprägt die Abhängigkeit ist, etwa indem man feststellt, wie weit die Verteilung von der Unabhängigkeit abweicht.

Ziel ist die Messung der Abweichung von der Unabhängigkeit, zur

 

Untersuchung der Abhängigkeit.

Für unabhängige Merkmale gilt:

p(a,b) = p(a)*p(b)

Ausgehend von den beiden Randverteilungen der gemeinsamen Häufigkeitsverteulung zweier Merkmale kann also ermittelt werden, wie die Häufigkeitsverteilung aussehen müßte, falss die Merkmale unabhängig wären. Die Tabelle dieser fiktiven Werte wird auch als Indifferenztafel oder Indifferenztabelle bezeichnet.

Der Unterschied der beiden Tabellen dokumentiert die Abweichung der tatsächlichen Häufigkeitsverteilung von der bei Tabelle, die bei Unabhängigkeit entstehen würde.

Wir ermitteln nun die Abweichung im Kästchen (Feld der Tabelle) (a,b):

 d(a,b) = h(a,b) – (h(a)*h(b))/n

 Chi-Quadrat X^2

Das Chi-Quadrat ist eine Maßzahl für die Abweichung von der Unabhängigkeit, die durch die Summation der relativen quadrierten Abweichungen der beobachteten Merkmalsausprägungen von den Werten bei Unabhängigkeit ensteht:

Es gilt:

X^2 ≥ 0

X^2 = 0 genau dann, wenn die Merkmale unabhängig sind.

Je größer der Chi-Quadrat, desto größer sind die relativen Abweichungen in den einzelnen Feldern und desto größer ist der Unterschied zwischen Häufigkeitstabelle und Indifferenztafel und desto größer sind also auch die quadrierten Abweichungen von Unabhängigkeit.

Verwendung des Chi-Quadrat zur Bestimmung des Kontingenzkoeffizienten nach Pearson

Das Chi-Quadrat ist nicht ganz ohne. Das Chi-Quadrat hat nämlich NICHT die Eigenschaft, als Maximalwert den Wert 1 zu haben. Vielmehr kann das Chi-Quadrat auch Werte größer als 1 annehmen, wobei der Maximalwert mit n ansteigt. Eine Verdoppelung der absoluten Häufigkeiten verdoppelt nämlich auch das Chi-Quadrat. Die häufigste Methode, dies zu korrigieren, ist der Kontingenzkoeffiient nach Pearson.

Kontingenzkoeffizient = 0 -> Chi-Quadrat = 0 -> Merkmale sind unabhängig.