📊 İki Kategorik Değişken Arasındaki İlişki Nedir?
İstatistiksel analizlerde, bazen iki kategorik değişken arasında bir ilişki olup olmadığını anlamak isteriz. Kategorik değişkenler, belirli kategorilere ayrılabilen değişkenlerdir. Örneğin, cinsiyet (kadın/erkek), medeni durum (evli/bekar/boşanmış), veya bir ürünün rengi (kırmızı/mavi/yeşil) kategorik değişkenlerdir.
🎯 Ki-Kare Testi (Chi-Square Test)
İki kategorik değişken arasındaki ilişkiyi incelemek için en sık kullanılan yöntemlerden biri Ki-Kare Testi'dir. Bu test, iki değişkenin bağımsız olup olmadığını değerlendirir. Bağımsızlık, bir değişkenin değerinin diğer değişkenin değerini etkilemediği anlamına gelir.
Ki-Kare Testi'nin Temel Adımları:
- 🧪 Hipotez Kurma:
- 🍎 Null Hipotez (H0): İki değişken arasında ilişki yoktur (bağımsızdırlar).
- 🍏 Alternatif Hipotez (H1): İki değişken arasında ilişki vardır (bağımlıdırlar).
- 📊 Gözlemlenen Frekansları (Observed Frequencies) Belirleme: Veri setindeki her kategori kombinasyonu için gözlemlenen frekansları sayarız. Örneğin, "Erkek" ve "Evli" kategorisine giren kişi sayısı.
- 🧮 Beklenen Frekansları (Expected Frequencies) Hesaplama: Eğer değişkenler bağımsız olsaydı, her kategori kombinasyonu için beklenen frekansları hesaplarız. Bu, satır toplamı * sütun toplamı / toplam örneklem sayısı formülü ile yapılır.
- 📈 Ki-Kare İstatistik Değerini Hesaplama: Gözlemlenen ve beklenen frekanslar arasındaki farkı kullanarak Ki-Kare istatistik değerini hesaplarız. Formül: Σ [(Gözlemlenen Frekans - Beklenen Frekans)² / Beklenen Frekans]
- ⚙️ Serbestlik Derecesini (Degrees of Freedom) Belirleme: Serbestlik derecesi, (satır sayısı - 1) * (sütun sayısı - 1) formülü ile hesaplanır.
- 📉 p-değerini (p-value) Bulma: Ki-Kare istatistik değeri ve serbestlik derecesini kullanarak bir Ki-Kare dağılım tablosundan veya bir istatistiksel yazılımdan p-değerini buluruz.
- ✅ Karar Verme: Eğer p-değeri önceden belirlenmiş bir anlamlılık düzeyinden (genellikle 0.05) küçükse, null hipotezi reddederiz ve iki değişken arasında istatistiksel olarak anlamlı bir ilişki olduğuna karar veririz. Aksi takdirde, null hipotezi reddedemeyiz.
📝 Örnek Senaryo
Bir anket yapıldığını ve ankete katılanların cinsiyetleri (Erkek/Kadın) ve tuttukları takım (A Takımı/B Takımı) bilgilerinin toplandığını varsayalım. Ki-Kare testi yaparak cinsiyet ve tutulan takım arasında bir ilişki olup olmadığını inceleyebiliriz.
Veri Tablosu:
|
A Takımı |
B Takımı |
| Erkek |
50 |
30 |
| Kadın |
20 |
40 |
Bu verilerle Ki-Kare testi yapıldığında, eğer p-değeri 0.05'ten küçük çıkarsa, cinsiyet ve tutulan takım arasında istatistiksel olarak anlamlı bir ilişki vardır diyebiliriz. Bu, erkeklerin ve kadınların farklı takımları tutma olasılıklarının farklı olduğu anlamına gelir.
⚠️ Dikkat Edilmesi Gerekenler
- 📏 Örneklem Büyüklüğü: Ki-Kare testi, büyük örneklem büyüklüklerinde daha güvenilirdir. Küçük örneklem büyüklüklerinde, testin sonuçları yanıltıcı olabilir.
- ⚖️ Beklenen Frekanslar: Her hücredeki beklenen frekansın en az 5 olması gereklidir. Eğer bazı hücrelerdeki beklenen frekanslar 5'ten küçükse, Fisher's Exact Test gibi alternatif testler kullanılabilir.
- ❗ Nedensellik: İki değişken arasında bir ilişki bulmak, bu değişkenler arasında bir nedensellik ilişkisi olduğu anlamına gelmez. Sadece bir ilişkinin varlığını gösterir.
Ki-Kare testi, kategorik değişkenler arasındaki ilişkileri anlamak için güçlü bir araçtır. Ancak, testin varsayımlarına dikkat etmek ve sonuçları dikkatli bir şekilde yorumlamak önemlidir.