Kategorik Veri Nedir?
Kategorik veri, istatistik ve veri analizinde karşılaştığımız, nesneleri veya bireyleri belirli gruplara veya kategorilere ayıran bir veri türüdür. Bu veri türü, sayısal değerlerden ziyade nitelikleri, özellikleri veya etiketleri temsil eder.
Kategorik Verinin Temel Özellikleri
- Sayılamaz, Sınıflandırılır: Bu veriler üzerinde toplama, çıkarma, ortalama alma gibi matematiksel işlemler yapılamaz. Örneğin, "mavi" ve "kırmızı" renklerini toplayamazsınız.
- Sınırlı Sayıda Grup: Veriler önceden tanımlanmış, sınırlı sayıda kategoriden birine aittir.
- Nitel (Kalitatif) Bilgi Taşır: Nicel (sayısal) bir büyüklükten ziyade bir niteliği, durumu veya türü ifade eder.
Kategorik Veri Türleri
Kategorik veriler genellikle iki ana gruba ayrılır:
1. Nominal (Adlandırılmış) Veri:
- Kategorilerin belirli bir sırası veya hiyerarşisi yoktur.
- Kategoriler birbirinden bağımsızdır.
- Örnekler:
- Bir kişinin cinsiyeti: Kadın, Erkek, Diğer
- Göz rengi: Mavi, Yeşil, Kahverengi
- Medeni durum: Bekar, Evli, Boşanmış
- Ülke isimleri: Türkiye, Almanya, Japonya
2. Ordinal (Sıralı) Veri:
- Kategorilerin belirli ve anlamlı bir sırası vardır.
- Ancak kategoriler arasındaki "mesafe" veya fark ölçülemez veya eşit değildir.
- Örnekler:
- Eğitim seviyesi: İlkokul < Lise < Lisans < Yüksek Lisans
- Müşteri memnuniyeti anketi: Çok Memnun, Memnun, Ne Memnun Ne Memnun Değil, Memnun Değil, Hiç Memnun Değil
- Yarışma sonuçları: Altın Madalya, Gümüş Madalya, Bronz Madalya
- Giysi bedenleri: S, M, L, XL
Gerçek Hayattan Örnekler
Kategorik veriler günlük hayatımızın her alanında karşımıza çıkar:
- Bir anket formu: "Hangi marka telefon kullanıyorsunuz?" sorusunun cevabı (Apple, Samsung, Xiaomi, vb.) nominal veridir.
- Bir hastane kaydı: Hastanın kan grubu (A Rh+, B Rh-, 0 Rh+, vb.) nominal veridir.
- Bir e-ticaret sitesi: Ürünün kategorisi (Elektronik, Giyim, Kitap, vb.) nominal veridir.
- Bir restoran değerlendirmesi: 1 yıldızdan 5 yıldıza verilen puanlar ordinal veridir.
Neden Önemlidir?
Kategorik verileri doğru tanımlamak ve anlamak, veri analizinin temelidir. Çünkü:
- Bu verileri analiz ederken kullanacağımız istatistiksel yöntemler (mod, ki-kare testi gibi) sayısal verilerden farklıdır.
- Makine öğrenmesi modellerinde, kategorik verileri modelin anlayabileceği bir forma dönüştürmek (örneğin, "one-hot encoding") gerekir.
- Doğru veri görselleştirme tekniğini seçmek için önemlidir (Çubuk grafik kategorik, çizgi grafik sayısal veriler için daha uygundur).
Özetle, kategorik veri, sayısal olmayan, sınırlı ve genellikle sabit bir grup kümesinden gelen, nesneleri sınıflandırmak için kullanılan nitel bir veri türüdür.