Kategorik ve Nicel Veri Test 4

Soru 01 / 10

🎓 Kategorik ve Nicel Veri Test 4 - Ders Notu

Merhaba sevgili öğrenciler! Bu ders notu, "Kategorik ve Nicel Veri Test 4" sınavına hazırlanırken bilmeniz gereken temel veri türlerini, bu verileri analiz etme ve görselleştirme yöntemlerini sade bir dille özetlemektedir.

📌 Veri Türleri: Kategorik ve Nicel Veri

Verileri doğru anlamak ve analiz etmek için öncelikle onların türünü belirlememiz gerekir. Veriler genel olarak iki ana kategoriye ayrılır:

  • Kategorik (Nitel) Veri: Özellikleri, grupları veya kategorileri tanımlayan verilerdir. Sayısal bir anlamı yoktur, yani toplama, çıkarma gibi matematiksel işlemler yapılamaz. Örnek: Cinsiyet (Kadın/Erkek), Göz Rengi (Mavi/Kahverengi/Yeşil).
  • Nicel (Sayısal) Veri: Ölçülebilir veya sayılabilir değerleri ifade eder. Sayısal işlemlere uygundur. Örnek: Boy uzunluğu, Yaş, Sınav Notu.

💡 İpucu: Bir verinin türünü doğru belirlemek, hangi analiz yöntemini kullanacağınıza karar vermenin ilk ve en önemli adımıdır.

📌 Kategorik Veri Alt Türleri

Kategorik veriler de kendi içinde ikiye ayrılır:

  • Nominal Veri: Kategoriler arasında herhangi bir sıralama veya düzen olmayan verilerdir. Sadece isimler veya etiketlerdir. Örnek: Medeni Durum (Evli, Bekar, Boşanmış), Kan Grubu (A, B, AB, 0).
  • Ordinal Veri: Kategoriler arasında bir sıralama veya düzen olan, ancak kategoriler arasındaki farkların ölçülemeyen verilerdir. Örnek: Eğitim Seviyesi (İlkokul, Ortaokul, Lise, Üniversite), Memnuniyet Derecesi (Çok Kötü, Kötü, Orta, İyi, Çok İyi).

📌 Nicel Veri Alt Türleri

Nicel veriler de ölçüm seviyelerine göre farklılık gösterir:

  • Aralık (Interval) Veri: Sıralama vardır, farklar anlamlıdır ancak mutlak bir sıfır noktası yoktur. Bu yüzden oranlar anlamlı değildir. Örnek: Sıcaklık ($^\circ C$ veya $^\circ F$), IQ puanı. ($0^\circ C$ sıcaklık yokluğu anlamına gelmez.)
  • Oran (Ratio) Veri: Sıralama vardır, farklar ve oranlar anlamlıdır ve mutlak bir sıfır noktası vardır (yani sıfır "hiçlik" anlamına gelir). Örnek: Boy, Kilo, Yaş, Gelir, Sınav Notu. ($0$ kg ağırlık yokluk anlamına gelir.)

⚠️ Dikkat: Mutlak sıfır noktası, oran veriyi aralık veriden ayıran en önemli özelliktir. $20$ kg, $10$ kg'ın iki katıdır diyebiliriz (oran anlamlı), ancak $20^\circ C$, $10^\circ C$'nin iki katı sıcak değildir.

📌 Kategorik Verilerin Analizi ve Görselleştirilmesi

Kategorik verileri anlamak ve sunmak için genellikle frekansları ve oranları kullanırız:

  • Frekans (Sıklık): Bir kategorideki gözlem sayısıdır. Örneğin, bir sınıftaki erkek öğrenci sayısı.
  • Göreceli Frekans (Yüzde): Bir kategorinin toplam gözlem sayısına oranıdır. Genellikle yüzde olarak ifade edilir. Formül: $(Frekans / Toplam Gözlem Sayısı) \times 100\%$.
  • Mod (Tepe Değer): Bir veri setinde en sık tekrar eden kategori veya değerdir. Kategorik veriler için tek merkezi eğilim ölçüsüdür.
  • Çubuk Grafiği (Bar Chart): Her kategorinin frekansını veya yüzdesini dikey veya yatay çubuklarla gösteren bir grafiktir. Kategorik verileri görselleştirmek için en yaygın yoldur.
  • Pasta Grafiği (Pie Chart): Her kategorinin tümün içindeki oranını bir daire dilimi olarak gösterir. Genellikle az sayıda kategori (örneğin 5'ten az) olduğunda tercih edilir.

📌 Nicel Verilerin Merkezi Eğilim Ölçüleri

Nicel verilerin "tipik" veya "merkezi" değerini bulmak için kullanılır. Veri setinin nerede toplandığını gösterirler:

  • Ortalama (Aritmetik Ortalama - Mean): Tüm değerlerin toplamının gözlem sayısına bölünmesiyle bulunur. Formül: $\bar{x} = \frac{\sum x_i}{n}$. En sık kullanılan ölçüdür.
  • Medyan (Ortanca): Veriler küçükten büyüğe sıralandığında tam ortada kalan değerdir. Tek sayıda gözlemde ortadaki değer, çift sayıda gözlemde ortadaki iki değerin ortalamasıdır. Aykırı değerlerden (çok uçtaki değerler) daha az etkilenir.
  • Mod (Tepe Değer): Bir veri setinde en sık tekrar eden değerdir. Nicel verilerde birden fazla mod olabilir veya hiç mod olmayabilir.

💡 İpucu: Veri setinizde aşırı büyük veya küçük değerler (aykırı değerler) varsa, medyan ortalamadan daha iyi bir merkezi eğilim ölçüsü olabilir çünkü aykırı değerlerden daha az etkilenir.

📌 Nicel Verilerin Yayılım Ölçüleri

Verilerin ne kadar yayıldığını, yani birbirlerinden ne kadar farklı olduğunu gösterir. Merkezi eğilim ölçülerini tamamlayıcıdırlar:

  • Aralık (Range): En büyük değer ile en küçük değer arasındaki farktır. Formül: $Max - Min$. Aykırı değerlerden çok etkilenir ve veri setinin tamamı hakkında çok bilgi vermez.
  • Çeyrekler Aralığı (Interquartile Range - IQR): Veri setinin orta %50'sini kapsayan aralıktır. Üçüncü çeyrek ($Q_3$) ile birinci çeyrek ($Q_1$) arasındaki fark olarak hesaplanır. Formül: $IQR = Q_3 - Q_1$. Aykırı değerlerden daha az etkilenir.
  • Varyans (Variance): Değerlerin ortalamadan ne kadar saptığının ortalama karesel farkıdır. Verilerin ortalamadan ne kadar uzaklaştığını gösterir. Formül (örneklem için): $s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1}$.
  • Standart Sapma (Standard Deviation): Varyansın kareköküdür. Verilerin ortalamadan tipik olarak ne kadar saptığını gösterir ve orijinal birimlerle ifade edildiği için yorumlaması daha kolaydır. Formül (örneklem için): $s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n-1}}$.

⚠️ Dikkat: Standart sapma ne kadar küçükse, veriler ortalamaya o kadar yakındır; ne kadar büyükse, veriler ortalamadan o kadar uzaktır (yani daha dağınıktır).

📌 Nicel Verilerin Görselleştirilmesi

Nicel verilerin dağılımını, şeklini ve aykırı değerlerini anlamak için grafikler kullanılır:

  • Histogram: Sayısal verilerin dağılımını gösterir. Veriler belirli aralıklara (sınıflara) bölünür ve her aralıktaki gözlem sayısı (frekans) dikey çubuklarla gösterilir. Bir veri setinin şekli hakkında hızlı bilgi verir (simetrik mi, çarpık mı?).
  • Kutu Grafiği (Box Plot): Verinin dağılımını, medyanı, çeyrekleri ($Q_1, Q_3$), minimum ve maksimum değerleri (aykırı değerler hariç) gösterir. Özellikle aykırı değerleri belirlemede ve farklı grupların dağılımlarını karşılaştırmada çok etkilidir.

📌 Dağılımın Şekli

Nicel verilerin histogram veya kutu grafiği incelenerek dağılımının simetrik mi, yoksa çarpık mı olduğu anlaşılır:

  • Simetrik Dağılım: Veriler ortalama etrafında eşit yayılmıştır. Histogram çan şeklinde olabilir. Ortalama, medyan ve mod birbirine çok yakındır.
  • Sağa Çarpık (Pozitif Çarpık) Dağılım: Dağılımın kuyruğu sağa doğru uzanır. Verilerin çoğu sol tarafta toplanmıştır. Ortalama > Medyan > Mod ilişkisi görülür. (Örnek: Gelir dağılımı, az sayıda zengin insan kuyruğu sağa çeker.)
  • Sola Çarpık (Negatif Çarpık) Dağılım: Dağılımın kuyruğu sola doğru uzanır. Verilerin çoğu sağ tarafta toplanmıştır. Mod > Medyan > Ortalama ilişkisi görülür. (Örnek: Çok kolay bir sınavın notları, çoğu öğrenci yüksek not alır.)

📌 Değişkenler Arası İlişkiler (Basit Seviye)

Birden fazla veri türü arasındaki bağlantıları incelemek, veri analizinin önemli bir parçasıdır:

  • Kategorik - Kategorik İlişki: İki kategorik değişken arasındaki ilişkiyi incelemek için çapraz tablolar (Contingency Tables) kullanılır. Bu tablolar, her iki değişkenin kategorilerinin birleşimindeki frekansları gösterir. (Örnek: Cinsiyet ile Favori Renk arasındaki ilişki).
  • Nicel - Nicel İlişki: İki nicel değişken arasındaki doğrusal ilişkiyi incelemek için Korelasyon kullanılır. Korelasyon katsayısı ($r$) -1 ile +1 arasında değişir ve ilişkinin yönünü ve gücünü gösterir.
  • Pozitif Korelasyon ($r > 0$): Bir değişken artarken diğeri de artma eğilimindedir. (Örnek: Ders çalışma süresi arttıkça sınav notunun artması).
  • Negatif Korelasyon ($r < 0$): Bir değişken artarken diğeri azalma eğilimindedir. (Örnek: Bir ürünün fiyatı arttıkça satış miktarının azalması).
  • Sıfır Korelasyon ($r \approx 0$): Değişkenler arasında doğrusal bir ilişki yoktur.

💡 İpucu: Korelasyon, neden-sonuç ilişkisi anlamına gelmez, sadece iki değişkenin birlikte hareket etme eğilimini gösterir. "Korelasyon nedensellik değildir!" sözünü unutmayın.

📝 Bu notlar, "Kategorik ve Nicel Veri Test 4" için sağlam bir temel oluşturmanıza yardımcı olacaktır. Başarılar dilerim!

↩️ Testi Çözmeye Devam Et
✨ Konuları Gir, Yapay Zeka Saniyeler İçinde Sınavını Üretsin!
1 2 3 4 5 6 7 8 9 10
Geri Dön