İstatistikte veri setimizin merkezini ölçmek kadar, bu verilerin merkez etrafında ne kadar yayıldığını ölçmek de kritik öneme sahiptir. Merkezi yayılım (dağılım) ölçüleri, verilerin birbirinden ne kadar uzakta olduğunu, ne kadar homojen veya heterojen dağıldığını anlamamızı sağlar. Ortalama aynı olan iki veri seti, yayılımları farklı olduğunda tamamen farklı anlamlar taşıyabilir. Bu yazıda, istatistiğin temel taşlarından olan merkezi yayılım ölçülerini detaylıca inceleyeceğiz.
Merkezi yayılım ölçüleri, bir veri setindeki gözlem değerlerinin, merkezi eğilim ölçüleri (ortalama, medyan, mod) etrafında ne derecede dağıldığını, saçıldığını veya değişkenlik gösterdiğini nicel olarak ifade eden istatistiklerdir. Sadece ortalamaya bakarak "öğrencilerin not ortalaması 70'tir" demek yetersiz kalır. Notlar 65 ile 75 arasında mı toplanmış, yoksa 0 ile 100 arasında mı geniş bir aralığa yayılmış? İşte bu sorunun cevabını yayılım ölçüleri verir. Bu bilgi, risk analizi, kalite kontrol, akademik değerlendirme ve daha birçok alanda karar verme sürecini güçlendirir.
En basit yayılım ölçüsüdür. Veri setindeki en büyük değer ile en küçük değer arasındaki farktır.
Formülü: Açıklık = Maksimum Değer - Minimum Değer
Örnek: Bir sınıftaki notlar [50, 70, 85, 90, 95] olsun. Açıklık = 95 - 50 = 45'tir.
Avantajı: Hesaplaması çok kolaydır.
Dezavantajı: Sadece iki uç değere dayandığı için veri setinin tamamı hakkında bilgi vermez. Aşırı uç değerlerden (uçurum değerler) çok etkilenir.
Veri setini küçükten büyüğe sıraladığımızda, ortadaki %50'lik kısmın yayılımını gösterir. Üçüncü çeyrek (Q3) ile birinci çeyrek (Q1) arasındaki farktır.
Formülü: IQR = Q3 - Q1
Örnek: Veri seti: [10, 15, 20, 25, 30, 35, 40]
Q1 (25. persentil) = 17.5, Q3 (75. persentil) = 32.5
IQR = 32.5 - 17.5 = 15
Avantajı: Aşırı uç değerlerden ve uçurumlardan etkilenmez. Kutu grafiği oluşturmada temel alınır.
Kullanımı: Uçurum değer tespitinde yaygın kullanılır. Genellikle, Q1 - 1.5*IQR alt sınır ve Q3 + 1.5*IQR üst sınır olarak kabul edilir; bu sınırların dışındaki değerler potansiyel uçurum olarak işaretlenir.
Veri noktalarının aritmetik ortalamadan ne kadar saptığının ortalama karesel ölçüsüdür. Yayılımı ölçmede en temel ve önemli ölçütlerden biridir.
Formülü (Ana Kitle Varyansı - σ²):
\( \sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N} \)
Formülü (Örneklem Varyansı - s²):
\( s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n - 1} \)
Burada \( \mu \) ana kitle ortalaması, \( \bar{x} \) örneklem ortalaması, N ana kitle büyüklüğü, n ise örneklem büyüklüğüdür. Örneklem varyansında paydada (n-1) kullanılmasının nedeni, örneklemden ana kitle varyansına yansız bir tahmin yapmaktır.
Örnek: [3, 5, 7] veri setinin ortalaması 5'tir.
Varyans = \( \frac{(3-5)^2 + (5-5)^2 + (7-5)^2}{3} = \frac{4+0+4}{3} = \frac{8}{3} \approx 2.67 \)
Avantajı: Tüm verileri dikkate alır ve matematiksel olarak iyi davranışlıdir.
Dezavantajı: Birimi, orijinal verilerin biriminin karesi olduğu için yorumlaması zordur (örneğin, cm²).
Varyansın karekökü alınarak hesaplanır. Böylece birimi orijinal verilerle aynı olur ve yorumlanması çok daha kolaylaşır. En yaygın kullanılan yayılım ölçüsüdür.
Formülü (Ana Kitle Standart Sapması - σ): \( \sigma = \sqrt{\sigma^2} \)
Formülü (Örneklem Standart Sapması - s): \( s = \sqrt{s^2} \)
Örnek: Yukarıdaki varyans örneğinde varyans ≈ 2.67 idi. Standart sapma = \( \sqrt{2.67} \approx 1.63 \) olur.
Yorumu: Standart sapma ne kadar küçükse, veriler ortalama etrafında o kadar yoğun toplanmış demektir. Standart sapma büyüdükçe verilerin yayılımı artar.
Standart sapmanın ortalamaya oranıdır. Yüzde olarak ifade edilir. Farklı birimlere sahip veya ortalamaları çok farklı olan veri setlerinin değişkenliklerini karşılaştırmak için kullanılır.
Formülü: \( CV = \frac{s}{\bar{x}} \times 100\% \)
Örnek: A grubu ortalama gelir: 5000 TL, standart sapma: 500 TL → CV = (500/5000)*100 = %10
B grubu ortalama gelir: 8000 TL, standart sapma: 1000 TL → CV = (1000/8000)*100 = %12.5
Sonuç: B grubunun göreli değişkenliği daha yüksektir.
Avantajı: Birimsizdir, farklı ölçekteki verilerin karşılaştırılmasını sağlar.
Merkezi yayılım ölçüleri, verilerimizin sadece "nerede" toplandığını değil, aynı zamanda "ne kadar geniş bir alana" yayıldığını anlamamızı sağlayan vazgeçilmez araçlardır. Doğru yayılım ölçüsünü seçmek, verinin doğasına (uçurum değer varlığı, dağılım şekli, ölçüm birimi) bağlıdır. İstatistiksel analizde hem merkezi eğilim hem de merkezi yayılım ölçüleri birlikte rapor edilerek veri hakkında bütünsel ve sağlam bir bilgi sunulmalıdır.