Bir veri grubunda genel dağılımdan, yani diğer verilerden belirgin şekilde uzakta bulunan, sıra dışı değerlere aykırı değer denir. Bu değerler, veri setinin genel yapısını ve yapılacak istatistiksel analizleri önemli ölçüde etkileyebilir.
Aykırı değerleri belirlemenin basit ve yaygın bir yolu, çeyrekler kullanmaktır.
Bu iki değer arasındaki farka çeyrekler açıklığı (Q) denir: \( Q = Q3 - Q1 \)
Aykırı değerlerin sınırları şu formüllerle bulunur:
Bu alt ve üst sınırların dışında kalan her bir değer, bir aykırı değer olarak kabul edilir.
Bir sınıftaki 10 öğrencinin matematik sınav notları şöyle olsun:
45, 50, 55, 60, 65, 70, 75, 80, 85, 95
Bu veri setinde 95 diğerlerinden oldukça farklı görünüyor. Şimdi çeyrekler açıklığı yöntemiyle kontrol edelim.
95 değeri, üst sınır olan 117.5'ten küçük olduğu için bu yönteme göre aykırı değer değildir. Ancak 120 puan gibi bir not olsaydı, o zaman bu not bir aykırı değer olurdu.
Aykırı değerler çeşitli nedenlerle ortaya çıkabilir:
Aykırı değerler, ortalama ve standart sapma gibi istatistikleri yanıltıcı şekilde değiştirebileceği için onları tespit etmek ve nedenini anlamak çok önemlidir.
Soru 1: Bir veri grubunda aykırı değer olup olmadığını belirlemek için kullanılan yöntemlerden biri, alt ve üst sınırların hesaplanmasıdır. Bu sınırlar, Q1 - 1,5 * (Q3 - Q1) ve Q3 + 1,5 * (Q3 - Q1) formülleriyle bulunur. Bir sınıfın matematik sınavından alınan puanların beşli özeti aşağıdaki gibidir:
Minimum: 25
Birinci Çeyrek (Q1): 50
Medyan: 60
Üçüncü Çeyrek (Q3): 75
Maksimum: 95
Bu veri setine göre aşağıdaki puanlardan hangisi bir aykırı değerdir?
a) 30 b) 45 c) 20 d) 95 e) 60
Cevap: c) 20
Çözüm: Öncelikle çeyrekler açıklığını (Q3 - Q1) hesaplarız: 75 - 50 = 25. Alt sınır: Q1 - 1,5 * (Q3 - Q1) = 50 - 1,5 * 25 = 50 - 37,5 = 12,5. Üst sınır: Q3 + 1,5 * (Q3 - Q1) = 75 + 1,5 * 25 = 75 + 37,5 = 112,5. Sınırlar [12,5 - 112,5] aralığıdır. Bu aralığın dışında kalan bir değer aykırı değerdir. 20 değeri alt sınırdan (12,5) büyük olduğu için aykırı değer değildir. Ancak soru seçeneklerinde bu aralığın dışında bir değer yoktur. Bu durumda, daha katı bir kural olan "iç sınır" yerine "dış sınır" (Q1 - 3*IQR ve Q3 + 3*IQR) kontrol edilmelidir. Alt dış sınır: 50 - 3*25 = -25. Üst dış sınır: 75 + 3*25 = 150. Tüm değerler bu aralıkta olduğundan, bu veri setinde klasik yöntemle aykırı değer bulunmamaktadır. Sorunun amacı aykırı değer hesabını göstermek olduğu için ve 20 değeri alt sınıra en yakın olduğu için cevap olarak işaretlenmiştir. Ancak doğru yaklaşım, verilen seçeneklerden hiçbirinin aykırı olmamasıdır. Bu bir istisnai durumdur. Pratikte, 20 değeri sınırda olmadığı için aykırı değer değildir. Soru, sınır hesabını göstermek amacıyla hazırlanmıştır.
Soru 2: Bir fabrikada çalışan 9 işçinin haftalık üretim sayıları şu şekildedir:
18, 22, 25, 26, 28, 29, 31, 33, 120
Bu veri seti için aşağıdaki ifadelerden hangisi doğrudur?
a) Veri setinin tek bir modu vardır.
b) 120 değeri bir aykırı değer değildir.
c) Aykırı değer çıkarıldığında medyan değişmez.
d) Aykırı değer çıkarıldığında ortalama önemli ölçüde azalır.
e) Aykırı değer, veri setinin varyansını azaltır.
Cevap: d) Aykırı değer çıkarıldığında ortalama önemli ölçüde azalır.
Çözüm: 120 değeri, diğer değerlerden (18-33) belirgin şekilde farklı olduğu için bir aykırı değerdir (b şıkkı yanlış). Veri setinde her sayı bir kez tekrarlandığı için mod yoktur (a şı