Soru:
Bir yazılım, spam e-postaları tespit etmek için bir filtre kullanmaktadır. Tarihsel verilere göre:
- Gelen e-postaların %20'si spam'dir. P(Spam) = 0.20
- Spam e-postaların %98'inde "kredi" kelimesi geçmektedir. P("kredi"|Spam) = 0.98
- Spam olmayan e-postaların ise %5'inde "kredi" kelimesi geçmektedir. P("kredi"|Spam') = 0.05
Gelen bir e-postada "kredi" kelimesi geçtiği tespit edilmiştir. Bu e-postanın spam olma olasılığı P(Spam|"kredi") nedir?
Çözüm:
💡 Bayes Teoremi, bir özellik ("kredi" kelimesi) gözlemlendiğinde, bir sınıfın (spam) olasılığını güncellememizi sağlar.
- ➡️ 1. Adım: Temel olasılıkları belirleyelim.
- P(Spam) = 0.20
- P(Spam') = 1 - 0.20 = 0.80
- P("kredi"|Spam) = 0.98
- P("kredi"|Spam') = 0.05
- ➡️ 2. Adım: "kredi" kelimesinin genel görülme olasılığını P("kredi") hesaplayalım.
- P("kredi") = P("kredi"|Spam)*P(Spam) + P("kredi"|Spam')*P(Spam')
- P("kredi") = (0.98 * 0.20) + (0.05 * 0.80) = 0.196 + 0.04 = 0.236
- ➡️ 3. Adım: Bayes Teoremi'ni uygulayalım.
- \( P(Spam|"kredi") = \frac{P("kredi"|Spam) \cdot P(Spam)}{P("kredi")} \)
- P(Spam|"kredi") = (0.98 * 0.20) / 0.236
- P(Spam|"kredi") = 0.196 / 0.236 ≈ 0.8305
✅ Sonuç: İçinde "kredi" kelimesi geçen bir e-postanın spam olma olasılığı yaklaşık %83.05'tir.