Veri Ön İşlemede Aykırı Gözlem
Veri setlerinin normal dağılış göstermemesi durumunda ilk akla gelen nedenlerden biri de aykırı gözlemlerinin varlığıdır.
Peki nedir bu aykırı gözlem ?
Veride genel eğilimin oldukça dışına çıkan ya da diğer gözlemlerden çok farklı olan gözlemlere aykırı gözlem denir.
Bir başka deyişle, aykırı değeri bünyesinde barındıran gözleme aykırı gözlem diyebiliriz.
Aykırı değer , aykırılığı ifade eden nümerik değerdir.
Aykırı Gözlem Neden Önemli?
Bu değerler, verilerin standart sapmasını artırmanın dışında, dağılımın şeklini de değiştirebilir ve istatistik karar süreci sonucunda hatalı kararlar verilmesine neden olabilirler.
- Genellenebilirlik kaygısı ile oluşturulan kural setlerini yanıltır. Yanlılığa sebep olur.
Grafiklerimizi inceleyelim:
- 1. grafiğimizde aykırı değer bulunmuyor. Mavi doğrunun eğimi negatiftir.
- Senaryoya 3 adet (mavi balonla işaretlenmiş) aykırı değer ekleyelim. Mavi doğrumuzun eğimindeki değişimi 2. grafikte görebilirsiniz.
Yanlılığa sebep olduğu için aykırı gözlem problemini çözmemiz elzemdir.
Aykırı Gözlem Sorununu Çözmezsek Nelerle Karşılaşırız?
- Eksik öğrenme (underfitting) ya da aşırı öğrenme (overfitting) durumlarıyla karşılaşırız.
- Hata varyansı artar.
- Normal dağılımdan gelen veri seti çarpık gibi görünür.
- İstatistiksel testlerin gücünü azaltır.
Aykırı Gözlem Neden Olur?
- Ölçüm hatası
- Verideki bozulumlar
- Yanlış veri girişi
KAYNAKÇA
- Mustafa Vahit Keskin , Veri Bilimi ve Machine Learning