blog posts

Veri analizinde sık karşılaşılan 15 hata görsel ve pratik bir kılavuz

Veri analizinde sık karşılaşılan 15 hata görsel ve pratik bir kılavuz

Günümüzün veri odaklı ekonomisinde, yeni içgörüler elde etmede, kararlar almada ve yeni ürünler oluşturmada verilerin yadsınamaz bir rolü vardır. Aslında bugün, hacmi her iki yılda bir ikiye katlanan, artan bir veri seline tanık oluyoruz ve 2025 yılında 175 bin exabyte gibi şaşırtıcı bir veri sayısına ulaşacağız. Bu sayı çok büyük ve hayal etmesi zor. Bu rakamın kafanızda bir tahmini olması için, bu veri miktarının 1.000.000.000 gigabayt veriye eşdeğer olduğunu belirtmeliyiz. Beş exabaytlık veri kabaca insanlık tarafından şimdiye kadar konuşulan tüm kelimelere eşdeğerdir. Bu veri hacmi ve bunların analizi söz konusu olduğunda hataların oluşmasının kaçınılmaz olduğu açıktır. Veri analizindeki farklı hata türleri ve bunların açıklamaları hakkında bilgi edinmek için bizimle kalın.

Veri analizinde yaygın hata türleri

Fark etmiş olabileceğiniz gibi, tüm bu verileri kontrol etmek çok büyük bir zorluktur. Veriler genellikle birçok farklı biçimde gelir ve hepsini analiz etmek kolay değildir. Sonuç olarak, genellikle veriler üzerinde kısayollar kullanma veya giriş verilerini aşina olduğumuz önceden tanımlanmış sembollerle eşleştirmeye çalışma eğilimindeyiz. Aşağıdaki resimlerde, insanların verileri analiz ederken yaptığı yaygın yanlışlardan bazılarını görebilirsiniz.

Veri analizinde 15 yaygın hata

Bu bölümde, veri analizinde yaygın olarak yapılan 15 hatayı öğreneceğiz.

kiraz toplama hatası

Bu tür bir yanılgıda, kişi iddiasıyla eşleşen sonuçları seçer ve iddiasıyla çelişenleri atar.

Veri Tarama Hatası

Veri analizinde hata

Bu yanılgıda, bir kişi sabit bir veri seti üzerinde farklı hipotezleri test etmeye çalışır ve hipotezini doğrulayan bazılarını rapor eder ve geri kalanını atar. Bu şekilde gözlemlenen bağıntıların çoğunun tesadüf eseri olduğu anlaşılamaz.

Kobra Etkisi hatası

Veri analizinde hata

Bu durumda, sonucu başlangıçta amaçlananın tersi olan bir eylem gerçekleştirilir. Bu hataya “ters niyet” de denir.

Yanlış Nedensellik Hatası

Bu durumda, birbiriyle ilişkili gibi görünen iki olay meydana geldiğinde, bunların mutlaka birbirinin sonucu olması gerektiği yanılgısına varılır.

Örnekleme Sapması

Bu durumda, kişi bir veri setinden sonuçlar alır ve bunu hedef popülasyona geneller, ancak çalışılan örnek, çalışılacak popülasyonu temsil etmez.

kumarbaz hatası

Veri analizinde hata

Bu durumda kişi, geçmişte normalden daha fazla olan bir şeyin gelecekte daha az olması gerektiğine (ya da tam tersi) yanlış bir şekilde inanır.

Ortalama hataya doğru gerileme

Bu durumda kişi, alışılmadık derecede kötü veya iyi bir şey olduğunda, bunun zaman içinde ortalama değerine döneceğini varsayar.

Simpson Paradoksu (Simpson Paradoksu)

Bu, verilerin farklı alt kümelerinde bir eğilim oluştuğunda ortaya çıkar, ancak bu alt kümeleri birleştirdiğimizde eğilim kaybolur ve hatta tersine döner.

Fazla takma hatası

Bu durumda, genel olarak dikkate alınan verilere uyan, ancak genel eğilimi temsil etmeyen bir model oluşturulur.

Yayın Sapması Hatası

Bu hata, daha ilginç olan araştırma sonuçlarının yayınlanmak üzere kabul edilme olasılığının daha yüksek olduğunu ve dolayısıyla gerçeklik anlayışımızı bozduğunu gösteriyor.

Survivorship Bias Hatası

Bu durumda, eksik bir veri kümesinden sonuçlar çıkarılır, çünkü seçici bir kritere dayalı olarak verilerin yalnızca bir kısmı bırakılır.

gerrymandering hatası

Bu durumda, belirli bir sonucu değiştirmek için verileri gruplandırmak amacıyla coğrafi sınırlar manipüle edilir.

Hawthorne Etkisi hatası

Bu yanılgı, bir kişiyi izlemenin davranışlarını etkileyebileceğini ve yanlış bulgulara yol açabileceğini belirtir. Bu mod aynı zamanda “seyirci etkisi” olarak da adlandırılır.

McNamara yanılgısı

Veri analizinde hata

Bu durumda kişi karmaşık durumlarda sadece bazı kriterlere odaklanır ve bu nedenle büyük resmi kaçırır.

Özet Metrik Riski

Veri analizinde hata

Bu durumda, yalnızca özetlenmiş ölçümler incelenir ve bu nedenle ham verilerde var olan önemli farklılıklar gözden kaçırılır.

Yukarıdaki tüm hataları tek bir yerde ve aşağıdaki görselin kapsamlı bilgi grafiğinde görebilirsiniz. Resmi indirmek için bu bağlantıya ( + ) tıklayın . Ayrıca, bu bilgi grafiğini yazdırmayı planlıyorsanız, bu yazdırılabilir PDF dosyasını ( + ) indirebilirsiniz .

Tam boyutta görmek için resmin üzerine tıklayın.

Minitab yazılımı ile veri analizi için eğitim videosunun tanıtımı

Çoğu öğrenci ve araştırmacı, araştırma verileri üzerinde çeşitli istatistiksel analizler yapmak için basit ve verimli bir yazılıma ihtiyaç duyar. Minitab, bir yandan MATLAB gibi büyük yazılımların karmaşıklığına sahip olmayan, diğer yandan gereken hemen hemen her türlü istatistiksel analizi iyi yapan eksiksiz ve kapsamlı bir yazılımdır. Bu tür bir yazılım eğitimi arıyorsanız, sekiz saatlik bu eğitimi kaçırmamanızı öneririz. Bu kursta Mühendis Şeyhi size Minitab yazılımının temellerini, verilerle nasıl çalışılacağını ve çeşitli analizlerin nasıl yapılacağını tanıtacaktır.

Veri analizinde bazı yaygın hata türlerinin açıklaması

Yanılgılar, Siebel’in kurşununun altına bir nokta çizmeye çalışmamıza ve dolayısıyla verileri mantıklı, tutarlı ve metodik bir şekilde yorumlayamamamıza neden olur. Bu durumdan kaçınmak için, veri analizinde sık rastlanan hata durumlarını bilmeli ve hataların nasıl yorumlarımızın sapmasına neden olduğunu bilmeliyiz. Bu bölümde, bazı örnekleri inceleyerek daha önce bahsettiğimiz yaygın hatalar ve yanlışlar hakkında daha fazla bilgi edineceğiz.

hayatta kalma önyargısı

İnsanlar başarılı bir girişimcinin sahip olduğu becerileri incelemek istediklerinde, genellikle mevcut başarılı girişimciler topluluğunu incelerler. Ancak örneklemi geri kalan girişimci grubuyla sınırladığınızda, hayatta kalma yanlılığı riski olduğunu bilmelisiniz.

Başarısız olan tüm girişimcilerden öğrenilecek dersler var ama bunları bulmak daha zor. Bu verileri girişimcilerin başarı öyküleriyle bütünleştirerek daha eksiksiz bir tablo elde edebiliriz.

yanlış nedensellik

ABD’nin Kentucky eyaletindeki evlilik oranı ile eyalette her yıl tekneden düşerek boğulan insan sayısı arasında %95’lik bir ilişki olduğunu biliyor muydunuz?Bu korelasyon, bu iki değişken arasında bir ilişki olduğu anlamına mı geliyor? Yüksek bir korelasyon oranının varlığının sadece bir tesadüf olabileceğine dikkat edilmelidir. Bununla birlikte, “yanlış nedensellik” hatası yapmak, çoğu aceminin yaptığı en yaygın istatistiksel hatalardan biridir.

kumarbazın hatası

Rulet çarkı arka arkaya 26 kez siyah alana inerse, 27. kez kırmızı alana inmesi garanti edilir mi?

Şimdi bu soruyu okuyarak basitçe başarı oranının değişmediğini söyleyebilirsiniz, ancak bu durumdayken aynı şeyi düşünüyor musunuz? Kumarbaz hatası, veri analizi sırasında da ortaya çıkar. Bir şeyin zamanla anormal bir şekilde olması, bu fazla miktarın sonunda doğası gereği normale döneceği anlamına gelmez.

kobra etkisi

İş hedeflerine yönelik ilerlemeyi ölçmek için verileri kullanabiliriz, ancak ya bu hedefleri gerçekleştirmeye yönelik bir niyet varsa?

Wells Fargo Bankası (Wells Fargo), mevcut müşterilerine satışlarını artırmak için bir girişim tasarladı ve buna “Eight is Good” adını verdi. Kısacası, bu planda her banka çalışanının müşterilere kredi kartı, tasarruf hesabı ve diğer finansal hizmetler şeklinde olabilecek sekiz hesap satması gerekiyordu.

Bildiğimiz gibi, bazen iyi niyetler iyi sonuçlara yol açmaz. Bu durumda Fargo Bank çalışanları, sekiz hesap hedefine ulaşmak için kuralları çiğnemeye başladı. Bu pazarlama girişimi sayesinde milyonlarca izinsiz para yatırma ve kredi kartı hesabı oluşturuldu. Son olarak Bank Fargo 142 milyon dolar para cezası ödemek zorunda kaldı.

son söz

Verilerle çalışmak çok hassas ve tehlikelidir ve sürekli olarak çeşitli hatalara maruz kalır. Ayrıca, farklı amaçları olan bazı insanlar, iddialarını bilimsel göstermek için farklı safsataları suistimal etmeye çalışırlar. Veri analizinde farklı hata türlerine aşina olmak, veriler üzerinde analiz yaparken bu tür durumlardan kaçınmanıza yardımcı olacaktır.Ayrıca, biri sizi çeşitli safsatalara başvurarak aldatmaya çalışırsa, doğruyu yanlıştan ayırt edebileceksiniz. doğru. Bu makalede, size veri analizinde en yaygın hata türlerinden bazılarını tanıtmaya çalıştık.