Standart sapma ve varyans dağılımının istatistiksel ölçümleridir
Standart sapma ve varyans formülü genellikle aşağıdakiler kullanılarak ifade edilir:
Bir kümenin varyansı n eşit derecede olası değerler şu şekilde yazılabilir:
Standart sapma varyansın kare köküdür:
Yunan harfli formüller göz korkutucu görünebilir, ancak bu göründüğünden daha az karmaşıktır. Basit adımlarla koymak için:
Bu varyansı verir. Standart sapmayı bulmak için varyansın karekökünü alın.
Khan Academy'nin bu mükemmel videosu, varyans ve standart sapma kavramlarını açıklıyor:
Bir veri kümesinin altı karahindiba yüksekliğini içerdiğini varsayalım: 3 inç, 4 inç, 5 inç, 4 inç, 11 inç ve 6 inç.
İlk olarak, veri noktalarının ortalamasını bulun: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5.5
Yani ortalama yükseklik 5.5 inç. Şimdi sapmalara ihtiyacımız var, bu yüzden her bitkinin ortalamadan farkını buluyoruz: -2.5, -1.5, -.5, -1.5, 5.5, 1.5
Şimdi her sapmayı kare yapın ve toplamlarını bulun: 6.25 + 2.25 + .25 + 2.25 + 30.25 + 2.25 = 43.5
Şimdi karelerin toplamını veri noktalarının sayısına bölün, bu durumda bitkiler: 43.5 / 6 = 7.25
Bu nedenle, bu veri kümesinin varyansı 7.25'tir, bu da oldukça keyfi bir sayıdır. Gerçek dünya ölçümüne dönüştürmek için, inç cinsinden standart sapmayı bulmak için 7.25'in karekökünü alın.
Standart sapma yaklaşık 2.69 inçtir. Bu, örnek için, ortalamanın 2.69 inç (5.5 inç) içindeki herhangi bir karahindiba 'normal' anlamına gelir.
Negatif değerlerin (ortalamanın altındaki sapmalar) pozitif değerleri iptal etmesini önlemek için sapmalar kare içine alınır. Negatif bir sayı karesi pozitif bir değer haline geldiğinden bu işe yarar. +5, +2, -1 ve -6 ortalamasından sapmalara sahip basit bir veri kümeniz varsa, değerlerin karesi alınmazsa sapmaların toplamı sıfır olur (örn. 5 + 2 - 1) - 6 = 0).
Varyans, matematiksel bir dağılım olarak ifade edilir. Veri kümesinin orijinal ölçümlerine göre rastgele bir sayı olduğundan, gerçek dünyayla görselleştirmek ve uygulamak zordur. Varyansı bulmak genellikle standart sapmayı bulmadan önceki son adımdır. Varyans değerleri bazen finans ve istatistik formüllerinde kullanılır.
Veri kümesinin orijinal birimlerinde ifade edilen standart sapma, çok daha sezgisel ve orijinal veri kümesinin değerlerine daha yakındır. Popülasyonda neyin normal olduğunu anlamak için demografik veya nüfus örneklerini analiz etmek için sıklıkla kullanılır.
Normal bir dağılımda popülasyonun (veya değerlerin) yaklaşık% 68'i ortalamanın 1 standart sapmasına (1σ) ve yaklaşık% 94'ü 2σ içine düşer. Ortalamadan 1.7σ veya daha fazla farklılık gösteren değerler genellikle aykırı değer olarak kabul edilir.
Uygulamada, Altı Sigma gibi kalite sistemleri hata oranını azaltmaya çalışır, böylece hatalar bir aykırı değer haline gelir. "Altı sigma süreci" terimi, işlem ortalaması ile en yakın spesifikasyon sınırı arasında altı standart sapma varsa, pratik olarak hiçbir öğenin spesifikasyonları karşılayamayacağı fikrinden gelir..[1]
Gerçek dünya uygulamalarında, kullanılan veri setleri genellikle tüm popülasyonlardan ziyade popülasyon örneklerini temsil eder. Kısmi bir örneklemden popülasyon geneli sonuçlar çıkarılacaksa, biraz değiştirilmiş bir formül kullanılır..
Sahip olduğunuz tek örnek bir örnekse "örnek standart sapma" kullanılır, ancak örneğin alındığı popülasyon standart sapması hakkında bir ifade vermek istiyorsanız
Örnek standart sapma formülünün standart sapma formülünden farklı olmasının tek yolu paydadaki “-1” dir.
Karahindiba örneğini kullanarak, sadece 6 karahindiba örneklediysek, ancak yüzlerce karahindiba ile tüm alan için standart sapmayı belirtmek için bu örneği kullanmak istersek bu formüle ihtiyaç duyulacaktır..
Şimdi karelerin toplamı, 6 (n - 1) yerine 5 (7,25 yerine) ve orijinal standart sapma için 2,69 inç yerine 2,95 inçlik bir standart sapma veren 5'e bölünecektir. Bu değişiklik bir örnekteki hata payını bulmak için kullanılır (bu durumda% 9).