Merkezi Eğilim ve Dağılma
Açıklayıcı ve çıkarımsal istatistiklerde, merkezi eğilimi, dağılımı ve çarpıklığına karşılık gelen bir veri kümesini tanımlamak için birkaç indeks kullanılır: bir veri kümesinin dağılımının göreceli şeklini belirleyen en önemli üç özellik.
Merkezi eğilim nedir?
Merkezi eğilim, değerlerin dağılımının merkezini ifade eder ve bulur. Ortalama, mod ve medyan, bir veri kümesinin merkezi eğilimini tanımlamak için en yaygın kullanılan endekslerdir. Bir veri kümesi simetrik ise, o zaman hem medyan hem de veri kümesinin ortalaması birbiriyle çakışır.
Bir veri kümesi verildiğinde, ortalama, tüm veri değerlerinin toplamı alınarak ve daha sonra veri sayısına bölünerek hesaplanır. Örneğin, 10 kişinin (kilogram cinsinden) ağırlıkları 70, 62, 65, 72, 80, 70, 63, 72, 77 ve 79 olarak ölçülür. Sonra on kişinin (kilogram cinsinden) ortalama ağırlığı aşağıdaki gibi hesaplanır. Ağırlıkların toplamı 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710'dur. Ortalama = (toplam) / (veri sayısı) = 710/10 = 71 (kilogram cinsinden). Aykırı değerlerin (normal trendden sapan veri noktaları) ortalamayı etkileme eğiliminde olduğu anlaşılmaktadır. Böylece, aykırı değerlerin varlığında, tek başına ortalama, veri kümesinin merkezi hakkında doğru bir resim vermeyecektir.
Medyan, veri kümesinin tam ortasında bulunan veri noktasıdır. Medyanı hesaplamanın bir yolu, veri noktalarını artan sırada sıralamak ve daha sonra veri noktasını ortada bulmaktır. Örneğin, bir kez sipariş edilirse, önceki veri kümesi 62, 63, 65, 70, 70, 72, 72, 77, 79, 80 gibi görünür. Bu nedenle, (70 + 72) / 2 = 71 ortadadır. Bundan medyanın veri kümesinde olması gerekmediği görülmektedir. Medyan, aykırı değerlerin varlığından etkilenmez. Bu nedenle, medyan, aykırı değerlerin varlığında merkezi eğilimin daha iyi bir ölçüsü olarak hizmet edecektir..
Mod, veri kümesinde en sık görülen değerdir. Önceki örnekte, 70 ve 72 değerinin her ikisi de iki kez meydana gelir ve bu nedenle her ikisi de modlardır. Bu, bazı dağılımlarda birden fazla mod değerinin olduğunu gösterir. Yalnızca bir mod varsa, veri kümesinin tek modlu olduğu söylenir, bu durumda veri kümesi iki modludur.
Dispersiyon nedir?
Dispersiyon, dağılımın merkezi hakkındaki verilerin yayılma miktarıdır. Aralık ve standart sapma en yaygın kullanılan dağılım ölçütleridir.
Aralık en yüksek değer eksi en düşük değerdir. Önceki örnekte, en yüksek değer 80 ve en düşük değer 62'dir, bu nedenle aralık 80-62 = 18'dir. Ancak aralık dağılım hakkında yeterli bir resim sağlamaz.
Standart sapmayı hesaplamak için, ilk önce veri değerlerinin ortalamadan sapmaları hesaplanır. Sapmaların kök karesi ortalaması standart sapma olarak adlandırılır. Önceki örnekte, ortalamadan ilgili sapmalar (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70-71) = -1, (63-71) = -8, (72-71) = 1, (77-71) = 6 ve (79-71) = 8. Toplamı sapma kareleri (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (1)2 + (-8)2 + 12 + 62 + 82 = 366. Standart sapma √ (366/10) = 6.05'tir (kilogram cinsinden). Veri kümesi büyük ölçüde çarpılmadığı sürece, verilerin büyük çoğunluğunun 71 ± 6.05 aralığında olduğu ve gerçekten de bu özel örnekte olduğu sonucuna varılabilir..
Merkezi eğilim ve dağılım arasındaki fark nedir? • Merkezi eğilim, değerlerin dağılımının merkezini ifade eder ve merkezini belirler • Dağılma, veri kümesinin merkezi hakkındaki verilerin yayılma miktarıdır.
|