R Eğitim Serisi: Özet ve Betimsel İstatistikler

Özet (veya açıklayıcı) istatistikler, neredeyse her veri kümesini temsil etmek için kullanılan ilk rakamlardır. Ayrıca çok daha karmaşık hesaplamalar ve analizler için temel oluştururlar. Bu nedenle, basit yöntemlerden oluşmasına rağmen, analiz süreci için gereklidir. Bu eğitici, R’nin ortalama, standart sapma, aralık ve yüzdelikler dâhil özet istatistiklerini hesaplamak için kullanılabileceği yolları araştıracaktır. Ayrıca R komut kümesindeki en kullanışlı araçlardan biri olan özet fonksiyonu da tanıtılmıştır.

Eğitim Dosyaları

Başlamadan önce, bu öğreticide kullanılan sample data (.csv) indirmek isteyebilirsiniz. Dosyayı sağ tıkladığınızdan ve R çalışma dizininize kaydettiğinizden emin olun. Bu veri seti, 20 denek için varsayımsal yaş ve gelir verilerini içermektedir. Bu öğreticideki tüm kod örneklerinin, bu verilerin zaten bir R değişkenine okunduğunu ve eklendiğini varsaydığını unutmayınız.

Ortalama (Mean)

R de, mean(VAR) komutu ile izole bir değişken üzerinde bir ortalama hesaplanabilir; burada VAR, ortalamasını hesaplamak istediğiniz değişkenin adıdır. Alternatif olarak, mean(DATAVAR) komutu kullanılarak bir veri kümesindeki değişkenlerin her biri için bir ortalama hesaplanabilir; burada DATAVAR, verileri içeren değişkenin adıdır. Aşağıdaki kod örneği, ortalama fonksiyonunun her iki kullanımını gösterir.

  1. ># Bir değişkenin ortalamasını mean(VAR) hesapla
  2. ># Örnekteki ortalama Yaş nedir?
  3. >mean(Age)
  4. [1] 32,3
  5. ># veri kümesindeki tüm değişkenlerin ortalamasını mean(DATAVAR) hesapla
  6. ># veri kümesindeki her değişkenin ortalaması nedir?
  7. >mean(dataset)
  8. Age…… Income
  9. 32.3… .. 34000.0

Standart Sapma(Standard Deviation)

R içinde standart sapmalar ortalamalarla aynı şekilde hesaplanır. Tek bir değişkenin standart sapması sd(VAR) komutuyla hesaplanabilir; burada VAR, standart sapmasını almak istediğiniz değişkenin adıdır. Benzer şekilde, veri setindeki her bir değişken için standart sapma, sd(DATAVAR) komutu kullanılarak hesaplanabilir; burada DATAVAR, verileri içeren değişkenin adıdır. Aşağıdaki kod örneği, standart sapma işlevinin her iki kullanımını gösterir.

  1. ># sd(VAR) ile bir değişkenin standart sapmasını hesapla
  2. ># Örnekteki Yaşın standart sapması nedir?
  3. >sd(Age)
  4. [1] 19.45602
  5. ># sd(DATAVAR) ile bir veri kümesindeki tüm değişkenlerin standart sapmasını hesapla
  6. ># veri kümesindeki her değişkenin standart sapması nedir?
  7. >sd(dataset)
  8. Age ………….. Income
  9. 19,45602 …. 32.306,10175

Aralık(Range)

Minimum ve Maksimum

Desene bağlı olarak, min (VAR) komutu kullanılarak tek bir değişken üzerinde minimum hesaplanabilir. Maksimum, max(VAR) üzerinden aynı şekilde çalışır. Bununla birlikte, ortalama ve standart sapma işlevlerinin aksine, min(DATAVAR) veya max(DATAVAR), her bir değişkenden değil, tüm veri kümesinden minimum veya maksimum değeri alır. Bu nedenle, daha yararlı bilgiler üretmek için minimum ve maksimumların veri kümelerinin tamamı yerine tek tek değişkenler üzerinde hesaplanması önerilir. Aşağıdaki örnek kod, min ve max işlevlerinin kullanımını gösterir.

  1. ># min(VAR) ile bir değişkenin min’ini hesapla                  
  2. ># numunede bulunan minimum yaş nedir?
  3. >min(Age)
  4. [1] 5
  5. ># max(VAR) ile bir değişkenin maksimum değerini hesapla
  6. ># numunede bulunan maksimum yaş nedir?
  7. >max(Age)
  8. [1] 70

Aralık(Range)

Belirli bir değişkenin aralığı, yani maksimum ve minimum değerleri, range(VAR) komutu kullanılarak bulunabilir. Min ve maks işlevlerinde olduğu gibi, range(DATAVAR) kullanmak çok yararlı değildir, çünkü her bir bağımsız değişkenden ziyade tüm veri kümesini dikkate alır. Sonuç olarak, aralıkların bireysel değişkenler üzerinde de hesaplanması tavsiye edilir. Bu işlem aşağıdaki kod örneğinde gösterilmiştir.

  1. ># bir değişkenin aralığını hesapla range(VAR)
  2. ># Numunede ne tür yaş değerleri bulunur?
  3. >range(Age)
  4. [1] 5… .70

Yüzdelikler

Yüzdeliklerden Değerler (Kantiller)

Bir veri kümesi ve istenen bir yüzdelik değer verildiğinde, ilgili değer, quantile(VAR, c (PROB1, PROB2,…)) komutu kullanılarak bulunabilir. Burada VAR değişken ismini ifade eder ve PROB1, PROB2, vb. olasılık değerleri ile ilgilidir. Olasılıklar 0 ile 1 arasında olmalıdır, bu nedenle onları istenen yüzdeliklerin ondalık sürümlerine eşdeğer hale getirmelidir (% 50 = 0.5 gibi). Aşağıdaki örnek, bu işlevin istenen bir yüzdelik değere karşılık gelen veri değerini bulmak için nasıl kullanılabileceğini göstermektedir.

  1. ># quantile kullanarak istenen yüzdelik değerleri hesaplayın (VAR, c (PROB1, PROB2,…))
  2. ># Örnekteki yaş için 25. ve 75. yüzdelikler nelerdir?
  3. >quantile (Age, c (0.25, 0.75))
  4. % 25 ……. % 75
  5. 17.75….. 44.25

quantile(VAR) komutunun da kullanılabileceğini unutmayınız. Olasılıklar belirtilmediğinde, fonksiyon varsayılan olarak aşağıdaki örnekte gösterildiği gibi 0, 25, 50, 75 ve 100 yüzdelikleri hesaplamak için kullanılır.

  1. ># quantile(VAR) kullanarak varsayılan yüzdelik değerlerini hesapla
  2. ># Örnekteki yaş için 0, 25, 50, 75 ve 100 yüzdelikler nelerdir?
  3. >quantile(Age)
  4. % 0 ……% 25 ……% 50 ……% 75 ……% 100
  5. 5.00… 17.75 …… 30.00… 44.25… .. 70.00

Değerlerden Yüzdelikler (Yüzde Sıralaması)

Belirli bir değere karşılık gelen yüzdelik sıranın gerekli olduğu durumda, kişinin özel bir yöntem tasarlaması gerekir. Başlamak için, bir yüzdelik sıra hesaplamakla ilgili adımları göz önünde bulundurun.

  1. Verilen değerdeki veya bu değerin altındaki veri noktalarının sayısını hesaplayın
  2. Toplam veri noktası sayısına bölün
  3. 100 ile çarpın

Önceki adımlardan, yüzdelik bir sıra hesaplamak için formül türetilebilir: yüzdebirlik sırası = length(VAR[VAR <= VAL]) / length(VAR) * 100, burada VAR değişkenin adı ve VAL verilir değer. Bu formül length fonksiyonunu iki farklı şekilde kullanır. İlk length(VAR[VAR <= VAL]), bir değişkende verilen değerin altında olan veri noktalarının sayısını sayar. “<=” operatörünün, fonksiyonun farklı senaryolara uygulanacağını varsayarak diğer <,> ve = operatörlerinin kombinasyonlarıyla değiştirilebileceğini unutmayınız. İkinci length(VAR), değişkendeki toplam veri noktası sayısını sayar. Birlikte, yüzdelik sıra hesaplama işleminin birinci ve ikinci adımlarını gerçekleştirirler. Son adım, ondalık değeri bir yüzdeye dönüştürmek için bölümün sonucunu 100 ile çarpmaktır. Örnek bir yüzdelik sıra hesaplaması aşağıda gösterilmiştir.

  1. ># özel formülü kullanarak belirli bir değerin yüzdelik derecesini hesapla: length(VAR [VAR <>
  2. ># örnekte, 45 yaşında hangi yüzdelik sıralamada?
  3. >length(Age[Age <= 45]) / length(Age) * 100  
  4. [1] 75

Özet

summary(X) R’da çok kullanışlı çok amaçlı bir fonksiyondur. Burada X’, veri kümeleri, değişkenler ve doğrusal modeller de dahil olmak üzere birçok nesneden biri olabilir. Komut kullanıldığında, kendisine beslenen tek bir nesne ile ilgili özet veriler sağlar. Bu nedenle, summary işlevi, bağımsız değişken olarak ne tür bir nesne aldığına bağlı olarak farklı çıktılara sahiptir. Yaygın olarak uygulanabilir olmanın yanı sıra, bu yöntem değerlidir, çünkü genellikle özet istatistikler açısından tam olarak neye ihtiyaç duyulursa onu sağlar. summary(X) ‘in nasıl kullanılabileceğine dair birkaç örnek aşağıdaki kod blokunda göösterilmiştir. R’deki verilerinizi analiz etmenin yollarını keşfederken özet komutunu sık sık kullanmanızı öneririz. Bu işlev R Tutorial Series’de yeniden ziyaret edilecektir.

  1. ># bir değişkeni özetleme summary(VAR)
  2. >Summary(Age)

Önceki özetin çıktısı aşağıda gösterilmiştir.

https://i0.wp.com/www.r-bloggers.com/wp-content/uploads/2009/11/sumStats_sumOutput_11.png?w=456&ssl=1
  1. > #summarize a dataset with summary(DATAVAR)
  2. > summary(dataset)
https://i1.wp.com/www.r-bloggers.com/wp-content/uploads/2009/11/sumStats_sumOutput_21.png?w=456&ssl=1

Tam Özet İstatistik Analizi

Özet istatistiklerinin R’deki verileri analiz etmek için nasıl kullanılabileceğinin tam bir örneğini görmek için lütfen metin dosyasını indirin.