R Öğrenmeye Başlarken

R öğrenmek için farklı kaynaklar

R’nin farklı yönlerini öğrenmenize yardımcı olacak tonlarca kaynak var ve yeni başlayanlar için bu çok zor olabilir. Aynı zamanda dinamik bir dildir ve hızla değişmektedir, bu nedenle en yeni araçlara ve teknolojilere ayak uydurmak önemlidir.

Bu yüzden R-bloggerlar ve DataCamp size R için bir öğrenme yolu getirmek için birlikte çalıştı. Her bölüm sizi başlamanıza ve öğrenmeye devam etmek için ilgili kaynaklara ve araçlara yönlendirir. Belgelerden, çevrimiçi kurslardan, kitaplardan ve daha pek çok malzemeden oluşan bir karışım.

Tıpkı R gibi, bu öğrenme yolu da dinamik bir kaynaktır. Mümkün olan en iyi öğrenme deneyimini sağlamak için kaynakları sürekli olarak geliştirmek ve iyileştirmek istiyoruz. Bu nedenle, iyileştirme önerileriniz varsa lütfen görüşlerinizle [email protected] adresine e-posta gönderin.

Öğrenme yolu

Başlarken: R’nin temelleri

Makinenizi ayarlama

R paketleri

Verilerinizi R’ye aktarma

Veri İşleme

Veri görselleştirme

R ile Veri Bilimi ve Makine Öğrenmesi

R’da Sonuçları Raporlama

R’a Başlarken R’ın Temelleri

R öğrenmenin en iyi yolu yaparak öğrenmektir. R’a yeni başlıyorsanız, DataCamp’ın R’a giriş öğreticisi (ilk bölüm ücretsiz) ve orta düzey R harika birer kaynaktır. Her iki kurs da size R programlama ve veri bilimini kendi hızınızda, tarayıcınızın rahatlığında öğretir. Egzersizler sırasında yol boyunca yararlı ipuçlarıyla anında geri bildirim alırsınız, böylece sıkışmazsınız.

R için başka bir ücretsiz çevrimiçi interaktif öğrenme öğreticisi, O’reilly’nin “try R” adlı kod okulu web sitesinde mevcuttur. Swirl çevrimdışı bir interaktif öğrenme kaynağıdır, R programcısı olmayı eğlenceli ve kolay hale getiren bir R paketidir.

(i) paketi R’ye kurarak ve

(ii) kurs kütüphanesinden bir kurs seçerek bir girdap kursu alabilirsiniz. Herhangi bir şey yüklemenize gerek kalmadan hemen başlamak istiyorsanız, Swirl’in çevrimiçi sürümü için de seçim yapabilirsiniz.

Ayrıca edX ve Coursera’da R programlamanın temellerini öğreten çok iyi MOOC’ler de mevcuttur. EdX’te, R’nin temelleri ve temel sözdizimine odaklanan 8 saatlik bir ders olan Microsoft’un R Programlamaya Giriş‘i bulabilirsiniz. Coursera’da Johns Hopkins’in çok popüler R Programlama kursu var. Her ikisi de şiddetle tavsiye edilir!

Bunun yerine R’yi yazılı bir eğitim veya kitap aracılığıyla öğrenmeyi tercih ederseniz, birçok seçenek var. CRAN’ın R el kitabının yanı sıra Jared Lander’ın Herkes için R veya Robert Kabacoff’un R Aksiyonda gibi bazı erişilebilir kitapları da bulabilirsiniz.

Makinenizi ayarlama aşaması

R’nin bir kopyasını Kapsamlı R Arşiv Ağı‘ndan (CRAN) indirebilirsiniz. Linux, Mac ve Windows için ikili dosyalar mevcuttur.

R kurulduktan sonra, temel R konsoluyla veya entegre geliştirme ortamıyla (IDE) çalışmayı seçebilirsiniz. RStudio, R için en popüler IDE’dir ve hata ayıklama, çalışma alanı yönetimi, çizim ve çok daha fazlasını destekler (RStudio kısayollarını kontrol ettiğinizden emin olun).

R Paketleri

R paketleri, R’nin büyümesini ve popülaritesini artıran en önemli sebeptir. R paketleri, başkalarıyla kolayca paylaşılabilen kod, veri, dokümantasyon ve test paketleridir. Bir paketi kullanmadan önce yüklemeniz gerekir. Temel paket gibi bazı paketler, R’yi yüklediğinizde otomatik olarak yüklenir. Örneğin ggplot2 paketi gibi diğer paketler, birlikte gelen R kurulumuyla kurulu olarak gelmez, ancak kurulması gerekir.

Pek çok (hepsi değil) R paketi, R için aynı, güncel, sürüm ve kod sürümlerini depolayan bir sunucu ağı olan CRAN‘dan organize edilir ve kullanılabilir. Bu paketleri R içinden install.packages fonksiyonunu kullanarak kolayca yükleyebilirsiniz. CRAN, örneğin TimeSeries gibi belirli bir görevle ilişkili tüm paketleri tanımlayan bir dizi Görev Görünümü de tutar.

CRAN’ın yanında, yüksek verimli genomik verilerin analizi için paketlere ve ayrıca R paketi geliştiricilerinin github ve bitbucket depolarına sahip bioconductor oprisyonuna da sahipsiniz. Devtools paketini kullanarak bu depolardaki paketleri kolayca yükleyebilirsiniz.

Herhangi bir paketi bulmak zor olabilir, neyse ki, Rdocumentation, inside-R gibi araçları kullanarak CRAN, github ve bioconductor depolarında paketleri kolayca arayabilir veya yararlı R paketlerinin bir kısa listesine göz atabilirsiniz.

Son olarak, R ile çalışmaya başladığınızda, R paketi bağımlılıklarının çok fazla baş ağrısına neden olabileceğini hızlı bir şekilde öğreneceksiniz. Bu sorunla karşılaştığınızda, packrat‘a (video sunumuna bakın) veya kontrol noktasına (checkpoint) baktığınızdan emin olun. R’yi güncellemeniz gerektiğinde, Windows kullanıyorsanız, installr paketinden updateR () fonksiyonunu kullanabilirsiniz.

Verilerin R’a Aktarılması

R’ye aktarmak istediğiniz veriler her türlü formatta gelebilir: düz metin dosyaları, istatistiksel yazılım dosyaları, veritabanları ve web verileri gibi…

Farklı veri türlerini R’ye almak genellikle farklı bir yaklaşım gerektirir. Genel olarak farklı veri türlerinin R’ye nasıl girileceği hakkında daha fazla bilgi edinmek için bu çevrimiçi Verileri R’ye Aktarma öğreticisine (abonelik gerekir), veri aktarma ile ilgili bu gönderiye veya RStudio’nun bu web seminerine göz atabilirsiniz.

Düz dosyalar genellikle tablo verileri içeren basit metin dosyalarıdır. R’nin standart versiyonu, bu düz dosyaları utils paketinden read.table() ve read.csv() gibi fonksiyonlar veri çerçevesi olarak R’ye aktarma sağlar. Düz dosya verilerini aktarmak için belirli R paketleri readr, araçlar olarak daha az ekran çıktısı veren ve birkaç defa daha (bilgi) hızlı, kullanımı kolay bir paket, ve verileri R’ye almak için ayrıca data.table’ın fread() fonksiyonu kulanılabilir (fread fonksiyonu için bilgi).

Excel dosyalarınızı R’ye almak istiyorsanız, readxl paketine bakmak iyi bir fikirdir. Alternatif olarak, Excel verilerinin içe aktarılmasını destekleyen gdata paketi ve XLConnect paketi vardır. İkincisi, Excel ve R arasında gerçek bir köprü görevi görür, yani Excel içinde yapabileceğiniz herhangi bir eylemi yapabilirsiniz, ancak bunu R içinden yapabilirsiniz. Excel dosyalarınızı R’ye içe aktarma hakkında daha fazla bilgi edinin.

SAS, STATA ve SPSS gibi yazılım paketleri kendi dosya türlerini kullanır ve üretir. Hadley Wickham’ın haven paketi SAS, STATA ve SPSS veri dosyalarını R’ye aktarmak için vardır ve kullanımı çok kolaydır. Alternatif olarak, yalnızca SAS, STATA ve SPSS dosyalarını değil, aynı zamanda Systat ve Weka gibi daha egzotik formatları da aktarabilen foreign paketi vardır. Ayrıca, verileri çeşitli biçimlere tekrar dışa aktarabilir. (İpucu: SAS, SPSS veya STATA’dan R’ye geçiş yapıyorsanız, Bob Muenchen’in eğitimine göz atın – abonelik gerekir).

İlişkisel bir veritabanına bağlanmak ve bu veritabanından içe aktarmak için kullanılan paketler, bağlanmak istediğiniz veritabanı türüne bağlıdır. Bir MySQL veritabanına bağlanmak istediğinizi varsayalım, RMySQL paketine ihtiyacınız olacak. Diğerleri, örneğin RpostgreSQL ve ROracle paketidir. Ayırıca veritabanına erişmek ve işlemek için kullanabileceğiniz R fonksiyonları, DBI adlı başka bir R paketinde belirtilir.

Web verilerini R kullanarak toplamak istiyorsanız, API’leri kullanarak veya rvest gibi paketlerle kazıyarak R’yi çevrimiçi kaynaklara bağlamanız gerekir. Tüm bunlara başlamak için, Rolf Fredheim’ın blogunda bu harika kaynak var.

Veri İşleme Aşaması

Ham verilerinizi iyi yapılandırılmış verilere dönüştürmek, sağlam analiz ve verilerin işlenmeye uygun hale getirilmesi için önemlidir. R, veri işleme için birçok yerleşik işleve sahiptir, ancak her zaman kullanımı kolay değildir. Neyse ki, size yardımcı olabilecek bazı harika paketler var:

  • Tidyr paketi verilerinizi “derlemenizi” sağlar. Düzenli veriler, her sütunun bir değişken olduğu ve her satırın bir gözlem olduğu verilerdir. Bu nedenle, verilerinizi çalışması kolay verilere dönüştürür. Tidyr kullanarak verilerinizi nasıl toplayabileceğiniz konusunda bu mükemmel kaynağı kontrol edin.
  • Metin işleme işlemi yapmak istiyorsanız, stringr paketi hakkında bilgi edinmelisiniz. Açıklama çok anlaşılabilir ve başlamanız için faydalı örneklerle doludur.
  • dplyr, veri çerçevesine bezer nesnelerle çalışırken harika bir pakettir (gerek bellekte ve gerekse bellek dışında). Hızı, kolay anlaşılır bir yazım ile birleştirir. Dplyr hakkında daha fazla bilgi edinmek için bu veri manipülasyon kursuna (abonelik gerekir) girebilir ve bu kullanışlı kopya sayfasına göz atabilirsiniz.
  • Ağır veri düzenleme görevleri gerçekleştirirken, data.table paketi “hazırdaki” paketiniz olmalıdır. Şaşırtıcı derecede hızlı ve yazımına bir şekilde alıştığınızda kendinizi her zaman paketi kullanır bulacaksınız. Data.table’ın içini dışını keşfetmek için bu veri analizi kursunu (abonelik gerekir) kontrol edin ve bu kopya sayfasını referans olarak kullanın.
  • Muhtemelen bir noktada zaman ve tarihlerle çalışırken kendinizi bulursunuz. Bu acı verici bir süreç olabilir, ancak neyse ki lubridate, çalışmayı biraz daha kolaylaştırır. Günlük analizinizde lubridate’i nasıl kullanabileceğinizi daha iyi anlamak için açıklamasına bakın.
  • Base R, zaman serisi verilerini işlemek için sınırlı işlevselliğe sahiptir. Neyse ki, zoo, xts ve quantmod gibi paketler var. Bu paketlerin nasıl kullanılacağını ve R’deki zaman serisi verileriyle nasıl çalışılacağını daha iyi anlamak için Eric Zivot’un bu eğitimini alın.

R ile veri manipülasyonuna genel bir bakış istiyorsanız, R ile Veri İşleme kitabında daha fazla bilgi edinebilir veya RStudio’nun R ile Veri Cebelleşmesi videosunu görebilirsiniz. Veri çerçevelerinizi ele alma konusunda sorun yaşarsanız, veri çerçevesi sorunlarınız için 15 kolay çözümü kontrol edin.

Veri Görselleştirme Aşaması

R’yi harika bir araç yapan şeylerden biri veri görselleştirme yetenekleridir. R’de görselleştirme yapmak için ggplot2 muhtemelen en iyi bilinen paket ve yeni başlayanlar için öğrenilmesi gereken bir pakettir! Http://ggplot2.org/ adresinde ggplot2’yi kullanmaya başlamak için gerekli tüm bilgileri bulabilirsiniz, kopya sayfasını ve konu üstüne olan kitabı kontrol ettiğinizden emin olun. Ggplot2’nin yanında, etkileşimli web grafikleri için ggvis (sunuma bakın (abonelik gerekir)), google grafikler ile arayüz oluşturmak için googleVis (bu TED konuşmasını yeniden oluşturmayı öğrenin), Plotly for R ve çok daha fazlası gibi paketler de vardır. Bazı gizli mücevherlerin görev görünümüne bakın ve verilerinizi çizerken bazı sorunlarınız varsa bu yazı size yardımcı olabilir.

R’de, bu ünlü harita gibi güzel haritalar oluşturmanıza izin veren uzamsal verileri işlemeye adanmış bir görev görünümü vardır:

Başlamak için, örneğin, Google Haritalar ve Open Street Maps gibi kaynaklardan gelen statik haritaların üzerindeki uzamsal verileri ve modelleri görselleştirmenize olanak tanıyan ggmap gibi bir pakete bakın. Alternatif olarak, maptools, choroplethr ve tmap paketi ile oynamaya başlayabilirsiniz. Harika bir eğiticiye ihtiyacınız varsa, R’de mekansal verilerin görselleştirilmesi giriş yazısını kullanın.

R’deki görselleştirmelerin grafik / harita / bir eldiven gibi bir eldiven gibi uyan tüm bu muhteşem renk şemalarından faydalandığını sık sık göreceksiniz … Görselleştirmeleriniz için de bunu başarmak istiyorsanız, kendinizi RColorBrewer paketine ve ColorBrewer’a derinleştirin .

R’deki en son görselleştirme araçlarından biri HTML widget‘larıdır. HTML widget’ları tıpkı R grafikleri gibi çalışır, ancak dinamik haritalar (leaflet), zaman serisi veri grafikleri (dygraphs) ve interaktif tablolar (DataTables) gibi etkileşimli web görselleştirmeleri oluştururlar. Çılgınca HTML widget’larının çok güzel örnekleri ve kendi dokümanınızı nasıl oluşturacağınıza dair sağlam bir doküman var (okuma modunda değilseniz: sadece bu videoyu izleyin).

Daha sonra hangi görselleştirmenin yaratılacağı konusunda ilham almak istiyorsanız, FlowingData gibi görselleştirmelere adanmış bloglara göz atabilirsiniz.

R ile Veri Bilimi ve Makine Öğrenmesi

R ile veri biliminin nasıl yapılacağına dair birçok başlangıç kaynağı vardır. Mevcut çevrimiçi kursların bir listesi:

Andrew Conway’in R ile istatistiğe giriş (abonelik gerekli)

Veri Analizi ve İstatistiksel Çıkarım

Yaşam bilimleri için veri analizi

Veri Bilimi Uzmanlığı – Johns Hopkins

Alternatif olarak, iyi bir okumayı tercih ederseniz:

R ile Pratik Veri Bilimi

Veri Bilimi için R

R ile Veri Biliminde Hayatta Kalma Rehberi

R ile makine öğrenimi yapmaya başladığınızda, caret, rpart ve randomForest gibi paketleri çabucak kendinizi kullanıyor olarak bulacaksınız. Neyse ki, bu paketler ve genel olarak Machine Learning için bazı harika öğrenme kaynakları vardır. Eğer yeni başlıyorsanız, bu kılavuz size hiç vakit kaybettirmeyecek. Alternatif olarak, Makine Öğrenmesinde R ile Uzmanlaşma ve R ile Makine Öğrenmesi başlıklı kitaplara göz atabilirsiniz. Gerçek bir örnekte size rehberlik edecek bazı adım adım eğitimler arıyorsanız Kaggle Makine Öğrenmesi kursu veya Wiekvoet’in bloguna göz atabilirsiniz.

R’da  Sonuçları Raporlama

R Markdown, R’den dinamik belgelerin, sunuların ve raporların kolayca oluşturulmasını sağlayan bir biçimlendirme aracıdır. Veri analizinizi tekrarlanabilir bir şekilde raporlamak, böylece analizi daha kullanışlı ve anlaşılır hale getirmek için harika bir araçtır. R markdown knitr ve pandoc‘a dayanmaktadır. R Markdown ile R, R kodunu sonuçlarıyla değiştiren son bir belge oluşturur. Bu belge html, word, pdf, ioslides vb. biçiminde olabilir. Shiny‘i kullanarak etkileşimli R markdown belgeleri bile oluşturabilirsiniz. R Markdown ile Raporlama (abonelik gerekir) ile ilgili 4 saatlik öğretici, R markdown ile kolayca ilerlemenize yardımcı olur ve ayrıca bu güzel kopya sayfasını ileride başvurmak için kullanabilirsiniz.

R markdown’un yanında, Shiny‘i de kontrol ettiğinizden emin olmalısınız. Shiny, R ile etkileşimli web uygulamaları oluşturmayı inanılmaz derecede kolaylaştırır. HTML, CSS veya Javascript bilmenize gerek kalmadan analizinizi etkileşimli web uygulamalarına dönüştürmenizi sağlar. RStudio, şu video eğitimlerini içeren Shiny ile başlamanız için harika bir öğrenme portalı sunar (Shiny Learning Roadmap’ın temel öğelerine tıklayın). Daha gelişmiş konuların yanı sıra çok sayıda örnek mevcuttur.

Kaynak: https://www.r-bloggers.com/2015/12/how-to-learn-r-2/