İleri düzey kod yazamayanlar için R programı…
R programında, verilerinizi analiz etmek ve veri bilimi yolunda işlemlerinizi(profesyonel ya da amatör) gerçekleştirebilmek için ileri düzey “kodlama” yapabilirsiniz ama istemezseniz de yapmayabilirsiniz.
Bu yazıda R programında çalışan ve kod yazmadan işlemlerimizi, görselleştirmelerimizi ya da bazı modellemeleri yapabileceğimiz kütüphanelerden bahsedeceğim. Sizin bildiğiniz fakat bu yazıda yer almayan, kodlama yapmadan işlem yapabileceğimiz kütüphaneler biliyorsanız lütfen yorumda belirtin. Karşılıklı eğitişim için bilgilerimizi paylaşmalıyız çünkü bilim kümülatif ilerler.
Veri Çağı’nda yaşadığımız bu zamanlarda verileri anlamlı kılmak ya da altından kalkamayacak(!) kadar çok veriyi, anlamlı bilgiler(pazarlama faaliyetlerinde kullanabileceğimiz çıkarımlar) haline getirmek önem arz etmektedir. Günümüzde firmalar yaşamlarını pazarlama merkezli sürdürür. Her ürün pazarlamaya uygun yapılır ve ürünler müşterilerin kullanabilmesi, onunla içselleştirilmesine odaklıdır. Hal bu olunca verinin önemini siz düşünün. Segmentasyonun önemini, kimlere nelerin önerileceği gibi konuları, hangi müşterimizin bizi terk edebilir gibi soruların önemini umarım anlamışsınızdır. CRM bu kadar popüler, veri bilimi bu kadar popüler ve uzun bir geleceğe kadar da konumunu ivmeli bir şekilde yükselteceği kesin gibi ama bunun için bazı konularda yetkin olmak zor mu olsa gerek ? Bu sorunun cevabını düşündüm uzun(!) bir süre. Gözümü kapattım ve açtım direk aklıma iki cevap geldi: Hayır efendim zor değil ama evet efendim az biraz zor. Bu iki cevap, iki farklı uçlarda ama bu biraz kişiye, onun azmine, gelecekte ne kadar var olmak istediğine ve biraz da yeteneğine bağlı. Yetenek kavramını korkarak kullandım çünkü veri bilimi yol haritasında kodlama ve bilgisayar bilgisi düzeyleri farklı da olsa gerekmektedir. Bunun bir çalışmanın sonucu olduğunu mu yoksa yetenek sonucu mu olduğunun tartışması yapılmakla beraber ben çalışmanın sonucu olduğundan yanayım. Kısaca kodlama bilmek zorunda değilsiniz.
R programında kodlama yapmadan da bazı işlemleri yapabiliyoruz. Bu yazı profesyonel olarak veri bilimciler için yeterli olmayacaktır fakat birçok okulda istatistik, veri madenciliği, veri bilimi, çok değişkenli istatistik, biyoistatistik, olasılık gibi dersleri alan lisans ve lisansüstü öğrenciler için ve hiç kodlama bilmeyen, kodlama geçmişi olmayan kişiler için hayat kurtarıcı olacağını düşünüyorum.
Burada birkaç kütüphaneden bahsedeceğim. Bu kütüphaneler sayesinde kod bilmesek bile istatistiksel testleri, veri görselliği, makine öğrenmesi algoritmalarını basit düzeyde oluşturabilirsiniz. Bir önceki paragrafta belirttiğim kişiler ödevlerinde, günlük basit istatistiksel çıkarımlarında ya da veri görselleştirmede rahatlıkla kullanabilir. Tabi ki bu alanda ilerlemek ve kendinizi geliştirmek istiyorsanız kod yazmalısınız fakat işim görülsün, anı kurtarayım be abi derseniz bu kütüphaneleri rahatlıkla kullanabilirsiniz.
Belirtmekte fayda görüyorum ki bu kütüphaneler sadece sizin kod yazma işlemlerini atlamanızı sağlayacaktır fakat size yine istatistiksel teorilerin varsayımlarını, iş bilgisi gibi konularını bilmeniz gerekmektedir. Bu yüzden model kurarken, istatistiksel testler yaparken varsayımlarını ve konuyla alakalı kavramları/yöntemleri/metodolojileri bilmeniz gerekmektedir.
1. “Rcmdr” Kütüphanesi
R Commander(Rcmdr) olarak ulaşabileceğimiz kütüphanede sol üstten aktif veri setini yükleyerek işlemlerinizi yapabilirsiniz. Bu kütüphane sayesinde 3D grafikler oluşturmanız mümkün. İstatistiksel testleri, regresyon modellerini rahatlıkla yapabilirsiniz. Graphs başlığı altından hedef bağımlı değişkenini ya da seçtiğin parametreler arasında çok sayıda farklı görseli kullanabilirsiniz.
```{r} install.packages("Rcmdr") library(Rcmdr) ```
2. “rattle” Kütüphanesi
Rattle kütüphanesi ile hedef değişkeni(bağımlı değişkeni, istediğiniz herhangi bir parametre de olabilir) seçtikten sonra işlemlere başlayabiliyorsunuz. İstediğiniz şekilde gruplandırabiliyorsunuz ya da kümeleme, sınıflandırma, birliktelik analizlerini yapabiliyorsunuz. Kod yazmadan bu işlemleri yapabilmek, kodlama bilmeyen kişilerin bunları yapabilmesi, makine öğrenmesi algoritmaları yapabilmesi büyük olay hocam. Bu kütüphaneyi kurcalayıp öğrenin. Gerekli kıymeti verin ve neyi nasıl yaptığını öğrenin. Şahsen ben öğrenciyken ödevlerimi yaparken bu kütüphaneye “Nasılsın Yiğidim” diye hal hatır soruyordum. Emeği çok bende. Kıymetli bir kütüphane.
```{r} install.packages("rattle") #yükleme işlemleri bazı bilgisayarlarda ve R programının sürümlerine göre zorluk çıkartabiliyor. Eğer yüklenmede ve kurulumda bir sorun çıkarsa RGtk2 kütüphanesini de yükleyin. library(rattle) rattle()```
Komutu ile çalıştırabilirsiniz. Veri görselliği, istatistiksel testler, makine öğrenmesinin havalı isimleri olan algoritmaları, birliktelik analizleri, sınıflandırma ve kümeleme gibi birçok farklı çalışmaları yapabilirsiniz fakat rattle kütüphenesi ile aynı zamanda yapay sinir ağları modeli de oluşturabilirsiniz.
3. AmeliaView()
Eksik verilerilerle ilgili bir kütüphanedir. Amelia kütüphesi içinde AmeliaView ile eksik verilerinizi doldurabilir, imputasyon, eksik verilerinizde görsellik yapabilirsiniz.
```{r} install.packages("Amelia") library(Amelia) AmeliaView() ```
Komutu ile çalıştırabilirsiniz. Eksik verilerinizin bulunduğu veri setini yükleyip işlemlerinizi gerçekleştirebilirsiniz.
4. MissingdataGUI
İsminden de görüldüğü gibi eksik verilerle ilgili bir kütüphane. Eksik verinin görselleştirilmesi, doldurulması gibi birçok işlemi kolaylıkla yapabiliyorsunuz.
```{r} install.packages("MissingDataGUI") library(MissingDataGUI) ```
RGtk2 ile çalışan bu kütüphanede(indirirken rattle kütüphanesi ile aynı sorunu yaşamanız durumunda kütüphaneyi tekrar indirmeyi deneyin, farklı kaynaklardan github’dan yükleyebilirsiniz.
5. GGobi
GGobi kütüphanesi ile verilerinizi kolaylıkla görselleştirebilirsiniz. Eskiden rattle kütüphanesi ile beraber yükleniyordu, sonra ayrı bir kütüphane oldu(versiyonlarına göre değişiyor sanırım), kendi internet sitesi var ve oradan da program şeklinde indirebilirsiniz. Veri görselleştirme işini kolaylaştıran bir uygulama.
```{r} install.packages("rggobi") library(rggobi) #ekran açılmazsa ggobi(dataset) olarak çalıştırabilirsiniz. Eğer hiç çalışmıyorsa korkmayın kendi internet sitesinden kütüphaneyi indirebilir ve program gibi kullanabilirsiniz.http://www.ggobi.org ```
Eğer veri bilimi alanında çalışacaksanız ve R programını öğreniyorsanız, bu kütüphaneler ile kod yazımını öğrenmeyi ertelediğinizi unutmamak gerekir. Evet böyle güzel kütüphaneler(pokemonlar) var fakat kod yazımını da öğrenmek önemli.
Günümüzde artık firmalar için en önemli şeylerin başında veri gelmekte. Büyük yatırımlar yapılıyor. Onların hem saklanması için, hem işlenebilmesi için hem de satışının gerçekleşmesi için(bknz. Facebook verileri). Gelecekte veriye dokunamayan mesleklerin varlıklarının tehlikeye gireceğini düşünmekteyim bu sebeple ne iş yapıyorsanız yapın, hangi alanda çalışıyor olursanız olun kıyısından köşesinden de olsa veri ile iç içe olacağız çünkü mecburuz. Artık her şey veri üretiyor ve onları da siz yönetiyorsunuz. Yani sizin karakteriniz var, o duygularla içselleştiriyorsunuz ve içeriğini dolduruyorsunuz. Günümüzde beyaz eşyalar bile internet üzerinden veri üretiyor, sizinle etkileşime geçiyor. Artık her şey veri üretiyor ve başta veri bilimciler, veri analistleri, veri mühendisleri veya veriye dokunan her çalışana analiz edilecek veri setleri üretiyoruz. Bu sebeple yazımın başında belirttiğim gibi pazarlama birimlerinin hedefinde(veri üretenlere yani herkese ilgileneceği ürünü satmak, öneri yapmak gibi düşünebilirsiniz hedef kelimesini) olduğumuzu hatırlatmak isterim, segmentasyonlarına belki de uç değer, gürültülü veri, ortalamadan sapan veri olarak veri setlerinde yerimizi alıyoruz.
Bunları yazmamım sebebi, veri okur-yazarlığını öğrenmeniz çünkü çağ, Veri Çağı.
Saygılarımla.
Yorumlar
Yorum Gönder
Please do not enter any spam link in the comment box.