Veri bilimi, veri bilimciliği, veri mühendisliği şüphesiz günümüzün en popüler mesleklerinden biri. Veri analizi yüksek matematik gerektirmeyen, ancak iyi bir istatistik bilgisiyle güzel işler başarabileceğiniz bir alan. Veri analizinin kodlama diliyle birleşmesi sonucu çıkan ürünler ise gerçekten muazzam..
Yapay zeka çağına girmemizle birlikte verilerin toplanması, analiz edilmesi ve raporlanması bambaşka bir boyuta taşındı. Öyle ki; bir internet sitesinde bir ürün araştırdıktan sonra farklı bir sitede gezinirken karşınıza o ürün ile ilgili reklam çıkması bu alanda geliştirilen bir ürün.
Metin madenciliği kavramı ile istediğiniz veriye anında ulaşabilmeniz bu gelişimin bir ürünü. Ya da makina öğrenmesi denilen kavram ile bir algoritma geliştirip programcılığı başka bir boyuta taşıyarak farklı ürünler yaratmak gerçekten inanılmaz. Veri alanında en çok kullanılan kodlama dilinin Python olduğu bilinmekte.
Veri ile ilgili bilgiyi toplayıp, gerekli hesaplamalar sonucunda elde edilen analizlerin basite indirgenmesi ve raporlanması işlemini yapan kişilere veri analisti diyoruz. Analiz edilmeye hazır verileri kodlama diliyle yapay zeka sayesinde zaman ve işlem maliyetini en aza indirgeyerek algoritamalara raporlatan kişilere ise veri bilimci ya da veri mühendisi diyoruz.
Günümüzde hemen hemen her alanda ve her sektörde veri analizlerine ihtiyaç duyulmakta. Bu ihtiyaç inovasyonlarla birleşince ortaya çıkan ürünler ise oldukça başarılı.
Yazılım mühendisliğine benzer bir şekilde veri mühendisliği çağımızın mesleği olarak kabul ediliyor.
Günümüzde kullanılan “chatbot” adı verilen yapay zeka asistanları -örneğin siri- veya kredi değerleme sisteminde bankanın çıkardığı raporlar bu gelişimlerin bir sonucudur. Siriden örnek vermek gerekirse, yukarıda bahsettiğimiz makina öğrenmesi sistemiyle program kodlanır, metinler programa ezberletilir. Bunun sonucunda sizin söyledikleriniz programın bu cümleleri ezber arşivinden bulup, farklı şekillerde yorumlanmasını sağlar.
Veya bir kredi kuruluşundan kredi kullanacak olduğunuz zaman bankanın geçmiş verilerinizden sizin borç ödeme durumunuzu saniyeler içinde analiz etmesi de veri mühendisliği alanının bir ürünüdür.
Veri analizi çok kapsamlı bir konu olmakla beraber, başlangıç için istatistik gerekli görülür. Veriler analiz edilirken aritmetik ortalama, mod, medyan, standart sapma gibi matematiksel fonksiyonlardan yararlanılır. Veri analizleri genel itibariyle nicel ve objektif olmasından dolayı hesaplamalar çok sık kullanılır. Ve bu kullanılan fonksiyonlar lisede görmüş olduğunuz mod, medyan konularından bir tık daha yukarı taşınmış durumdadır. Standart sapmadan geliştirilmiş olarak “basıklık, çarpıklık” gibi hesaplamalar yapılabilir.
Veri Okuryazarlığı Nedir?
Veri okuryazarlığı; değişken, ölçek, betimsel istatistik ve istatistiksel grafikleri kullanarak veriyi değerlendirebilme yeteneğidir.
Veri analizleriyle ilgili bilmeniz gerekenler:
- Popülasyon : Bir verinin toplandığı hedef kitle.
- Örneklem : Popülasyonu temsil eden, seçilmiş topluluk
- Gözlem Birimi : Örneklemin her bir birimi, verinin toplandığı birim
Örneklemek gerekirse; Türkiye’de seçimler için bir anket yapıldığını düşünelim. Burada popülasyon Türk vatandaşlarıdır. Ancak burada tüm popülasyona ulaşmak neredeyse mümkün değildir. Bunu yerine popülasyonu çok iyi temsil edecek, tarafsız bir örneklem seçilir. Bu örneklem genelde Türkiye’de seçim zamanı 2000 kişiden oluşur. Örneklemden alınan sonuçlar Türkiye genelini temsil edecek şekilde yayınlanır. Gözlem birimi ise, ankete katılan her bir insan ve gözlemlenen en alt birimdir.
Değişenler ve Değişken Türleri;
Sayısal Değişkenler (Nicel, kantitatif)
- Aralık Ölçek
- Oran Ölçek
Kategorik Değişkenler (Nitel, kalitatif)
- Nominal
- sıra
İsimlerinden anlaşılacağı üzere aralarındaki temel fark sayılabilir veya sayılamaz olmalarıdır. Sayısal değişkenlere örnek olarak yaş bilgisi, kitap okuma oranları gibi örnekler verilebilir. Aralık ölçekte bir ölçüm 0’ın altında negatif bir değer alabiliirken oran ölçekte bulunan değerin 0’dan yüksek olma koşuludur.
Kategorik değişkenler ise cinsiyet, tür gibi sayısal bilgi içermeyen değişkenlerdir. Nominal değişkenlerde tüm değişkenler eşitken ordinal değişkende üstünlük söz konusudur. Örneğin kadın ve erkek değişkenlerinin arasında bir üstünlük söz konusu olmadığı için nominal bir değişkendir. Ancak değişkenler, eğitim seviyesine göre seçilmiş olsaydı üstünlük söz konusu olacağı için bu değişkenlere ordinal değişken diyecektik.
İstatistiksel Düşünce Modelleri.
İstatistiksel düşünce modelleri şu şekilde sıralanabilir.
- Verinin tanımlanması
- Verinin organize edilmesi ve indirgenmesi
- Veri gösterimi
- Verinin analiz edilmesi ve yorumlanması
Veri analizlerinde istatistiksel ögelerden yararlanma;
Merkezi Eğilim Ölçüleri :
Aritmetik ortalama : Bir değişkendeki tüm değerlerin toplanarak birim sayısına bölünmesi ile elde edilen rakam
Medyan : Bir seriyi büyükten küçüğe ya da tam tersi sıraladığımız zaman seriyi tam ortadan iki eşit parçaya ayıran rakamdır. Formülü şu şekilde;
- n tek ise ; n+1/2.terim
- n çift ise (n/2.terim) + (n/2+1.terim)
Burada şunu belirtelim; eğer seri simetrik değilse aritmetik ortalama doğru sonuç vermez. Örneğin 1 4 6 2 6 7 250 sayılarının aritmetik ortalaması aykırı tabir edilen bir sonuç verecektir. Diğer rakamlar birbirine yakınken, çok yüksek bir rakam ortalamayı olması gerekenden farklı bir yere çekebilir. Bu noktada medyan hesaplanması daha doğru olacaktır.
Mod : Bir seride en çok tekrar eden değere mod denir. Bunun bir formülü yok. Ya algoritmalarla tespit edilebilir ya da parmak hesabı tek tek sayarsınız…
Kartilller : Yabancı kaynaklarda “Quartilles” olarak geçebilir. Küçükten büyüğe sıralanan bir seriyi 4 eşit parçaya böler. Mantık olarak ilk aşamada ortadan bölünür, daha sonra %25 sağa, %25 sola kayılır. Amacı uzayan serilerin yapısını daha kapsamlı inceleyebilmektir. Q harfi ile ifade edliir. Q1 : Birinci Çeyrek, Q2 : İkinci Çeyrek, Q3 : Üçüncü çeyrek anlamına gelir.
Formülü şu şekilde;
- Q1 = 1/4 x (n+1).terim
- Q3 = 3/4 x (n+1).terim
- Q2 = Q3 – Q1
Dağılım Ölçüleri :
Değişim Aralığı : Bir serideki en büyük değerden en küçük değerin çıkarılmasıyla elde edilen sonuçtur.
Standart Sapma : Standart sapma konusu veri analizinde normal istatistiğe göre farklı bir hâl almış. Mantıken ortalamadan olan sapmayı ölçmek için kullanılır. Formulü şu şekilde;
S = 1/n . (xi – x^) olarak ifade edilir.
Burada dikkat edilmesi gereken husus; yukarıdaki formülün sıfır verecek olmasıdır. Sıfır vermemesi için formülden elde edilen rakamın 1/n ile çarpılmadan önce karesi alınır. Kareleri alınan serideki tüm rakamlar toplandıktan sonra alınan kare iptal edilir ve sayı köke indirgenir. Daha sonra çıkan sonuç ile 1/n çarpılır.
Varyans ise bu aşamada standart sapmanın karesi alınmadan önceki hâlidir.
Çarpıklık : Bir serinin dağılımının simetrik olmayışıdır. Çarpıklık formülü şu şekilde oluşur;
3.(x^-medyan)/Standart Sapma
Çıkan sonuç 0’dan küçükse negatif çarpık, büyükse pozitif çarpık olarak tanımlanır. Sıfıra eşitse çarpılık yoktur.
Basıklık : m4’ün s üssü 4 e bölünmesi ile bulunur. (m=moment)