Merhaba arkadaşlar! Bu yazımızda veri madenciliği olarak adlandırılan bilgisayar biliminin en kapsamlı ve önemli konularından birini inceleyeceğiz. Tanımını yapmamız gerekirse veri madenciliği; konu ile ilgili uzmanlardan, gözlem ve deneyler sonucunda elde edilen verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilginin genelleme yapacak şekilde çıkarılmasıdır.

Veri madenciliği programları genellikle veri içindeki gizli ilişki ve örüntüleri ortaya çıkarabilmek için kullanılır. Bu durum özellikle pazarlama şirketlerinin işine geliyor ve veri madenciliği bu alanlarda oldukça yaygın. Bir şirket için sattığı ürünün kimler tarafından en çok ne zaman satın alındığını bilmek ve ona gore yatırımlar yapmak gerçekten büyük önem taşıyor. Yalnızca pazarlama-satış alanlarında değil tıp, eğitim, bankacılık gibi sahalarda da veri madenciliği oldukça ön planda. Bu yöntemle belli bir hastalığın hangi bölgede kaç insanı etkilediğini görmek çok daha kolay oluyor. Bu iki örnekte gördüğümüz gibi veri madenciliği günümüzde hızla büyüyen bilgi yığınını anlayabilmek ve derinlerine inebilmek adına gerçekten büyük önem taşıyor.

Bilgi Keşif Süreci (Knowledge Discovery Process) olarak da adlandırılan veri madenciliği, elbette tek bir adımdan oluşmuyor. Birbirini takip eden bir çok döngü ve alınan geri dönütler sonucu tüm bu bilgiler toplanarak çözüme ulaşılıyor. Bu sürecin adımlarının ise temel olarak aşağıdaki gibi olduğunu söyleyebiliriz:

  1. Çözülmesi istenen problemin anlaşılması
  2. Eldeki verinin yorumlanması
  3. Veri hazırlığı (Veri temizliği ve ön işleme)
  4. Modelleme(Veri madenciliği algoritmaları)
  5. Değerlendirme (Kullanılan algoritmaların performans kontrolü)
  6. Tertip

Veri madenciliğinin günümüzde tıp, finans, reklamcılık, pazarlama gibi bir çok alanda kullanıldığından bahsetmiştik. Veri madenciliği kullanım alanlarına göre farklılık gösterirken aynı zamanda veri içinde aranan örüntü türüne göre de çeşitlenebiliyor. Bu kullanım araçlarından en popüler olanlarını listede görebiliriz:

  • Sınıflandırma
  • Kümelendirme
  • Ortak noktaları belirleme
  • Görselleştirmek – Kullanıcı için kolaylaştırma
  • Özetlemek – Bir grubu tanımlama
  • Tahmin yürütme
  • Bağlantı Kurma - İlişkilendirme

Veri Madenciliği ile Veri Sorgulama

Veri sorgulama dediğimiz tabir kullanıcının arama motorlarında ya da veri tabanında aramak üzere yazdığı kelimeler olarak açıklanabilir. Veritabanı ile etkileşim kurabilmek amacıyla yazılmış dillere sorgu dili (query language) denir. Bu dillerin arasında en çok bilinen standart ise Yapılandırılmış Sorgu Dili(Structured Query Language) olarak adlandırılır. Bu iki yöntem arasındaki farkları incelemeye çalışalım. Veri Sorgulama kısmında belli bir örüntünün varlığı sorgulanırken veri madenciliğinde ise veri içinde bulunan tüm örüntüler kullanıcıya sunuluyor.

Bebek Bezi - Bira ilişkisi

Wal-Mart yönetimi müşteri kartı sisteminden veri toplayıp bu verileri birleştirmeye karar verdi. Bu veriler ile müşterilerin ne zaman, nerede, neler satın aldığı görülebiliyordu. Bu kombinler sonucu farklı ürünlerin satışı arasında bir çok bağlantı olduğu ortaya çıktı. Bu bağlantıların bir kısmı tahmin edilebilir bağlantılardı, cin alan insanların ardından tonik ve limon satın alması gibi. Asıl beklenmeyen sonuç ise bebek bezi ve bira arasındaki ilişkiydi. Görülen o ki, cuma akşamları bebek bezi alan erkekler, ardından bira almaya meyilliydi. Bu bağıntıyı kimse öngörmüyordu ve sorgulanması akla gelmeyecek bir ilişkiydi. Bu nedenle bebek bezi – bira örneği veri madenciliği ile veri sorgulaması arasındaki farkı açıklayan mükemmel bir örnek.

Gün geçtikçe teknoloji ve bilgisayar bilimindeki yenilikler veri yığını oluşturmaya devam ediyor. Veri madenciliği ise bu veri yığınının anlamlı bilgilere dönüşmesinde büyük rol oynuyor ve şimdiden görebiliyoruz ki veri madenciliğinde atılması gereken daha bir çok adım var. Bu yazımızda da elimizden geldiğince bu konuyu işlemeye çalıştık. Bir sonraki yazımızda görüşmek üzere!

Kaynakça