Data Mining (Veri Madenciliği) Nedir?

Teknolojinin hayatımıza girerek popülerlik kazanmaya başlaması ve herkesin kolayca ulaşabildiği bir meta haline dönüşmesiyle toplanan veri artışını hızlandırmıştır. Kredi kartı verileri, e-posta içerikleri, parmak izleri, tıbbi kayıtlar ve daha pek çok veri toplanmaya devam ediyor. Üstelik veri çeşitliliği de gün geçtikçe artıyor. Bilim insanlarının ortaya attığı tanımlamalar birbirinden farklı olduğu için veri madenciliğinin tanımı hakkında henüz evrensel bir fikir birliği bulunmuyor.

data mining ile ilgili görsel sonucu

Veri madenciliği ile ilgili en çok kullanılan terimleri farklı kaynaklar üzerinden birleştirirsek; ‘Büyük miktarlardaki verinin örüntü bulmak maksadıyla otomatik ya da yarı otomatik yöntemlerle işlenmesi.‘ gibi bir tanım çıkarabiliriz. Veri madenciliği en çok istatistik ve makine öğrenmesi alanlarından besleniyor. Buna ek olarak yapay zeka alanında yapılan gelişmeler de veri madenciliğini etkiliyor. Veri madenciliği, makine öğrenmesi ve yapay zeka aynı tanıma sahip bilimsel disiplinler olarak lanse edilseler de ortak araçları kullanıp farklı amaçları hedefleyen disiplinlerdir. Veri madenciliği, istatistik, veri tabanı teknolojileri, makine öğrenmesi, görselleştirme ve yapay zeka gibi pek çok disiplinden faydalandığı için disiplinler arası bir çalışma olarak kabul edilir. Hangi disiplinin nerede kullanılacağı, gerçekleştirilmek istenen amaca göre değişkenlik gösterir.

Veri Madenciliği ve Makine Öğrenmesi

Black Farmed Eyeglasses in Front of Laptop Computer

Bilgisayarın icadından beri süregelen tartışmalardan bir tanesi de bilgisayarların, insanlar gibi öğrenip öğrenemeyeceğidir. Bilgisayarların öğrenmesini inceleyen bilim dalına makine öğrenmesi adı veriliyor. Eğer bir varlık, davranışlarını, ilerleyen zamanlarda kendisine avantajlı olacak şekilde değiştirebiliyorsa, o varlığın öğrendiğini söyleyebiliriz. Makine öğrenmesini tanımlayacak olursak; Bir bilgisayar, çalıştığı iş üzerindeki performansını tecrübe edindikçe arttırıyorsa, makine öğrenmesinden söz edebiliriz demektir. Makine öğrenmesindeki birkaç süreç şöyle;

  • Konuşulan kelimeleri anlamayı öğrenmek,
  • Satranç oynamayı öğrenmek,
  • Uzay cisimlerini sınıflandırmayı öğrenmek,
  • Araba kullanmayı öğrenmek.

Makine öğrenmesi, pek çok farklı disiplinle ilişkili olduğu gibi veri madenciliğiyle de ilintilidir. Veri madenciliği alanında faydalanılan algoritmaların bazıları, makine öğrenmesi alanında yapılan çalışmalar sonucu ortaya çıkmıştır. Veri madenciliği, makine öğrenmesi ile istatistiğin tam ortasında yer alıyor. Bu önermeyi kanıtlayan bir başka önemli söylem de karar ağaçları ve yakın komşuluk algoritmalarıdır. Bu algoritmalar veri madenciliğinde sınıflama ve kümeleme amacıyla kullanılır. Bu iki algoritmayı özel kılan durum ise tarihsel olarak birbirlerine çok yakın zamanlarda hem makine öğrenmesi hem de istatistik alanında çalışmalar yürüten bilim adamları tarafından, birbirlerinden habersiz şekilde keşfedilmiş olmalarıdır.

Verilerin Toplanması

Ä°lgili resim

Açık veri toplanması genellikle ziyaretçilerin verdiği puanlar, üyelik esnasında ya da anketler aracılığıyla ziyaretçilerin demografik verilerine erişilmesi ve ziyaretçilerin yaptığı tercihlerle sağlanıyor. Tercih verisi, sistemin ziyaretçiye yönelik verileri sunabilmesi adına ziyaretçinin ilgilendiği alanları girmesini kapsıyor. Tercih verileri, hem belirli biz özellik hem de belirli bir öge kategorisi için yapılabilir. Değerleme verisi de hem ayrık sayısal veri formunda hem de ziyaretçinin yaptığı metin bazlı yorumlarla elde edilebilir. Sayısal verilerin kullanımı her ne kadar kolay olsa da yanıltıcı sonuçlar verebilir. Örneğin; bir ziyaretçinin 3 puan verdiği şey, bir başka ziyaretçi için 2 puana denk geliyor olabilir.

Kapalı veri toplama işleminde ise ziyaretçinin site üzerinde yaptığı hareketler izlenerek sağlanır. Amaç yine aynıdır. İnternet sitesinin içeriğine göre ilgi kavramı da farklılık gösterir. Hemen hemen her web sitesinde, ziyaretçinin bir ürün üzerinde çokça vakit geçirmesi, o ürünle ilgilendiği anlamını taşır. Ögenin yer aldığı web adresinin dışında, bir e-ticaret sitesinin herhangi bir ürünün sepete eklenmesi ya da sepetten çıkartılması, sayfanın favorilere eklenmesi ve ziyaret sıklığa da ilgi göstergesi olarak kayda geçilebilir.

Ä°lgili resim

Açık şekilde veri toplama işleminin bir başka maliyetli yanı da, belirli bir amaçlar internet adresine giren ziyaretçiyi özelleştirme sürecine aktif olarak katılmaya zorlamasıdır. 80’li yıllarda IBM tarafından yapılan bir araştırmaya göre kullanıcılar, bir yazılımı kullanmadan önce onu daha rahat edebilecekleri şekilde ayarlamakla uğraşmak istemiyorlar. Buradan da kapalı veri toplama sistemlerinin büyük bir avantaja sahip olduğu öngörülebiliyor. Kapalı veri toplama işleminin en büyük sorunlarından bir tanesi ise ziyaretçilerin yaptığı işlemlerin doğası gereği ziyaretçinin yalnızca ilgilendiği ögeye işaret ediyor olması. Yalnızca pozitif olan bu durumda özelleştirme sisteminin, negatif davranışların da analiz sürecine dahil ederek yeni yöntemler geliştirmesi beklenebilir.

Yazar: Anıl Kerem Öktem
Ajans Kriter Ekibi

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Google fotoğrafı

Google hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Connecting to %s

WordPress.com.

Yukarı ↑

%d blogcu bunu beğendi: