Veri Madenciliği ve Bilimsel Araştırma Süreci

Bugün sıklıkla duymaya başladığımız veri madenciliği ifadesi, genel itibariyle veri setlerinden anlamlı ve kullanışlı bilgiler elde etme süreci olarak tanımlanabilir. Bilgi teknolojileri ile küçülen dünyada, organizasyonlar veya bireyler için veri toplamak, yavaş yavaş önemli bir problem olmaktan çıkmakta ve esas problem toplanan verilerin depolanması ve analiz edilmesine evrilmektedir. Her bir alışveriş, attığımız her bir elektronik posta, hatta bastığımız her bir klavye tuşu ile büyük veri setlerinin oluşumuna bir katkı da biz sağlamaktayız. İşte oluşan bu veri yığınlarının analizi veri madenciliği araç ve teknikleri ile mümkün olmaktadır. Veri madenciliği araçlarının ve tekniklerinin yetenekleri; öngörüleme, sınıflama, tahmin etme, tanımlama, kümeleme ve veriler arası örüntüler yakalama olarak kabaca sıralanabilir. Bu yeteneklerin bazıları mevcut durumu ortaya koyan “Ne?” sorusuna cevap ararken, bazıları ise geleceğe yönelik açıklamalarda bulunmak için “Ne olacak” sorusuna yanıt aramaktadır. “Büyük veri” ve “veri madenciliği” kavramlarının tanımlamalarını ve bu kavramların günümüzde geldiği nokta ve içerdikleri anlamları bir başka yazıya bırakıp bu yazıda veri madenciliğinin bilimsel araştırma sürecine etkisi üzerinde durmak istiyorum.

Bir bilimsel araştırma süreci döngüsü, araştırmacının bir sorun hissetmesi ile başlayan ve sorununa bir çözüm getirmesi (veya getirememesi) ile biten döngüsel bir süreçtir. Bu süreç dahilinde araştırmacı kabaca; sorununu bir bilimsel araştırma problemi haline dönüştürür, araştırma hipotezleri kurar, veriler toplar, hipotezlerini sınamak için analizler yapar.

Veri madenciliği tekniklerini temel istatistiksel tekniklerden ayıran özeliklerden birisi de veri madenciliğinin veri kümeleri içerisinde bulunan gizli bilgileri ortaya çıkarmaya yönelik olmasıdır. Geleneksel istatistiksel metotlarla veri kümelerinden beklenmeyen bilgi çıkarımı mümkündür ancak veri madenciliği direk olarak veri kümesi içerisinde gizli ilişki, örüntü, birliktelikleri ortaya çıkarmaya yöneliktir. Bu haliyle bir veri madencisinin, bilimsel araştırma süreci klasik bir biçimde -bir sorun hissetmesi ile- başlamayabilir.  Onun için sorunun kendi zaten yığın halinde ortada duran büyük veri kümeleridir. Araştırma başında kurulacak hipotezlerde bazen anlamını yitirebilir (Tabi çok genel hipotez cümlelerinden bahsetmiyorum). Zira veri kümesi içinde gizli bilgileri ortaya çıkarmaya yönelik bir araştırmada bulunan sonuçlar daha önce hissedilmemiş ve dolayısıyla araştırma problemine dönüştürülememiş ve hipotez cümleleri oluşturulamamış bilgilerdir.

Sonuç olarak; veri madenciliği enstrümanlarının klasik araştırma süreci ezberini bozduğunu söylemek çok da yanlış olmaz.

NOT: Yazının başında kullanılan resim;  www.brainlesstales.com sitesinden alınmıştır. Orjinal resim için tıklayınız