KDD ve Veri madenciliği
KDD (Veritabanlarında Bilgi Keşfi), insanların sayısallaştırılmış büyük veri koleksiyonlarından yararlı ve önceden bilinmeyen bilgileri (yani bilgi) elde etmelerine yardımcı olan araçları ve teorileri içeren bir bilgisayar bilimi alanıdır. KDD birkaç adımdan oluşur ve Veri Madenciliği bunlardan biridir. Veri Madenciliği, verilerden desen çıkarmak için belirli bir algoritmanın uygulanmasıdır. Bununla birlikte, KDD ve Veri Madenciliği birbirinin yerine kullanılır.
KDD nedir?
Yukarıda belirtildiği gibi KDD, ham verilerden daha önce bilinmeyen ve ilginç bilgilerin çıkarılmasıyla ilgilenen bir bilgisayar bilimi alanıdır. KDD, uygun yöntem veya teknikler geliştirerek veriyi anlamlandırmaya çalışan tüm süreçtir. Bu süreç, düşük seviyeli verilerin daha kompakt, soyut ve kullanışlı olan diğer biçimlere eşlenmesi ile ilgilidir. Bu, kısa raporlar oluşturarak, veri oluşturma sürecini modelleyerek ve gelecekteki vakaları tahmin edebilecek öngörülü modeller geliştirerek elde edilir. Verilerin üstel büyümesi nedeniyle, özellikle iş gibi alanlarda KDD, son birkaç on yılda kalıpların manuel olarak çıkarılması imkansız gibi göründüğü için, bu büyük veri zenginliğini iş zekasına dönüştürmek için çok önemli bir süreç haline gelmiştir. Örneğin, şu anda sosyal ağ analizi, sahtekarlık tespiti, bilim, yatırım, imalat, telekomünikasyon, veri temizleme, spor, bilgi alma ve büyük ölçüde pazarlama için çeşitli uygulamalar için kullanılmaktadır. KDD genellikle Wal-Mart'ta gelecek yıl yüksek kar elde etmenize yardımcı olabilecek ana ürünler nelerdir? Gibi soruları cevaplamak için kullanılır. Bu işlemin birkaç adımı vardır. Uygulama etki alanı ve hedefi hakkında bir anlayış geliştirmek ve ardından bir hedef veri kümesi oluşturmakla başlar. Bunu, verilerin temizlenmesi, önişlenmesi, azaltılması ve projeksiyonu izler. Bir sonraki adım, kalıbı tanımlamak için Veri Madenciliği'ni (aşağıda açıklanmıştır) kullanmaktır. Son olarak, keşfedilen bilgi görselleştirerek ve / veya yorumlanarak pekiştirilir.
Veri Madenciliği Nedir?
Yukarıda belirtildiği gibi, Veri Madenciliği genel KDD süreci içinde sadece bir adımdır. Uygulamanın amacı ile tanımlanan iki büyük Veri Madenciliği hedefi vardır ve bunlar doğrulama veya keşiftir. Doğrulama, kullanıcının verilerle ilgili hipotezini doğrularken, keşif otomatik olarak ilginç desenler buluyor. Dört ana veri madenciliği görevi vardır: kümeleme, sınıflandırma, regresyon ve ilişkilendirme (özetleme). Kümeleme, yapılandırılmamış verilerden benzer grupları tanımlamaktadır. Sınıflandırma, yeni verilere uygulanabilecek öğrenme kurallarıdır. Regresyon, verileri modellemek için minimum hata içeren işlevler bulmaktır. Ve ilişki değişkenler arasındaki ilişkileri arıyor. Ardından, belirli veri madenciliği algoritmasının seçilmesi gerekir. Hedefe bağlı olarak doğrusal regresyon, lojistik regresyon, karar ağaçları ve Naïve Bayes gibi farklı algoritmalar seçilebilir. Daha sonra bir veya daha fazla temsili formdaki ilgi kalıpları aranır. Son olarak, modeller tahmin doğruluğu veya anlaşılabilirlik kullanılarak değerlendirilir.
KDD ve Veri madenciliği arasındaki fark nedir?
KDD ve Veri Madenciliği olmak üzere iki terim birbirinin yerine geçse de, birbiriyle ilişkili ancak biraz farklı kavramlara atıfta bulunurlar. Veri Madenciliği, KDD sürecinin içerisindeki bir adımdır ve verilerdeki veri örüntülerinin tanımlanması ile ilgilenir. Başka bir deyişle, Veri Madenciliği, KDD sürecinin genel amacına dayalı olarak sadece belirli bir algoritmanın uygulanmasıdır.