temel fark kümeleme ve sınıflandırma arasında kümeleme benzer örnekleri özellikler temelinde gruplandıran gözetimsiz bir öğrenme tekniğidir; sınıflandırma ise özellikler temelinde örneklere önceden tanımlanmış etiketler atayan denetimli bir öğrenme tekniğidir.
Kümeleme ve sınıflandırma benzer süreçler gibi görünse de, aralarında anlamlarına göre bir fark vardır. Veri madenciliği dünyasında, kümeleme ve sınıflandırma iki tür öğrenme yöntemidir. Her iki yöntem de nesneleri bir veya daha fazla özellik ile gruplar halinde karakterize eder.
1. Genel Bakış ve Temel Fark
2. Kümeleme Nedir?
3. Sınıflandırma nedir
4. Yan Yana Karşılaştırma - Tablo Şeklinde Kümeleme ve Sınıflandırma
5. Özeti
Kümeleme, nesneleri, benzer özelliklere sahip nesnelerin bir araya geleceği ve farklı özelliklere sahip nesnelerin ayrılacağı şekilde gruplandırma yöntemidir. Makine öğrenimi ve veri madenciliği için istatistiksel veri analizi için yaygın bir tekniktir. Keşifsel veri analizi ve genelleme de kümelenmeyi kullanan bir alandır.
Şekil 01: Kümeleme
Kümeleme denetimsiz veri madenciliğine aittir. Tek bir spesifik algoritma değildir, ancak bir görevi çözmek için genel bir yöntemdir. Bu nedenle, çeşitli algoritmalar kullanarak kümelemeye ulaşmak mümkündür. Uygun küme algoritması ve parametre ayarları bağımsız veri kümelerine bağlıdır. Bu otomatik bir görev değildir, ancak yinelemeli bir keşif sürecidir. Bu nedenle, sonuç istenen özelliklere ulaşana kadar veri işleme ve parametre modellemesini değiştirmek gerekir. K-araçları kümeleme ve Hiyerarşik kümeleme, veri madenciliğinde iki yaygın kümeleme algoritmasıdır.
Sınıflandırma, nesneleri tanımak, farklılaştırmak ve anlamak için bir eğitim seti kullanan bir sınıflandırma işlemidir. Sınıflandırma, bir eğitim setinin ve doğru tanımlanmış gözlemlerin mevcut olduğu denetimli bir öğrenme tekniğidir.
Resim 02: Sınıflandırma
Sınıflandırmayı uygulayan algoritma sınıflandırıcı, gözlemler ise örneklerdir. K-En Yakın Komşu algoritması ve karar ağacı algoritmaları veri madenciliğinde en ünlü sınıflandırma algoritmalarıdır.
Sınıflandırma denetimli bir öğrenme tekniğidir, öte yandan kümelenme denetimsiz öğrenmedir. Sınıflandırma, özelliklere göre örneklere önceden tanımlanmış etiketler atarken, benzer örnekleri özelliklere göre gruplandırır. Kümeleme, benzer özelliklere sahip örnekleri gruplandırmak için veri kümesini alt kümelere ayırır. Etiketli veri veya eğitim seti kullanmaz. Öte yandan, yeni verileri eğitim setinin gözlemlerine göre sınıflandırın. Eğitim seti etiketlidir.
Kümelemenin amacı, aralarında herhangi bir ilişki olup olmadığını bulmak için bir grup nesneyi gruplamaktır, oysa sınıflandırma, önceden tanımlanmış sınıflar kümesinden hangi nesneye ait olduğunu bulmayı amaçlamaktadır..
Kümeleme ve sınıflandırma benzer görünebilir, çünkü her iki veri madenciliği algoritması veri kümesini alt kümelere ayırır, ancak ham veri koleksiyonundan güvenilir bilgi almak için veri madenciliğinde iki farklı öğrenme tekniğidir. Kümeleme ve sınıflandırma arasındaki fark, kümelemenin benzer örnekleri özelliklere dayalı olarak gruplandıran denetimsiz bir öğrenme tekniğidir, sınıflandırma ise özelliklere dayalı örneklere önceden tanımlanmış etiketler atayan denetimli bir öğrenme tekniğidir..