Clustering hierarkis vs partisi
Clustering adalah teknik pembelajaran mesin untuk menganalisis data dan membaginya dengan kelompok data yang serupa. Grup ini atau set data yang serupa dikenal sebagai cluster. Analisis cluster melihat algoritma clustering yang dapat mengidentifikasi cluster secara otomatis. Hierarkis dan partisi adalah dua kelas algoritma pengelompokan seperti itu. Algoritma pengelompokan hierarkis memecah data menjadi hierarki kelompok. Algoritma Parisional Bagilah data yang ditetapkan menjadi partisi yang saling terputus.
Apa itu pengelompokan hierarkis?
Algoritma pengelompokan hierarkis mengulangi siklus menggabungkan kelompok yang lebih kecil ke yang lebih besar atau membagi kelompok yang lebih besar dengan yang lebih kecil. Either way, itu menghasilkan hierarki cluster yang disebut dendogram. Strategi pengelompokan aglomeratif menggunakan pendekatan bottom-up menggabungkan kelompok ke yang lebih besar, sedangkan strategi pengelompokan yang memecah-belah menggunakan pendekatan top-down untuk membagi ke yang lebih kecil. Biasanya, pendekatan serakah digunakan dalam memutuskan klaster mana yang lebih besar/lebih kecil digunakan untuk menggabungkan/membagi. Jarak Euclidean, jarak Manhattan dan kesamaan kosinus adalah beberapa metrik kesamaan yang paling umum digunakan untuk data numerik. Untuk data non-numerik, metrik seperti jarak hamming digunakan. Penting untuk dicatat bahwa pengamatan aktual (instance) tidak diperlukan untuk pengelompokan hierarkis, karena hanya matriks jarak yang cukup. Dendogram adalah representasi visual dari cluster, yang menampilkan hierarki dengan sangat jelas. Pengguna dapat memperoleh pengelompokan yang berbeda tergantung pada level di mana dendogram dipotong.
Apa itu pengelompokan partisi?
Algoritma pengelompokan partisi menghasilkan berbagai partisi dan kemudian mengevaluasinya dengan beberapa kriteria. Mereka juga disebut nonhierarkis karena setiap contoh ditempatkan di salah satu kluster K yang saling eksklusif. Karena hanya satu set cluster adalah output dari algoritma pengelompokan partisial yang khas, pengguna diperlukan untuk memasukkan jumlah kelompok yang diinginkan (biasanya disebut k). Salah satu algoritma pengelompokan partisi yang paling umum digunakan adalah algoritma pengelompokan K-means. Pengguna diminta untuk memberikan jumlah kelompok (k) sebelum memulai dan algoritma pertama memulai pusat (atau centroid) dari partisi K. Singkatnya, algoritma pengelompokan K-means kemudian menugaskan anggota berdasarkan pusat saat ini dan memperkirakan kembali pusat berdasarkan anggota saat ini. Kedua langkah ini diulangi sampai fungsi objektif kesamaan intra-cluster tertentu dan fungsi objektif perbedaan antar-cluster dioptimalkan. Oleh karena itu, inisialisasi pusat yang masuk akal adalah faktor yang sangat penting dalam memperoleh hasil kualitas dari algoritma pengelompokan partisi.
Apa perbedaan antara clustering hierarkis dan partisi?
Clustering hierarkis dan partisional memiliki perbedaan utama dalam waktu berjalan, asumsi, parameter input dan kelompok yang dihasilkan. Biasanya, pengelompokan partisi lebih cepat dari clustering hierarkis. Clustering hierarkis hanya membutuhkan ukuran kesamaan, sedangkan pengelompokan partisi membutuhkan asumsi yang lebih kuat seperti jumlah cluster dan pusat awal. Clustering hierarkis tidak memerlukan parameter input apa pun, sedangkan algoritma pengelompokan partisional memerlukan jumlah kelompok untuk mulai berjalan. Clustering hierarkis mengembalikan pembagian cluster yang jauh lebih bermakna dan subyektif tetapi pengelompokan partisional menghasilkan persis kektor kekt. Algoritma pengelompokan hierarkis lebih cocok untuk data kategorikal selama ukuran kesamaan dapat didefinisikan sesuai.