KDD vs Data Mining
KDD (Penemuan Pengetahuan dalam Database) adalah bidang ilmu komputer, yang mencakup alat dan teori untuk membantu manusia dalam mengekstraksi informasi yang berguna dan sebelumnya tidak diketahui (i.e. pengetahuan) dari koleksi besar data digital. KDD terdiri dari beberapa langkah, dan penambangan data adalah salah satunya. Data Mining adalah aplikasi algoritma spesifik untuk mengekstrak pola dari data. Meskipun demikian, KDD dan penambangan data digunakan secara bergantian.
Apa itu KDD?
Seperti disebutkan di atas, KDD adalah bidang ilmu komputer, yang berkaitan dengan ekstraksi informasi yang sebelumnya tidak diketahui dan menarik dari data mentah. KDD adalah seluruh proses mencoba memahami data dengan mengembangkan metode atau teknik yang tepat. Proses ini menangani pemetaan data tingkat rendah ke dalam bentuk lain yang lebih kompak, abstrak dan bermanfaat. Ini dicapai dengan membuat laporan singkat, memodelkan proses menghasilkan data dan mengembangkan model prediktif yang dapat memprediksi kasus di masa depan. Karena pertumbuhan data yang eksponensial, terutama di bidang -bidang seperti bisnis, KDD telah menjadi proses yang sangat penting untuk mengubah kekayaan besar data ini menjadi intelijen bisnis, karena ekstraksi pola manual telah menjadi mustahil dalam beberapa dekade terakhir. Misalnya, saat ini telah digunakan untuk berbagai aplikasi seperti analisis jejaring sosial, deteksi penipuan, sains, investasi, manufaktur, telekomunikasi, pembersihan data, olahraga, pengambilan informasi dan sebagian besar untuk pemasaran. KDD biasanya digunakan untuk menjawab pertanyaan seperti produk utama apa yang mungkin membantu mendapatkan keuntungan tinggi tahun depan di Wal-Mart?. Proses ini memiliki beberapa langkah. Dimulai dengan mengembangkan pemahaman tentang domain aplikasi dan tujuannya dan kemudian membuat dataset target. Ini diikuti dengan pembersihan, preprocessing, pengurangan dan proyeksi data. Langkah selanjutnya adalah menggunakan penambangan data (dijelaskan di bawah) untuk mengidentifikasi pola. Akhirnya, pengetahuan yang ditemukan adalah konsolidasi dengan memvisualisasikan dan/atau menafsirkan.
Apa itu penambangan data?
Seperti disebutkan di atas, penambangan data hanya merupakan langkah dalam proses KDD secara keseluruhan. Ada dua tujuan penambangan data utama sebagaimana didefinisikan oleh tujuan aplikasi, dan yaitu verifikasi atau penemuan. Verifikasi memverifikasi hipotesis pengguna tentang data, sementara penemuan secara otomatis menemukan pola yang menarik. Ada empat tugas penambangan data utama: pengelompokan, klasifikasi, regresi, dan asosiasi (ringkasan). Clustering mengidentifikasi kelompok serupa dari data yang tidak terstruktur. Klasifikasi adalah aturan pembelajaran yang dapat diterapkan pada data baru. Regresi menemukan fungsi dengan kesalahan minimal untuk memodelkan data. Dan asosiasi sedang mencari hubungan antar variabel. Kemudian, algoritma penambangan data spesifik perlu dipilih. Tergantung pada tujuannya, algoritma yang berbeda seperti regresi linier, regresi logistik, pohon keputusan dan bayes naif dapat dipilih. Kemudian pola minat dalam satu atau lebih bentuk representasional dicari. Akhirnya, model dievaluasi menggunakan akurasi prediktif atau pemahaman.
Apa perbedaan antara KDD dan penambangan data?
Meskipun, dua istilah KDD dan penambangan data sangat digunakan secara bergantian, mereka merujuk pada dua konsep terkait namun sedikit berbeda. KDD adalah proses keseluruhan mengekstraksi pengetahuan dari data sementara penambangan data adalah langkah di dalam proses KDD, yang berkaitan dengan pola pengidentifikasian dalam data. Dengan kata lain, penambangan data hanyalah penerapan algoritma spesifik berdasarkan tujuan keseluruhan dari proses KDD.