Analisis Perbandingan Pengukuran Jarak pada Algoritme K-Means Berbasis Sum of Square Error
The marketing strategy is very important to follow the culture of visitors or buyers because it is closely related to people's income levels. A number of visitor data are a data mining model that can extract information to determine the characteristics of each data. The purpose of this research is to compare distance measurements using the k-means clustering algorithm to see the optimal k value and the required time complexity. Using the K-Means clustering method with Euclidean, Manhattan, Minkowsky, Chebyshev, and Canberra distances to calculate the characteristic values of each object. Determining the value of k using the Elbow model which is formed from the Sum of Square Error (SSE) also considers the Mean of Square Error (MSE) value. The results showed that the Euclidean, Manhattan, Minkowsky, and Chebyshev distances can provide the right grouping so that they become an alternative to the Euclidean distance where the time needed by the Manhattan distance is 1.70 seconds faster than the Euclidean distance of 1.78 seconds, Minkowsky distance 1.82 seconds, Chebyshev distance 2.30 seconds and Canberra distance of 2.48 seconds. In conclusion, Euclidean, Manhattan, Minkowsky and Chebyshev distances can be used to measure closeness values between objects with good accuracy while Canberra distance cannot provide precise accuracy. The research resulted in five groups with different characteristics of income and expenses so that they can be used as a standard for developing marketing strategies.
Keywords: K-means; Euclidean; Manhattan; Minkowsky; Chebyshev; Canberra; Sum of square error, Mean of square error.
Strategi pemasaran sangat penting untuk mengikuti budaya pengunjung ataupun pembeli karena erat hubunganya dengan tingkat pendapatan masyarakat. Sejumlah data pengunjung merupakan suatu model data mining yang dapat digali informasinya guna mengetahui karakteristik dari setiap data. Tujuan penelitian ini adalah untuk membandingkan pengukuran jarak pada Algoritme K-means clustering sehingga diperoleh nilai k yang optimal serta kompleksitas waktu yang dibutuhkan. Menggunakan Metode K-Means clustering dengan Euclidean, Manhattan, Minkowsky, Chebyshev dan Canberra distance untuk menghitung nilai karakteristik dari setiap objek. Penentuan nilai k menggunakan kurva Elbow yang dibentuk dari Sum of Square Error (SSE) juga mempertimbangkan nilai Mean of Square Error (MSE). Hasil penelitian menunjukkan Euclidean, Manattan, Minkowsky, Chebyshev distance dapat memberikan pengelompokkan yang tepat sehingga menjadi alternatif pengganti Euclidean distance dimana waktu yang dibutuhkan oleh Manhattan distance sebesar 1.70 detik lebih cepat dibandingkan Euclidean distance 1.78 detik, Minkowsky distance 1.82 detik, Chebyshev distance 2.30 detik dan Canberra distance 2.48 detik. Kesimpulannya, Euclidean, Manhattan, Minkowsky dan Chebyshev distance dapat digunakan untuk mengukur nilai kedekatan antara objek dengan akurasi yang baik sedangkan Canberra distance tidak dapat memberikan akurasi dengan tepat. Penelitian menghasilkan 5 kelompok dengan karakteristik penghasilan dan pengeluaran yang berbeda sehingga dapat dijadikan sebagai standar pengembangan strategi pemasaran.
Kata Kunci: K-means; Euclidean; Manhattan; Minkowsky; Chebyshev; Canberra; Sum of square error; Mean of square error
