Apa itu data mining?

Sejumlah besar data dihasilkan setiap detik dan perlu untuk memiliki pengetahuan yang berbeda alat penambangan data yang dapat digunakan untuk menangani data besar ini dan menerapkan algoritma dan visualisasi data mining yang menarik dalam waktu singkat.

Penambangan data Ini adalah seperangkat metodologi yang digunakan dalam analisis data dari berbagai dimensi dan perspektif, menemukan pola tersembunyi yang sebelumnya tidak diketahui, mengklasifikasikan dan mengelompokkan data dan merangkum hubungan yang diidentifikasi.

Misalnya, penambangan data dapat membantu perusahaan mengidentifikasi pelanggan terbaik mereka. Organisasi dapat menggunakan teknik penambangan data untuk menganalisis pembelian pelanggan tertentu sebelumnya dan memprediksi apa yang bisa dibeli oleh pelanggan di masa mendatang. Anda juga dapat menyoroti pembelian yang tidak biasa bagi pelanggan dan dapat mengindikasikan penipuan.

Perusahaan dapat menggunakan untuk menemukan inefisiensi dalam proses manufaktur, cacat produk potensial atau kelemahan dalam rantai pasokan.

Sejarah penambangan data

Salah satu artikel pertama yang menggunakan frase "data mining" diterbitkan oleh Michael C. Lovell pada tahun 1983. Pada saat itu, Lovell dan banyak ekonom lainnya memiliki pandangan yang cukup negatif terhadap praktik tersebut, percaya bahwa statistik dapat mengarah pada kesimpulan. salah bila tidak diberi informasi oleh subjek.

Tetapi pada 1990-an, gagasan untuk mengekstraksi nilai dari data dengan mengidentifikasi pola telah menjadi jauh lebih populer. Basis data dan penyedia data warehouse mulai menggunakan kata kunci untuk memasarkan perangkat lunak mereka. Dan perusahaan mulai menyadari manfaat potensial dari praktik tersebut.

Pada tahun 1996, sekelompok perusahaan yang termasuk Teradata dan NCR memimpin proyek untuk menstandarisasi dan memformalkan metodologi penambangan data. Karyanya menghasilkan Proses Standar Industri untuk Penambangan Data (CRISP-DM). Standar terbuka ini membagi proses penambangan data menjadi enam fase:

  1. Pemahaman bisnis
  2. Pemahaman data
  3. Persiapan data
  4. Pemodelan
  5. Evaluasi
  6. Penempatan

Perusahaan seperti IBM terus mempromosikan model CRISP-DM hingga hari ini, dan pada 2015, IBM merilis versi terbaru yang memperluas model dasar.

Pada awal 2000-an, perusahaan web mulai melihat kekuatan data mining, dan praktiknya benar-benar berjalan. Sementara frasa "penambangan data" telah dikalahkan oleh kata kunci lain seperti "analisis data," "data besar" dan "pembelajaran mesin," prosesnya tetap merupakan bagian integral dari praktik bisnis. Bahkan, wajar untuk mengatakan bahwa penambangan data telah menjadi bagian de facto dari manajemen bisnis modern.

Jenis-jenis data mining

Para ilmuwan dan analis data menggunakan berbagai teknik penambangan data untuk mencapai tujuan mereka. Beberapa yang paling umum meliputi yang berikut:

  • Pengelompokan Ini melibatkan menemukan kelompok dengan karakteristik yang sama. Misalnya, pemasar sering menggunakan pengelompokan untuk mengidentifikasi kelompok dan subkelompok dalam target pasar mereka. Clustering berguna ketika Anda tidak tahu kesamaan apa yang mungkin ada dalam data Anda.
  • Klasifikasi mengklasifikasikan elemen (atau individu) ke dalam kategori berdasarkan model yang dipelajari sebelumnya. Klasifikasi sering muncul setelah pengelompokan (meskipun Anda juga dapat melatih sistem untuk mengklasifikasikan data berdasarkan kategori yang ditentukan oleh ilmuwan atau analis data). Pengelompokan mengidentifikasi kelompok potensial dalam kumpulan data yang ada, dan klasifikasi menempatkan data baru dalam kelompok yang sesuai. Sistem visi komputer juga menggunakan sistem klasifikasi untuk mengidentifikasi objek dalam gambar.
  • Asosiasi Identifikasi data yang biasanya ditemukan berdekatan satu sama lain. Ini adalah teknik yang menggerakkan sebagian besar mesin rekomendasi, seperti kapan Amazon Dia menyarankan bahwa jika Anda membeli item, Anda mungkin juga menyukai item lain.
  • Deteksi anomali Cari data yang tidak sesuai dengan pola yang biasa. Teknik-teknik ini sangat berguna untuk deteksi penipuan.
  • Regresi Ini adalah alat statistik yang lebih maju yang umum dalam analisis prediktif. Ini dapat membantu jejaring sosial dan pengembang aplikasi seluler meningkatkan partisipasi, dan juga dapat membantu memperkirakan penjualan di masa mendatang dan meminimalkan risiko. Regresi dan klasifikasi juga dapat digunakan bersama dalam model pohon yang berguna dalam berbagai situasi.
  • Penambangan teks menganalisis seberapa sering orang menggunakan kata-kata tertentu. Ini dapat berguna untuk analisis perasaan atau kepribadian, serta untuk menganalisis publikasi di jejaring sosial untuk tujuan pemasaran atau untuk mendeteksi kemungkinan kebocoran data karyawan.
  • Ringkasannya menempatkan sekelompok data dengan cara yang lebih ringkas dan mudah dipahami. Misalnya, Anda dapat menggunakan ringkasan untuk membuat grafik atau menghitung rata-rata dari kumpulan data yang diberikan. Ini adalah salah satu bentuk penambangan data yang paling dikenal dan dapat diakses.

Alat penambangan data

Organisasi memiliki beragam alat penambangan data yang dapat mereka gunakans kepemilikan dan sumber terbuka. Alat-alat ini termasuk gudang data, alat ELT, alat pembersih data, dasbor, alat analisis, alat analisis teks, alat intelijen bisnis dan lain-lain.

Pos terkait

Back to top button