KATEGORI: DATA MINING
Data Mining | Gambaran BESAR
Pengertian, sejarah, implementasi dan proses dalam Data Mining kita bahas lengkap disini.
Kehadiran data saat ini sudah membuka banyak perhatian mata. Seluruh hal apapun sekarang bisa dijadikan entitas data; diantaranya dalam sektor kesehatan, pendidikan, pemerintahan, industri bahkan kehidupan pribadi kita juga dan masih banyak lagi.
Data merupakan objek yang mengandung informasi yang benar dan nyata, sehingga dapat di jadikan dasar analisis atau kesimpulan. Mungkin dulu tanpa pemahaman data, kita lebih banyak melakukan permainan tebak-menebak tanpa mengetahui dasar yang memperkuat tebakan kita.
1. Pengertian Data Mining
Lalu apa kaitan data dengan yang akan kita bahas hari ini? Data Mining sendiri diketahui juga Knowledge Discovery in Data (gak bisa basa engress wkwkwk), artinya Proses Penemuan Informasi dalam data. Dari sinilah hasil analisis dan kesimpulan bisa kita temukan.
Data Mining atau bahasa Indonesianya Penggalian Data adalah menemukan pola dan informasi bermakna lainnya dalam data. Seperti yang kita tahu, data sudah dapat ditemukan dimana saja, namun bagaimana mengolah data yang tidak bersih/biasa-biasa saja menjadi informasi yang sangat bermakna diperlukan pengetahuan khusus lagi, yaitu Data Mining.
2. Sejarah Data Mining
Istilah lain Data Mining sendiri yaitu Knowledge Discovery in Data (KDD) telah di gunakan oleh Gregory Piatetsky-Shapiro pada workshop pertama-kalinya yang membawa topik KDD di tahun 1989. Dia seorang founder dan presiden dari KDNuggets, sebuah situs website diskusi dan belajar yang berfokus pada Business Analytics, Data Mining dan Data Science.
Istilah kata Data Mining mulai digunakan dalam komunitas database pada tahun 1990. Perusahaan retail/ritel dan komunitas keuangan menggunakannya untuk analisa data dan mengenali pola tren penjualan dari tahun-ke-tahun, sehingga meningkatkan jumlah kelompok konsumen, mengetahui barang kebutuhan konsumen, menentukan harga barang yang sesuai dan lain-lain.
Setelah tahun-tahun penemuan tersebut, semakin banyak perkembangan metode-metode dalam Data Mining yang akan kita bahas nanti. Juga seperti yang saya katakan di awal, makin bervariasi sektor-sektor yang menggunakan Data Mining.
3. Implementasi Data Mining
Manfaat teknik Data Mining di gunakan secara luas oleh tim analis data. Sebelumnya saya sudah memberi tahu bahwa banyak sektor yang sudah membuka mata terhadap data. Sekarang kita akan bahas lebih lanjut lagi.
Pendidikan
Banyak platform kursus online yang mengumpulkan data untuk meningkatkan performa dan kenyamanan siswa saat belajar. Anggaplah ini online, mereka dapat mengumpulkan berbagai data seperti tombol-tombol yang di tekan siswa, waktu yang dihabiskan pada situs tersebut, juga lama waktu yang dibutuhkan siswa menyelesaikan soal-soal yang kita berikan dan lain-lain.
Hasil informasi yang di dapatkan bisa berbagai macam tergantung tujuan kita. Ada yang menggunakan data setiap siswa untuk memprediksi performa siswa tersebut kedepannya. Dengan mengetahui hal tersebut, mungkin kita bisa memberikan perhatian khusus bagi siswa yang telah di prediksi bahwa performanya akan menurun.
Keamanan Jaringan
Dalam masa pandemi ini, jaringan internet menjadi kunci peran penting untuk memastikan banyak kegiatan-kegiatan itu bisa dilakukan secara daring. Sehingga tim Network Engineer dalam platform-platform online juga memastikan kita pengguna layanan mereka itu lancar dan tentunya aman.
Salah satunya adalah mengandalkan data. Data yang bisa dikumpulkan seperti interval waktu-ke-waktu pengakses situs menekan tombol, perubahan trafik yang dihasilkan, dan lain-lain.
Sedangkan hasil informasi tersebut bisa digunakan untuk mendeteksi bot, mendeteksi akun yang sedang di retas, dan masih banyak lagi. Sayangnya memang masih sedikit pengembangannya Data Mining dalam bidang ini, tapi bagusnya kita bisa ber-eksplorasi lebih jauh (siapa tau punya penemuan kan).
Sales dan Marketing
Sales dan Marketing memiliki peranan penting untuk memperkenalkan pada khalayak ramai tentang produk kita. Data Mining disini memberikan manfaat seperti memprediksi tren produk penjualan di masa yang akan datang, mengurangi biaya usaha untuk pemasaran produk, menjadi dasar dari pengambilan keputusan untuk perusahaan, dan lain-lain.
3 sektor diatas hanyalah contoh aplikasi penggunaan Data Mining. Masih banyak pengembangan di berbagai sektor yang kita bisa jelajahi dan teliti lagi.
4. Proses dalam Data Mining
Dalam proses melakukan data mining, sudah ada Step-by-Step yang disebut CRISP-DM. Singkatan dari Cross-Industry Standard Process for Data Mining, versi 1.0 ini pertama kali di perkenalkan pada Workshop di Brussels bulan Maret 1999.
Walaupun situs website CRISP-DM sudah lama tidak aktif, kehadirannya tetap dikenal. Bagaimana bisa situs website yang seharusnya jadi identitas utama CRISP-DM sudah tidak aktif, tapi masih dikenal banyak orang? Karena IBM adalah perusahaan utama yang menggunakan proses CRISP-DM, karena itu dokumen-dokumen lama CRISP-DM masih tersedia untuk di download. Bukan hanya itu, CRISP-DM mampu menjawab berbagai pertanyaan proses dalam Data Mining, sehingga banyak yang mengadopsi metodologi ini.
Proses CRISP-DM ini fleksibel dan dapat disesuaikan dengan mudah. Misalnya kita ingin mendeteksi korupsi yang baru saja terjadi, kemungkinan besar kita akan berurusan dengan mengolah data dalam jumlah besar tanpa tujuan pemodelan (modelling atau membuat prediksi) tertentu. Pekerjaan kita akan lebih fokus terhadap eksplorasi dan visualisasi data untuk mengungkap pola yang mencurigakan dalam setiap transaksi keuangan.
Dalam situasi seperti itu, mungkin tahap Modelling, Evaluation dan Deployment tidak begitu relevan untuk mencapai tujuan kita. Namun, penting juga untuk mempertimbangkannya kembali sesuai dengan kebutuhan kita.
Ada 6 tahap proses CRISP-DM yang akan kita bahas disini:
1) Business Understanding
Untuk memahami permasalahan dan tujuan yang ingin dicapai atau diselesaikan, kita perlu bekerja sama dengan konsumen dan stakeholder. Stakeholder adalah semua individu, kelompok masyarakat ataupun komunitas yang memiliki hubungan dan juga kepentingan dalam organisasi atau perusahaan. Setelah itu, kita harus menentukan data-data relevan yang perlu dikumpulkan untuk membantu kita menjawab pertanyaan yang bisa menentukan tujuan proyek organisasi atau perusahaan ini sebenarnya.
2) Data Understanding
Pada tahap ini kita sudah masuk dalam Visualisasi dan memerhatikan kualitas data. Seperti melihat distribusi data, statistika dasar dari data, analisis dasar terhadap data, sehingga kita tau sifat dataset yang saat ini dimiliki seperti apa. Untuk mengetahui kualitas data yang didapatkan bisa dengan menggunakan 2 contoh poin pertanyaan berikut;
- Apakah informasi dari data tersebut sudah lengkap? Juga diharapkan dapat menjawab seluruh pertanyaan penting nanti?
- Katakanlah data tersebut memiliki Missing Value (Nilai Hilang), kapan hal itu terjadi, dan bagaimana itu bisa terjadi?
Mungkin saja informasi dan data yang dimiliki sekarang belum dapat menunjang tujuan Organisasi / Perusahaan, maka kita bisa kembali lagi ke tahap Business Understanding.
3) Data Preparation
Dalam tahap ketiga ini, dataset yang sebelumnya kita dapatkan sudah cukup menunjang pengolahan data untuk mencapai tujuan organisasi / perusahaan. Namun, keadaan data saat ini masih belum bersih. Bersih sendiri dalam bagian data diartikan sebagai data yang sudah mudah di baca sebagai seorang analis data seperti kita.
Tentukan informasi kolom / baris yang dibutuhkan dan tidak. Kita harus menentukan kriteria berdasarkan relevansi kehadiran data untuk mencapai tujuan. Selama dalam tahap ini, jangan lupa siapkan alasan kenapa kalian menghilangkan informasi tersebut.
Carilah bukti seberapa baik keterkaitan data dengan tujuan organisasi atau perusahaan. Inilah tahap yang perlu di lakukan setelah kita puas dengan kualitas data saat ini. Contoh mencari bukti, misalkan kita ingin menentukan harga rumah, tentunya kita juga harus tau apa saja yang mempengaruhi kenaikan dan penurunan harga rumah, seperti berapa kamarnya, berapa toiletnya, sedekat apa dengan jarak ke sekolah, dan masih banyak lagi.
4) Modelling
Untuk sampai ke tahap ini, opsional tergantung tujuan awal kita. Ini merupakan tahap dimana data yang telah bersih dan sedikit olahan lagi itu bisa di pelajari oleh mesin dan menghasilkan aplikasi prediktif. Aplikasi prediktif yang dimaksud adalah seperti memprediksi tren penjualan di hari-hari kedepan, mengetahui harga rumah dari spesifikasi yang diberikan dan lain-lain.
Sebelum masuk ke modelling, kita perlu melakukan yang namanya Feature Engineering. Karena sebenarnya data yang sudah bersih tersebut terkadang kolom-kolomnya masih belum bisa dipahami oleh mesin untuk modelling nanti. Saya gak akan bahas lama-lama disini, tapi jika kalian ingin tau lebih lanjut bisa kesini.
5) Evaluation
Memastikan aplikasi model prediktif kita telah memberikan hasil yang cukup memuaskan. Diperlukan seorang yang ahli dalam domain tujuan organisasi atau perusahaan untuk memberikan saran dan evaluasi yang harus di lakukan.
6) Deployment
Terapkan model yang telah dibuat ke produksi. Gunakan interaksi API (Application Programming Interface). Sehingga kita dapat pastikan bahwa aplikasi model kita sudah bisa digunakan pada bagian:
- Situs Website Online
- Spreadsheets
- Dashboards
- Aplikasi Back-End
Tidak bisa menutup kemungkinan juga, bahwa perkembangan zaman meminta kita melakukan otomatisasi dan cepat dalam pengolahan data tersebut. Tapi yang saya percaya adalah untuk melakukan perubahan terhadap kecepatan dan ketepatan, dibutuhkan pengetahuan mendasar dan pengalaman yang kuat. Jadi tetap sabar, pasti bila sudah waktunya, maka akan sampai.
Referensi
https://www.marketerdream.com/apa-itu-stakeholder-contoh-stakeholder/
https://www.slideshare.net/rushabhs002/data-mining-in-marketing-72508089
https://dataconomy.com/2016/06/history-data-mining/
https://www.proglobalbusinesssolutions.com/six-steps-in-crisp-dm-the-standard-data-mining-process/