AI prediktif (atau analitis) adalah kumpulan algoritma yang membantu Anda memahami data yang ada dan memprediksi apa yang mungkin terjadi selanjutnya. Berdasarkan pola historis, model AI prediktif mempelajari berbagai tugas analisis yang membantu pengguna memahami data mereka:
- Klasifikasi: Mengelompokkan item ke dalam kategori yang telah ditentukan berdasarkan pola dalam data. Misalnya, toko online dapat mengklasifikasikan pengunjung berdasarkan niat (riset, pembelian, pengembalian), sehingga dapat menyesuaikan rekomendasinya.
- Regresi: Memprediksi nilai numerik, seperti rasio engagement, durasi sesi, atau probabilitas konversi.
- Rekomendasi: Menyarankan item yang paling relevan dengan pengguna atau konteks tertentu. Pikirkan "pengguna seperti Anda juga melihat" atau "tutorial yang direkomendasikan berdasarkan progres Anda".
- Peramalan dan deteksi anomali: Model memprediksi peristiwa mendatang, seperti lonjakan traffic, atau mengidentifikasi perilaku yang tidak biasa, seperti anomali pembayaran atau penipuan.
Beberapa produk dibuat sepenuhnya berdasarkan AI prediktif, seperti alat penemuan musik. Di sisi lain, AI prediktif meningkatkan pengalaman deterministik, seperti situs streaming dengan rekomendasi yang dipersonalisasi. AI prediktif juga dapat menjadi pendorong internal yang efektif: Anda dapat menggunakannya untuk menganalisis data produk dan pengguna guna menemukan insight dan memandu tindakan berikutnya yang lebih cerdas.
Loop AI Prediktif
Pengembangan sistem AI prediktif mengikuti siklus iteratif: tentukan peluang Anda, siapkan data Anda, latih model, evaluasi model, dan deploy model.
Bayangkan Anda sedang mengerjakan aplikasi produktivitas berbasis langganan, yaitu Do All The Things. Anda sudah mengumpulkan data penggunaan seperti tayangan halaman, durasi sesi, penggunaan fitur, dan perpanjangan langganan. Sekarang, Anda ingin mengekstrak nilai yang lebih dapat ditindaklanjuti dari data. Berikut cara Anda melakukan perjalanan melalui loop AI prediktif.
Tentukan kasus penggunaan Anda
Rasio churn Anda meningkat selama tiga bulan terakhir. Daripada bereaksi setelah pengguna membatalkan, Anda sebaiknya menggunakan AI prediktif untuk mengidentifikasi pengguna yang cenderung melakukan churn, sebelum mereka membatalkan. Tujuannya adalah untuk mendukung tim kesuksesan pelanggan Anda dengan sinyal awal, sehingga mereka dapat mengambil tindakan proaktif yang ditargetkan untuk mempertahankan pengguna yang berisiko.
Saat menentukan kasus penggunaan AI prediktif, mulailah dengan memvalidasi bahwa pertanyaan tersebut dapat dijawab dengan data. Data ini dapat berupa data yang sudah Anda kumpulkan atau data yang dapat Anda kumpulkan secara realistis ke depannya. Langkah ini sering kali memerlukan kolaborasi dengan pakar domain, seperti tim customer success, pertumbuhan, atau pemasaran, untuk memastikan prediksi bermakna dan dapat ditindaklanjuti.
Definisi masalah yang kuat harus menentukan:
- Sasaran: Hasil bisnis apa yang ingin Anda pengaruhi? Misalnya, Anda ingin mengurangi churn dengan mengaktifkan penjangkauan proaktif.
- Data input: Sinyal historis apa yang dipelajari model? Misalnya, Anda memberikan pola penggunaan, jenis paket, dan interaksi dukungan.
- Output: Apa yang akan dihasilkan model? Misalnya, Anda ingin model membuat skor probabilitas churn untuk setiap pengguna.
- Pengguna: Siapa yang menggunakan atau bertindak berdasarkan prediksi? Misalnya, data ini ditujukan untuk manajer keberhasilan pelanggan.
- Kriteria keberhasilan: Bagaimana cara Anda mengukur dampak? Misalnya, Anda mengukur rasio retensi untuk menentukan apakah Anda telah mengurangi churn.
Dengan mengidentifikasi detail ini di awal, Anda dapat menghindari jebakan umum: membuat model kustom yang secara teknis bagus, tetapi tidak pernah digunakan.
Menyiapkan data
Untuk memberikan sinyal pembelajaran yang berguna pada model, Anda perlu memberi label pada data historis dengan prediksi yang ideal. Beri label pengguna Do All The Things sebagai "churn" atau "tidak churn".
Selanjutnya, berkolaborasi dengan tim kesuksesan pelanggan untuk mengidentifikasi fitur perilaku yang paling relevan dengan prediksi churn. Persempit set data Anda ke fitur utama ini dan hapus kolom yang tidak perlu agar model Anda tidak perlu menangani derau. Jangan lupa untuk mempertimbangkan privasi data. Menghapus informasi identitas pribadi (PII), seperti nama atau email, dan hanya menyimpan data perilaku gabungan.
Tabel berikut menunjukkan kutipan dari set data yang dihasilkan:
user_id |
plan_type |
avg_session_time (min) |
logins_last_30d |
features_used |
support_tickets |
churned |
| 00123 | premium | 12.4 | 22 | 5 | 0 | 0 |
| 00124 | uji coba | 5,8 | 3 | 1 | 2 | 1 |
| 00125 | gratis | 18.1 | 30 | 7 | 0 | 0 |
| 00126 | premium | 9.7 | 12 | 4 | 1 | 0 |
| 00127 | uji coba | 4.2 | 2 | 1 | 3 | 1 |
Hal ini memberikan input numerik dan kategoris yang bersih (seperti
plan_type atau avg_session_time) dan label target yang jelas (churned) untuk model Anda.
Kategori harus dikonversi menjadi ID numerik unik.
Terakhir, pisahkan set data Anda menjadi tiga subset:
- Set pelatihan (biasanya sekitar 70 hingga 80%) untuk mengajari model,
- Set validasi (terkadang juga disebut set pengembangan) untuk menyetel hyperparameter dan mencegah overfitting.
- Set pengujian untuk mengevaluasi performa model pada data yang belum pernah dilihat sebelumnya.
Hal ini membantu model Anda menggeneralisasi keputusan, bukan mengandalkan contoh historis yang dihafal.
Melatih model
Tidak seperti AI generatif, yang sering kali dibangun di atas model terlatih besar, sebagian besar sistem AI prediktif mengandalkan model yang dilatih sendiri. Hal ini karena tugas prediktif sangat spesifik untuk produk dan pengguna Anda. Alat seperti scikit-learn (Python), AutoML (tanpa kode atau low-code), atau TensorFlow.js (JavaScript) mempermudah pelatihan dan evaluasi model prediksi tanpa perlu mengkhawatirkan matematika yang mendasarinya.
Dalam contoh churn, kita memasukkan set pelatihan yang sudah dibersihkan ke dalam algoritma klasifikasi yang diawasi, seperti regresi logistik atau jaringan neural. Coba beberapa opsi untuk menentukan opsi mana yang paling cocok untuk data Anda.
Model Anda mempelajari pola perilaku mana yang berkorelasi dengan churn. Pada akhirnya, model ini dapat menetapkan skor probabilitas kepada setiap pengguna. Misalnya, ada risiko 72% pengguna X akan membatalkan langganan bulan depan.
Setelah setiap iterasi pelatihan, evaluasi model yang dihasilkan menggunakan set validasi. Performa model dapat ditingkatkan dengan menyesuaikan hyperparameter, tetapi juga dengan melakukan peningkatan yang ditargetkan pada set data Anda.
Mengevaluasi model
Label dalam set data Anda memberikan kebenaran dasar yang dapat Anda gunakan untuk membandingkan output model. Metrik utama yang perlu dilacak adalah:
- Presisi: dari semua pengguna yang ditandai sebagai "berhenti", berapa banyak yang benar-benar berhenti?
- Recall (Perolehan): dari semua pengguna yang melakukan churn, berapa banyak yang terdeteksi oleh model?
- Skor F1: satu angka yang menyeimbangkan presisi dan perolehan, berguna saat Anda menginginkan ukuran akurasi secara keseluruhan tanpa mengoptimalkan salah satunya dengan mengorbankan yang lain.
Terlalu banyak positif palsu menyebabkan upaya retensi yang sia-sia, sementara terlalu banyak negatif palsu menyebabkan hilangnya pelanggan. Keseimbangan yang tepat bergantung pada prioritas bisnis Anda. Misalnya, perusahaan Anda mungkin lebih memilih menangani beberapa alarm palsu jika hal itu membuat perusahaan lebih mungkin menjangkau lebih banyak pengguna sebelum mereka keluar.
Men-deploy dan memelihara model
Setelah divalidasi, Anda dapat men-deploy model dengan API atau sebagai layanan sisi klien ringan yang terintegrasi ke dasbor analisis Anda. Setiap hari, alat ini dapat memberi skor kepada pengguna dan memperbarui visualisasi risiko churn, sehingga tim Anda dapat memprioritaskan jangkauan. Agar tetap akurat dan andal, terapkan pelajaran berikut dari tim operasi machine learning (MLOps):
- Pantau terjadinya penyimpangan data: Mendeteksi saat perilaku pengguna berubah dan data pelatihan Anda tidak lagi merepresentasikan kenyataan.
- Misalnya, setelah meluncurkan desain ulang UI yang signifikan, pengguna berinteraksi dengan fitur secara berbeda, sehingga prediksi churn menjadi kurang akurat.
- Belajar dari kesalahan: Identifikasi pola umum di balik kesalahan prediksi dan tambahkan contoh yang ditargetkan untuk meningkatkan siklus pelatihan berikutnya.
- Misalnya, model sering menandai pengguna berat sebagai risiko churn karena mereka membuka banyak tiket dukungan. Setelah peninjauan, Anda menambahkan fitur baru yang membedakan pemecahan masalah dari pengabaian.
- Latih ulang secara rutin: Meskipun performa terlihat stabil, perbarui model secara berkala untuk memperhitungkan pola musiman, update produk, atau perubahan harga.
- Misalnya, Anda melatih ulang model setelah memperkenalkan paket tahunan, karena struktur harga mengubah perilaku pengguna sebelum memperpanjang langganan.
Siklus proses ini adalah fondasi AI prediktif. Dengan alat seperti MLflow dan Weights & Biases, Anda dapat menjalankan proses ini tanpa keahlian ML yang mendalam.
Kesalahan umum dan mitigasi
Meskipun sesekali terjadi error, Anda dapat mencegah penyebab masalah umum yang dapat menurunkan performa dan kepercayaan pengguna:
- Data berkualitas rendah: Jika data input Anda berisik atau tidak lengkap, prediksi Anda juga akan demikian. Untuk memitigasi, visualisasikan, dan validasi data Anda sebelum melakukan pelatihan. Pastikan Anda memiliki sinyal pembelajaran yang diperlukan dan tangani nilai yang tidak ada. Pantau kualitas data dalam produksi.
Overfitting: Model berperforma sangat baik pada data pelatihan, tetapi gagal dalam kasus baru. Untuk mengurangi risiko ini, gunakan validasi silang, regularisasi, dan set data cadangan. Hal ini membantu model Anda melakukan generalisasi di luar contoh pelatihan.
Penyimpangan data: Perilaku dan lingkungan pengguna berubah, tetapi model Anda tidak. Untuk memitigasi, jadwalkan pelatihan ulang dan tambahkan pemantauan untuk mendeteksi kapan akurasi mulai menurun.
Metrik buruk: Akurasi keseluruhan tidak selalu mencerminkan prioritas pengguna Anda. Misalnya, terkadang, "biaya" dari kesalahan tertentu lebih penting. Dalam deteksi penipuan, melewatkan kasus penipuan (negatif palsu) jauh lebih buruk daripada menandai kasus yang tidak bersalah (positif palsu). Untuk memitigasi, selaraskan metrik dengan sasaran dunia nyata untuk deteksi penipuan.
Sebagian besar masalah ini tidak fatal. Luncurkan sistem Anda secara bertahap, dan atasi masalah yang muncul.
Kunci dari pendekatan yang efisien dan fleksibel ini adalah kemampuan observasi. Buat versi model Anda, catat karakteristik akurasi dan alat yang digunakan untuk membuat model, lacak performa dari waktu ke waktu, dan terus aktifkan pemantauan. Jika ada yang menyimpang atau rusak, Anda dapat mendeteksi dan memperbaiki masalah tersebut sebelum pengguna menyadarinya.
Kesimpulan Anda
AI Prediktif mengubah data yang ada menjadi pandangan ke depan, yang mengungkapkan apa yang mungkin terjadi selanjutnya dan tempat untuk bertindak. AI ini adalah bentuk AI yang paling konkret dan terukur. Berfokuslah pada masalah yang terdefinisi dengan baik yang dapat dinyatakan dalam data, terus beriterasi seiring perkembangan produk Anda, dan pantau performa dari waktu ke waktu.
Dalam modul berikutnya, Anda akan mempelajari AI generatif, yang membantu Anda membuat sesuatu yang baru berdasarkan data yang tersedia.
Resource
Jika Anda tertarik untuk memahami matematika di balik AI prediktif, sebaiknya tinjau referensi berikut:
- Kursus singkat Machine Learning tentang klasifikasi, regresi linear, dan regresi logistik.
- Penulis kursus Anda, Janna Lipenkova, menulis lebih lanjut tentang topik AI prediktif di bab 4 The Art of AI Product Development: Delivering Business Value.
- Artificial Intelligence: A Modern Approach oleh Stuart Jonathan Russell dan Peter Norvig. Buku ini awalnya diterbitkan pada tahun 1995, dan edisi terbarunya diterbitkan pada tahun 2021. Hal ini biasanya diajarkan dalam program engineering AI.
- Pattern Recognition and Machine Learning oleh Christopher M. Bishop, untuk pendekatan akademis dan sangat komprehensif terhadap pembelajaran AI prediktif.
Periksa pemahaman Anda
Apa fungsi utama AI Prediktif?
Tugas mana yang melibatkan pengelompokan item ke dalam kategori yang telah ditentukan berdasarkan pola?
Dalam "loop AI Prediktif", mengapa Anda harus membagi set data menjadi set pelatihan, validasi, dan pengujian?
Metrik mana yang menyeimbangkan presisi dan perolehan untuk memberikan ukuran akurasi secara keseluruhan?
Apa itu penyimpangan data, dan bagaimana cara memitigasinya?