AI Prediktif: Mengubah data menjadi insight

AI prediktif (atau analitis) adalah kumpulan algoritma yang membantu Anda memahami data yang ada dan memprediksi apa yang mungkin terjadi selanjutnya. Berdasarkan pola historis, model AI prediktif mempelajari berbagai tugas analisis yang membantu pengguna memahami data mereka:

  • Klasifikasi: Mengelompokkan item ke dalam kategori yang telah ditentukan berdasarkan pola dalam data. Misalnya, toko online dapat mengklasifikasikan pengunjung berdasarkan niat (riset, pembelian, pengembalian), sehingga dapat menyesuaikan rekomendasinya.
  • Regresi: Memprediksi nilai numerik, seperti rasio engagement, durasi sesi, atau probabilitas konversi.
  • Rekomendasi: Menyarankan item yang paling relevan dengan pengguna atau konteks tertentu. Pikirkan "pengguna seperti Anda juga melihat" atau "tutorial yang direkomendasikan berdasarkan progres Anda".
  • Peramalan dan deteksi anomali: Model memprediksi peristiwa mendatang, seperti lonjakan traffic, atau mengidentifikasi perilaku yang tidak biasa, seperti anomali pembayaran atau penipuan.

Beberapa produk dibuat sepenuhnya berdasarkan AI prediktif, seperti alat penemuan musik. Di sisi lain, AI prediktif meningkatkan pengalaman deterministik, seperti situs streaming dengan rekomendasi yang dipersonalisasi. AI prediktif juga dapat menjadi pendorong internal yang efektif: Anda dapat menggunakannya untuk menganalisis data produk dan pengguna guna menemukan insight dan memandu tindakan berikutnya yang lebih cerdas.

Loop AI Prediktif

Pengembangan sistem AI prediktif mengikuti siklus iteratif: tentukan peluang Anda, siapkan data Anda, latih model, evaluasi model, dan deploy model.

Setiap langkah mengarah ke langkah berikutnya, dalam lingkaran yang berkelanjutan.
Gambar 1. Meskipun siklus awal dimulai dengan menentukan kasus penggunaan Anda, setiap langkah dilakukan secara berurutan, lalu dimulai lagi setelah men-deploy model.

Bayangkan Anda sedang mengerjakan aplikasi produktivitas berbasis langganan, yaitu Do All The Things. Anda sudah mengumpulkan data penggunaan seperti tayangan halaman, durasi sesi, penggunaan fitur, dan perpanjangan langganan. Sekarang, Anda ingin mengekstrak nilai yang lebih dapat ditindaklanjuti dari data. Berikut cara Anda melakukan perjalanan melalui loop AI prediktif.

Tentukan kasus penggunaan Anda

Blueprint sistem Do All The Things.
Gambar 2. Cetak biru sistem Anda untuk aplikasi Do All the Things. Buka diagram berukuran penuh.

Rasio churn Anda meningkat selama tiga bulan terakhir. Daripada bereaksi setelah pengguna membatalkan, Anda sebaiknya menggunakan AI prediktif untuk mengidentifikasi pengguna yang cenderung melakukan churn, sebelum mereka membatalkan. Tujuannya adalah untuk mendukung tim kesuksesan pelanggan Anda dengan sinyal awal, sehingga mereka dapat mengambil tindakan proaktif yang ditargetkan untuk mempertahankan pengguna yang berisiko.

Saat menentukan kasus penggunaan AI prediktif, mulailah dengan memvalidasi bahwa pertanyaan tersebut dapat dijawab dengan data. Data ini dapat berupa data yang sudah Anda kumpulkan atau data yang dapat Anda kumpulkan secara realistis ke depannya. Langkah ini sering kali memerlukan kolaborasi dengan pakar domain, seperti tim customer success, pertumbuhan, atau pemasaran, untuk memastikan prediksi bermakna dan dapat ditindaklanjuti.

Definisi masalah yang kuat harus menentukan:

  • Sasaran: Hasil bisnis apa yang ingin Anda pengaruhi? Misalnya, Anda ingin mengurangi churn dengan mengaktifkan penjangkauan proaktif.
  • Data input: Sinyal historis apa yang dipelajari model? Misalnya, Anda memberikan pola penggunaan, jenis paket, dan interaksi dukungan.
  • Output: Apa yang akan dihasilkan model? Misalnya, Anda ingin model membuat skor probabilitas churn untuk setiap pengguna.
  • Pengguna: Siapa yang menggunakan atau bertindak berdasarkan prediksi? Misalnya, data ini ditujukan untuk manajer keberhasilan pelanggan.
  • Kriteria keberhasilan: Bagaimana cara Anda mengukur dampak? Misalnya, Anda mengukur rasio retensi untuk menentukan apakah Anda telah mengurangi churn.

Dengan mengidentifikasi detail ini di awal, Anda dapat menghindari jebakan umum: membuat model kustom yang secara teknis bagus, tetapi tidak pernah digunakan.

Menyiapkan data

Untuk memberikan sinyal pembelajaran yang berguna pada model, Anda perlu memberi label pada data historis dengan prediksi yang ideal. Beri label pengguna Do All The Things sebagai "churn" atau "tidak churn".

Selanjutnya, berkolaborasi dengan tim kesuksesan pelanggan untuk mengidentifikasi fitur perilaku yang paling relevan dengan prediksi churn. Persempit set data Anda ke fitur utama ini dan hapus kolom yang tidak perlu agar model Anda tidak perlu menangani derau. Jangan lupa untuk mempertimbangkan privasi data. Menghapus informasi identitas pribadi (PII), seperti nama atau email, dan hanya menyimpan data perilaku gabungan.

Tabel berikut menunjukkan kutipan dari set data yang dihasilkan:

user_id plan_type avg_session_time (min) logins_last_30d features_used support_tickets churned
00123 premium 12.4 22 5 0 0
00124 uji coba 5,8 3 1 2 1
00125 gratis 18.1 30 7 0 0
00126 premium 9.7 12 4 1 0
00127 uji coba 4.2 2 1 3 1
Tabel 1: Kutipan dari set data untuk prediksi churn.

Hal ini memberikan input numerik dan kategoris yang bersih (seperti plan_type atau avg_session_time) dan label target yang jelas (churned) untuk model Anda. Kategori harus dikonversi menjadi ID numerik unik.

Terakhir, pisahkan set data Anda menjadi tiga subset:

  • Set pelatihan (biasanya sekitar 70 hingga 80%) untuk mengajari model,
  • Set validasi (terkadang juga disebut set pengembangan) untuk menyetel hyperparameter dan mencegah overfitting.
  • Set pengujian untuk mengevaluasi performa model pada data yang belum pernah dilihat sebelumnya.

Hal ini membantu model Anda menggeneralisasi keputusan, bukan mengandalkan contoh historis yang dihafal.

Melatih model

Tidak seperti AI generatif, yang sering kali dibangun di atas model terlatih besar, sebagian besar sistem AI prediktif mengandalkan model yang dilatih sendiri. Hal ini karena tugas prediktif sangat spesifik untuk produk dan pengguna Anda. Alat seperti scikit-learn (Python), AutoML (tanpa kode atau low-code), atau TensorFlow.js (JavaScript) mempermudah pelatihan dan evaluasi model prediksi tanpa perlu mengkhawatirkan matematika yang mendasarinya.

Dalam contoh churn, kita memasukkan set pelatihan yang sudah dibersihkan ke dalam algoritma klasifikasi yang diawasi, seperti regresi logistik atau jaringan neural. Coba beberapa opsi untuk menentukan opsi mana yang paling cocok untuk data Anda.

Model Anda mempelajari pola perilaku mana yang berkorelasi dengan churn. Pada akhirnya, model ini dapat menetapkan skor probabilitas kepada setiap pengguna. Misalnya, ada risiko 72% pengguna X akan membatalkan langganan bulan depan.

Setelah setiap iterasi pelatihan, evaluasi model yang dihasilkan menggunakan set validasi. Performa model dapat ditingkatkan dengan menyesuaikan hyperparameter, tetapi juga dengan melakukan peningkatan yang ditargetkan pada set data Anda.

Mengevaluasi model

Label dalam set data Anda memberikan kebenaran dasar yang dapat Anda gunakan untuk membandingkan output model. Metrik utama yang perlu dilacak adalah:

  • Presisi: dari semua pengguna yang ditandai sebagai "berhenti", berapa banyak yang benar-benar berhenti?
  • Recall (Perolehan): dari semua pengguna yang melakukan churn, berapa banyak yang terdeteksi oleh model?
  • Skor F1: satu angka yang menyeimbangkan presisi dan perolehan, berguna saat Anda menginginkan ukuran akurasi secara keseluruhan tanpa mengoptimalkan salah satunya dengan mengorbankan yang lain.

Terlalu banyak positif palsu menyebabkan upaya retensi yang sia-sia, sementara terlalu banyak negatif palsu menyebabkan hilangnya pelanggan. Keseimbangan yang tepat bergantung pada prioritas bisnis Anda. Misalnya, perusahaan Anda mungkin lebih memilih menangani beberapa alarm palsu jika hal itu membuat perusahaan lebih mungkin menjangkau lebih banyak pengguna sebelum mereka keluar.

Men-deploy dan memelihara model

Setelah divalidasi, Anda dapat men-deploy model dengan API atau sebagai layanan sisi klien ringan yang terintegrasi ke dasbor analisis Anda. Setiap hari, alat ini dapat memberi skor kepada pengguna dan memperbarui visualisasi risiko churn, sehingga tim Anda dapat memprioritaskan jangkauan. Agar tetap akurat dan andal, terapkan pelajaran berikut dari tim operasi machine learning (MLOps):

  • Pantau terjadinya penyimpangan data: Mendeteksi saat perilaku pengguna berubah dan data pelatihan Anda tidak lagi merepresentasikan kenyataan.
    • Misalnya, setelah meluncurkan desain ulang UI yang signifikan, pengguna berinteraksi dengan fitur secara berbeda, sehingga prediksi churn menjadi kurang akurat.
  • Belajar dari kesalahan: Identifikasi pola umum di balik kesalahan prediksi dan tambahkan contoh yang ditargetkan untuk meningkatkan siklus pelatihan berikutnya.
    • Misalnya, model sering menandai pengguna berat sebagai risiko churn karena mereka membuka banyak tiket dukungan. Setelah peninjauan, Anda menambahkan fitur baru yang membedakan pemecahan masalah dari pengabaian.
  • Latih ulang secara rutin: Meskipun performa terlihat stabil, perbarui model secara berkala untuk memperhitungkan pola musiman, update produk, atau perubahan harga.
    • Misalnya, Anda melatih ulang model setelah memperkenalkan paket tahunan, karena struktur harga mengubah perilaku pengguna sebelum memperpanjang langganan.

Siklus proses ini adalah fondasi AI prediktif. Dengan alat seperti MLflow dan Weights & Biases, Anda dapat menjalankan proses ini tanpa keahlian ML yang mendalam.

Kesalahan umum dan mitigasi

Meskipun sesekali terjadi error, Anda dapat mencegah penyebab masalah umum yang dapat menurunkan performa dan kepercayaan pengguna:

  • Data berkualitas rendah: Jika data input Anda berisik atau tidak lengkap, prediksi Anda juga akan demikian. Untuk memitigasi, visualisasikan, dan validasi data Anda sebelum melakukan pelatihan. Pastikan Anda memiliki sinyal pembelajaran yang diperlukan dan tangani nilai yang tidak ada. Pantau kualitas data dalam produksi.
  • Overfitting: Model berperforma sangat baik pada data pelatihan, tetapi gagal dalam kasus baru. Untuk mengurangi risiko ini, gunakan validasi silang, regularisasi, dan set data cadangan. Hal ini membantu model Anda melakukan generalisasi di luar contoh pelatihan.

  • Penyimpangan data: Perilaku dan lingkungan pengguna berubah, tetapi model Anda tidak. Untuk memitigasi, jadwalkan pelatihan ulang dan tambahkan pemantauan untuk mendeteksi kapan akurasi mulai menurun.

  • Metrik buruk: Akurasi keseluruhan tidak selalu mencerminkan prioritas pengguna Anda. Misalnya, terkadang, "biaya" dari kesalahan tertentu lebih penting. Dalam deteksi penipuan, melewatkan kasus penipuan (negatif palsu) jauh lebih buruk daripada menandai kasus yang tidak bersalah (positif palsu). Untuk memitigasi, selaraskan metrik dengan sasaran dunia nyata untuk deteksi penipuan.

Sebagian besar masalah ini tidak fatal. Luncurkan sistem Anda secara bertahap, dan atasi masalah yang muncul.

Kunci dari pendekatan yang efisien dan fleksibel ini adalah kemampuan observasi. Buat versi model Anda, catat karakteristik akurasi dan alat yang digunakan untuk membuat model, lacak performa dari waktu ke waktu, dan terus aktifkan pemantauan. Jika ada yang menyimpang atau rusak, Anda dapat mendeteksi dan memperbaiki masalah tersebut sebelum pengguna menyadarinya.

Kesimpulan Anda

AI Prediktif mengubah data yang ada menjadi pandangan ke depan, yang mengungkapkan apa yang mungkin terjadi selanjutnya dan tempat untuk bertindak. AI ini adalah bentuk AI yang paling konkret dan terukur. Berfokuslah pada masalah yang terdefinisi dengan baik yang dapat dinyatakan dalam data, terus beriterasi seiring perkembangan produk Anda, dan pantau performa dari waktu ke waktu.

Dalam modul berikutnya, Anda akan mempelajari AI generatif, yang membantu Anda membuat sesuatu yang baru berdasarkan data yang tersedia.

Resource

Jika Anda tertarik untuk memahami matematika di balik AI prediktif, sebaiknya tinjau referensi berikut:

Periksa pemahaman Anda

Apa fungsi utama AI Prediktif?

Untuk membuat konten baru seperti teks atau gambar.
AI Prediktif tidak membuat konten baru.
Untuk memahami data yang ada dan memprediksi apa yang mungkin terjadi selanjutnya.
Bagus, jawaban Anda benar.
Untuk menggantikan semua pengambilan keputusan manusia dengan agen otonom.
Jawaban Anda salah.
Untuk membuat antarmuka percakapan bagi pengguna.
Kurang tepat.

Tugas mana yang melibatkan pengelompokan item ke dalam kategori yang telah ditentukan berdasarkan pola?

Regresi.
Jawaban Anda salah. Regresi adalah prediksi model nilai numerik, seperti rasio engagement.
Perkiraan.
Jawaban Anda salah. Peramalan adalah saat model memprediksi peristiwa mendatang atau mengidentifikasi perilaku yang tidak biasa.
Mengklasifikasi.
Bagus, jawaban Anda benar.
Rekomendasi.
Jawaban Anda salah.

Dalam "loop AI Prediktif", mengapa Anda harus membagi set data menjadi set pelatihan, validasi, dan pengujian?

Untuk meningkatkan ukuran set data secara buatan.
Jawaban Anda salah.
Untuk membantu model menggeneralisasi keputusan, bukan mengandalkan contoh historis yang dihafal.
Bagus, jawaban Anda benar.
Untuk memastikan model berjalan lebih cepat dalam produksi.
Jawaban Anda salah.
Untuk memisahkan data menurut lokasi pengguna.
Jawaban Anda salah.

Metrik mana yang menyeimbangkan presisi dan perolehan untuk memberikan ukuran akurasi secara keseluruhan?

Skor akurasi
Jawaban Anda salah.
Rasio churn
Jawaban Anda salah.
Skor F1
Bagus, jawaban Anda benar.
Latensi
Jawaban Anda salah.

Apa itu penyimpangan data, dan bagaimana cara memitigasinya?

Saat model kehabisan ruang penyimpanan, beli lebih banyak.
Jawaban Anda salah.
Saat model berhalusinasi fakta, gunakan teknik pembuatan perintah untuk mengoreksi output.
Jawaban Anda salah.
Jika perilaku pengguna berubah dan data pelatihan tidak lagi merepresentasikan kenyataan, latih ulang model.
Bagus, jawaban Anda benar.
Jika koneksi API gagal, gunakan penyedia lain.
Jawaban Anda salah.