Tahmine dayalı yapay zeka: Verileri analizlere dönüştürme

Tahmini (veya analitik) yapay zeka, mevcut verileri anlamanıza ve bir sonraki adımda ne olacağını tahmin etmenize yardımcı olan bir algoritma koleksiyonudur. Tahmini yapay zeka modelleri, geçmişteki kalıplara dayanarak kullanıcıların verilerini anlamalarına yardımcı olan farklı analiz görevlerini öğrenir:

  • Sınıflandırma: Öğeleri verilerdeki kalıplara göre önceden tanımlanmış kategorilerde gruplandırın. Örneğin, bir online mağaza ziyaretçileri amaca göre (araştırma, satın alma, iade) sınıflandırabilir ve önerilerini buna göre uyarlayabilir.
  • Regresyon: Etkileşim oranı, oturum süresi veya dönüşüm olasılığı gibi sayısal değerleri tahmin edin.
  • Öneri: Belirli bir kullanıcı veya bağlamla en alakalı öğeleri önerin. "Sizin gibi kullanıcılar da görüntüledi" veya "İlerlemenize göre önerilen eğitimler" gibi önerileri düşünün.
  • Tahmin ve anormallik tespiti: Model, trafik artışı gibi gelecekteki etkinlikleri tahmin eder veya ödeme anormallikleri ya da sahtekarlık gibi olağan dışı davranışları tespit eder.

Bazı ürünler tamamen tahmine dayalı yapay zeka üzerine kuruludur (ör. müzik keşfetme araçları). Diğerlerinde ise tahmini yapay zeka, kişiselleştirilmiş öneriler sunan bir yayın web sitesi gibi deterministik bir deneyimi geliştirir. Tahmine dayalı yapay zeka, güçlü bir dahili destekleyici de olabilir: Ürün ve kullanıcı verilerini analiz ederek analizler elde etmek ve sonraki adımları daha akıllıca yönlendirmek için bu özellikten yararlanabilirsiniz.

Makine Öğrenimi Hızlandırılmış Kursu'na göz atabilirsiniz.

Tahmine dayalı yapay zeka döngüsü

Tahmine dayalı bir yapay zeka sisteminin geliştirilmesi, tekrarlı bir döngüyle gerçekleşir: fırsatınızı tanımlayın, verilerinizi hazırlayın, modeli eğitin, modeli değerlendirin ve modeli dağıtın.

Her adım, sürekli bir daire içinde bir sonraki adımı gösterir.
Şekil 1. İlk döngü kullanım alanınızı tanımlayarak başlasa da her adım sırayla ilerler ve model dağıtıldıktan sonra tekrar başlar.

Aboneliğe dayalı bir üretkenlik uygulaması olan Do All The Things üzerinde çalıştığınızı düşünün. Zaten sayfa görüntülemeleri, oturum süresi, özellik kullanımı ve abonelik yenilemeleri gibi kullanım verilerini topluyorsunuz. Şimdi ise verilerden daha fazla işlem yapılabilir değer elde etmek istiyorsunuz. Tahmine dayalı yapay zeka döngüsünde nasıl ilerleyeceğiniz aşağıda açıklanmıştır.

Kullanım alanınızı tanımlayın

Do All The Things sisteminin planı.
Şekil 2. Do All the Things uygulaması için sistem planınız. Tam boyutlu şemayı açın.

Müşteri kaybı oranınız son üç ayda arttı. Kullanıcılar aboneliklerini iptal ettikten sonra tepki vermek yerine, iptal etmeden önce kullanıcı kaybı olasılığı yüksek olan kullanıcıları belirlemek için tahmini yapay zekayı kullanmak istiyorsunuz. Buradaki amaç, müşteri başarısı ekibinizi erken sinyallerle destekleyerek risk altındaki kullanıcıları elde tutmak için hedefli ve proaktif işlemler yapmalarını sağlamaktır.

Tahmine dayalı yapay zeka kullanım alanını tanımlarken sorunun verilerle yanıtlanabilir olduğunu doğrulayarak başlayın. Bu, daha önce topladığınız veya gelecekte gerçekçi bir şekilde toplayabileceğiniz veriler olabilir. Bu adımda, tahminin hem anlamlı hem de uygulanabilir olması için genellikle müşteri başarısı, büyüme veya pazarlama ekipleri gibi alan uzmanlarıyla işbirliği yapılması gerekir.

Güçlü bir problem tanımı şunları belirtmelidir:

  • Hedef: Hangi işletme sonucunu etkilemeye çalışıyorsunuz? Örneğin, proaktif erişimi etkinleştirerek müşteri kaybını azaltmak istiyorsunuz.
  • Giriş verileri: Model, hangi geçmiş sinyallerden öğrenir? Örneğin, kullanım kalıpları, plan türleri ve destek etkileşimleri sağlarsınız.
  • Çıkış: Model ne üretecek? Örneğin, modelin her kullanıcı için bir müşteri kaybı olasılığı puanı oluşturmasını istiyorsunuz.
  • Kullanıcı: Tahmini kim kullanıyor veya tahmin üzerinde kim işlem yapıyor? Örneğin, bu veriler müşteri başarısı yöneticileri için tasarlanmıştır.
  • Başarı ölçütleri: Etkiyi nasıl ölçüyorsunuz? Örneğin, müşteri kaybını azaltıp azaltmadığınızı belirlemek için elde tutma oranını ölçersiniz.

Bu ayrıntıları en başta belirleyerek yaygın bir hatadan kaçınabilirsiniz: Teknik olarak sağlam olan ancak hiç kullanılmayan özel bir model oluşturmak.

Verileri hazırlama

Modelinize faydalı öğrenme sinyalleri sağlamak için geçmiş verilerinizi ideal tahminlerle etiketlemeniz gerekir. Do All The Things kullanıcılarını "müşteri kaybı" veya "müşteri kaybı değil" olarak etiketleyin.

Ardından, müşteri başarısı ekibinizle birlikte çalışarak müşteri kaybı tahminiyle en alakalı davranışsal özellikleri belirleyin. Veri kümenizi bu temel özelliklerle sınırlandırın ve gereksiz alanları kaldırın. Böylece modelinizin gürültüyle uğraşması gerekmez. Veri gizliliğini göz önünde bulundurmayı unutmayın. Ad veya e-posta gibi kimliği tanımlayabilecek bilgileri (PII) kaldırın ve yalnızca toplu davranış verilerini saklayın.

Aşağıdaki tabloda, sonuçta elde edilen veri kümenizden bir alıntı gösterilmektedir:

user_id plan_type avg_session_time (min) logins_last_30d features_used support_tickets churned
00123 premium 12.4 22 5 0 0
00124 deneme sürümü 5.8 3 1 2 1
00125 ücretsiz 18.1 30 7 0 0
00126 premium 9.7 12 4 1 0
00127 deneme sürümü 4.2 2 1 3 1
Tablo 1: Müşteri kaybı tahmini için bir veri kümesinden alıntı.

Bu sayede modeliniz temiz sayısal ve kategorik girişler (ör. plan_type veya avg_session_time) ve net bir hedef etikete (churned) sahip olur. Kategoriler benzersiz sayısal tanımlayıcılara dönüştürülmelidir.

Son olarak, veri kümenizi üç alt kümeye ayırın:

Bu, modelinizin ezberlenmiş geçmiş örneklerine güvenmek yerine kararları genelleştirmesine yardımcı olur.

Modeli eğitme

Genellikle büyük ve önceden eğitilmiş modeller üzerine kurulu olan üretken yapay zekanın aksine, çoğu tahmini yapay zeka sistemi kendi kendini eğitmiş modellere dayanır. Bunun nedeni, tahmini görevlerin ürününüze ve kullanıcılarınıza özel olmasıdır. scikit-learn (Python), AutoML (kodsuz veya az kodlu) ya da TensorFlow.js (JavaScript) gibi araçlar, temel matematik hakkında endişelenmeden tahmini modelleri eğitip değerlendirmeyi kolaylaştırır.

Müşteri kaybı örneğimizde, temizlenmiş eğitim kümesini lojistik regresyon veya nöral ağ gibi denetimli bir sınıflandırma algoritmasına aktarıyoruz. Verileriniz için en iyi sonucu veren seçeneği belirlemek üzere birden fazla seçeneği deneyin.

Modeliniz, hangi davranış kalıplarının müşteri kaybıyla ilişkili olduğunu öğrenir. Sonunda her kullanıcıya bir olasılık puanı atayabilir. Örneğin, X kullanıcısının önümüzdeki ay iptal etme riski% 72.

Her eğitim yinelemesinden sonra, doğrulama kümesini kullanarak ortaya çıkan modeli değerlendirin. Bir modelin performansı, hiperparametreler ayarlanarak ve veri kümenizde hedeflenen iyileştirmeler yapılarak artırılabilir.

Modeli değerlendirme

Veri kümenizdeki etiketler, model çıkışlarını karşılaştırabileceğiniz kesin referansı sağlar. İzlenecek temel metrikler şunlardır:

  • Kesinlik: "Müşteri kaybı" olarak işaretlenen tüm kullanıcıların kaçı gerçekten müşteri kaybı yaşadı?
  • Geri çağırma: Müşteri kaybı yaşayan tüm kullanıcılar arasında modelin yakaladığı kullanıcı sayısı.
  • F1 puanı: Hassasiyet ile geri çağırmayı dengeleyen tek bir sayıdır. Birini diğerinin pahasına aşırı optimize etmeden genel bir doğruluk ölçüsü istediğinizde kullanışlıdır.

Çok fazla yanlış pozitif sonuç, elde tutma çabalarının boşa gitmesine neden olurken çok fazla yanlış negatif sonuç, müşteri kaybına yol açar. Doğru denge, işletmenizin önceliklerine bağlıdır. Örneğin, şirketiniz daha fazla kullanıcıyı ayrılmadan önce yakalama olasılığını artırıyorsa birkaç yanlış alarmı tercih edebilir.

Modeli dağıtma ve sürdürme

Doğrulandıktan sonra modeli, analiz kontrol panelinize entegre edilmiş bir API veya basit bir istemci taraflı hizmet olarak dağıtabilirsiniz. Her gün kullanıcıları puanlayabilir ve müşteri kaybı riski görselleştirmesini güncelleyebilir. Böylece ekibiniz, iletişime öncelik verebilir. Doğru ve güvenilir kalması için makine öğrenimi operasyonları (MLOps) ekiplerinin şu derslerini uygulayın:

  • Veri kaymasını izleme: Kullanıcı davranışının değiştiği ve eğitim verilerinizin artık gerçekliği yansıtmadığı zamanları tespit edin.
    • Örneğin, büyük bir kullanıcı arayüzü yeniden tasarımını kullanıma sunduktan sonra kullanıcılar özelliklerle farklı şekilde etkileşime girer ve bu da müşteri kaybı tahminlerinin daha az doğru olmasına neden olur.
  • Hatalardan ders çıkarma: Yanlış tahminlerin arkasındaki ortak kalıpları belirleyin ve sonraki eğitim döngüsünü iyileştirmek için hedeflenmiş örnekler ekleyin.
    • Örneğin, model, çok sayıda destek kaydı açtıkları için sık sık ileri düzey kullanıcıları müşteri kaybı riski olarak işaretliyor. İncelemenin ardından, sorun gidermeyi etkileşim kesintilerinden ayıran yeni özellikler eklersiniz.
  • Düzenli olarak yeniden eğitin: Performans sabit görünse bile mevsimsel kalıpları, ürün güncellemelerini veya fiyatlandırma değişikliklerini hesaba katmak için modeli düzenli olarak yenileyin.
    • Örneğin, yıllık planları kullanıma sunduktan sonra modeli yeniden eğitirsiniz. Çünkü fiyatlandırma yapısı, kullanıcıların yenilemeden önce nasıl davrandığını değiştirir.

Bu yaşam döngüsü, tahmine dayalı yapay zekanın temelini oluşturur. MLflow ve Weights & Biases gibi araçlarla bu süreci derinlemesine makine öğrenimi uzmanlığı olmadan yürütebilirsiniz.

Sık karşılaşılan sorunlar ve çözümleri

Zaman zaman hatalar oluşsa da performansı ve kullanıcı güvenini zedeleyebilecek yaygın temel nedenlere karşı önlem alabilirsiniz:

  • Düşük kaliteli veriler: Giriş verileriniz gürültülü veya eksikse tahminleriniz de gürültülü veya eksik olur. Eğitimden önce verilerinizi görselleştirerek ve doğrulayarak riskleri azaltın. Gerekli öğrenme sinyallerine sahip olduğunuzdan ve eksik değerleri işlediğinizden emin olun. Üretimdeki veri kalitesini izleyin.
  • Aşırı uyum: Model, eğitim verilerinde çok iyi performans gösterir ancak yeni durumlarda başarısız olur. Bu sorunu azaltmak için çapraz doğrulama, düzenlileştirme ve ayrılmış veri kümeleri kullanın. Bu, modelinizin eğitim örneklerinin ötesinde genelleme yapmasına yardımcı olur.

  • Veri kayması: Kullanıcı davranışı ve ortamlar değişir ancak modeliniz değişmez. Bu sorunu azaltmak için yeniden eğitme planlayın ve doğruluğun düşmeye başladığı zamanı tespit etmek için izleme ekleyin.

  • Kötü metrikler: Genel doğruluk, kullanıcılarınızın önceliklerini her zaman yansıtmaz. Örneğin, bazen belirli bir hatanın "maliyeti" daha önemlidir. Sahtekarlık tespitinde, sahtekarlık içeren bir durumu kaçırmak (yanlış negatif), masum bir durumu işaretlemekten (yanlış pozitif) çok daha kötüdür. Riskleri azaltmak için sahtekarlık tespitine yönelik metrikleri gerçek dünya hedefleriyle uyumlu hale getirin.

Bu sorunların çoğu ciddi değildir. Sisteminizi kademeli olarak kullanıma sunun ve ortaya çıkan sorunları çözün.

Bu yalın ve esnek yaklaşımın anahtarı gözlemlenebilirliktir. Modellerinizin sürümünü oluşturun, doğruluk özelliklerini ve modeli oluşturmak için kullanılan araçları kaydedin, zaman içindeki performansı takip edin ve izlemeyi etkin tutun. Bir şey kaydığında veya bozulduğunda, kullanıcılar fark etmeden sorunu yakalayıp düzeltebilirsiniz.

Önemli noktalar

Tahmine dayalı yapay zeka, mevcut verilerinizi öngörüye dönüştürerek bir sonraki adımda ne olacağını ve nerede harekete geçmeniz gerektiğini gösterir. Bu, yapay zekanın en somut ve ölçülebilir biçimidir. Verilerle ifade edilebilen, iyi tanımlanmış sorunlara odaklanın, ürününüz geliştikçe yinelemeye devam edin ve zaman içindeki performansı izleyin.

Bir sonraki modülümüzde, mevcut verilere dayalı olarak yeni bir şey oluşturmanıza yardımcı olan üretken yapay zeka hakkında bilgi edineceksiniz.

Kaynaklar

Tahmini yapay zekanın arkasındaki matematiksel işlemleri anlamak istiyorsanız aşağıdaki kaynakları incelemenizi öneririz:

Bilgilerinizi sınayın

Tahmini yapay zekanın birincil işlevi nedir?

Metin veya resim gibi yeni içerikler üretmek için
Tahmine dayalı yapay zeka yeni içerik üretmez.
Mevcut verileri anlamak ve sonraki adımları tahmin etmek için.
Doğru cevap, bravo!
Tüm insan karar verme süreçlerini otonom aracılarla değiştirmek.
Yanlış cevap.
Kullanıcılar için bir sohbet arayüzü oluşturmak.
Yeterince doğru değil.

Hangi görevde öğeler, kalıplara göre önceden tanımlanmış kategorilerde gruplandırılır?

Regresyon.
Yanlış cevap. Regresyon, etkileşim oranı gibi sayısal değerlerin model tahmini anlamına gelir.
Tahmin.
Yanlış cevap. Tahmin, modelin gelecekteki olayları tahmin ettiği veya olağan dışı davranışları belirlediği zamandır.
Sınıflandırma.
Doğru cevap, bravo!
Öneri
Yanlış cevap.

"Tahmine dayalı yapay zeka döngüsünde" veri kümenizi neden eğitim, doğrulama ve test kümelerine ayırmanız gerekir?

Veri kümesinin boyutunu yapay olarak artırmak için.
Yanlış cevap.
Modelin, ezberlenmiş geçmiş örneklerine güvenmek yerine kararları genelleştirmesine yardımcı olmak için.
Doğru cevap, bravo!
Modelin üretimde daha hızlı çalışmasını sağlamak için.
Yanlış cevap.
Verileri kullanıcı konumuna göre ayırmak için.
Yanlış cevap.

Hangi metrik, genel bir doğruluk ölçüsü sağlamak için hassasiyet ve geri çağırmayı dengeler?

Doğruluk puanı
Yanlış cevap.
Kullanıcı kaybı
Yanlış cevap.
F1 puanı
Doğru cevap, bravo!
Gecikme
Yanlış cevap.

Veri kayması nedir ve nasıl azaltılmalıdır?

Modelin depolama alanı tükendiğinde daha fazla depolama alanı satın alın.
Yanlış cevap.
Model, bilgileri halüsinasyon şeklinde sunduğunda çıkışı düzeltmek için istem mühendisliğini kullanın.
Yanlış cevap.
Kullanıcı davranışı değiştiğinde ve eğitim verileri artık gerçekliği yansıtmadığında modeli yeniden eğitin.
Doğru cevap, bravo!
API bağlantısı başarısız olduğunda farklı bir sağlayıcı kullanın.
Yanlış cevap.