AI dự đoán: Biến dữ liệu thành thông tin chi tiết

AI dự đoán (hoặc phân tích) là một tập hợp các thuật toán giúp bạn hiểu dữ liệu hiện có và dự đoán những gì có thể xảy ra tiếp theo. Dựa trên các mẫu hình trong quá khứ, các mô hình AI dự đoán sẽ học được nhiều nhiệm vụ phân tích giúp người dùng hiểu rõ dữ liệu của họ:

  • Phân loại: Nhóm các mục vào các danh mục được xác định trước dựa trên các mẫu trong dữ liệu. Ví dụ: một cửa hàng trực tuyến có thể phân loại khách truy cập theo ý định (nghiên cứu, mua hàng, trả lại hàng), nhờ đó có thể điều chỉnh các đề xuất cho phù hợp.
  • Hồi quy: Dự đoán các giá trị số, chẳng hạn như tỷ lệ tương tác, thời lượng phiên hoặc xác suất chuyển đổi.
  • Đề xuất: Đề xuất những mặt hàng phù hợp nhất với một người dùng hoặc bối cảnh cụ thể. Hãy nghĩ đến "những người dùng như bạn cũng xem" hoặc "các hướng dẫn được đề xuất dựa trên tiến trình của bạn".
  • Dự báo và phát hiện điểm bất thường: Mô hình này dự đoán các sự kiện trong tương lai, chẳng hạn như lưu lượng truy cập tăng đột biến, hoặc xác định hành vi bất thường, chẳng hạn như điểm bất thường trong thanh toán hoặc hành vi gian lận.

Một số sản phẩm được xây dựng hoàn toàn dựa trên AI dự đoán, chẳng hạn như các công cụ khám phá nhạc. Trong những trường hợp khác, AI dự đoán sẽ nâng cao trải nghiệm có tính xác định, chẳng hạn như một trang web phát trực tuyến có các đề xuất phù hợp với từng người dùng. AI dự đoán cũng có thể là một yếu tố nội bộ mạnh mẽ: bạn có thể sử dụng AI này để phân tích dữ liệu sản phẩm và người dùng nhằm khám phá thông tin chi tiết và hướng dẫn các hành động tiếp theo thông minh hơn.

Vòng lặp AI dự đoán

Việc phát triển một hệ thống AI dự đoán tuân theo một chu kỳ lặp lại: xác định cơ hội, chuẩn bị dữ liệu, huấn luyện mô hình, đánh giá mô hình và triển khai mô hình.

Mỗi bước đều chỉ đến bước tiếp theo, trong một vòng tròn liên tục.
Hình 1. Mặc dù chu kỳ ban đầu bắt đầu bằng việc xác định trường hợp sử dụng của bạn, nhưng mỗi bước đều diễn ra theo thứ tự rồi bắt đầu lại sau khi triển khai mô hình.

Giả sử bạn đang làm việc trên một ứng dụng cải thiện hiệu suất dựa trên gói thuê bao, Do All The Things. Bạn đã thu thập dữ liệu sử dụng, chẳng hạn như số lượt xem trang, thời lượng phiên, mức sử dụng tính năng và số lần gia hạn gói thuê bao. Giờ đây, bạn muốn trích xuất thêm giá trị hữu ích từ dữ liệu. Sau đây là cách bạn di chuyển qua vòng lặp AI dự đoán.

Xác định trường hợp sử dụng của bạn

Bản thiết kế hệ thống Do All The Things.
Hình 2. Bản thiết kế hệ thống cho ứng dụng Do All the Things. Mở sơ đồ có kích thước đầy đủ.

Tỷ lệ rời bỏ của bạn đã tăng lên trong 3 tháng qua. Thay vì phản ứng sau khi người dùng huỷ, bạn nên sử dụng AI dự đoán để xác định những người dùng có khả năng rời bỏ trước khi họ huỷ. Mục tiêu là hỗ trợ nhóm thành công của khách hàng bằng các tín hiệu ban đầu, để họ có thể thực hiện các hành động chủ động, có mục tiêu để giữ chân những người dùng có nguy cơ rời bỏ.

Khi xác định một trường hợp sử dụng AI dự đoán, hãy bắt đầu bằng cách xác thực rằng câu hỏi có thể trả lời bằng dữ liệu. Đó có thể là dữ liệu bạn đã thu thập hoặc dữ liệu bạn có thể thu thập một cách thực tế trong tương lai. Bước này thường đòi hỏi sự cộng tác với các chuyên gia trong lĩnh vực, chẳng hạn như nhóm thành công của khách hàng, nhóm tăng trưởng hoặc nhóm tiếp thị, để đảm bảo dự đoán có ý nghĩa và có thể hành động.

Định nghĩa vấn đề rõ ràng phải nêu rõ:

  • Mục tiêu: Bạn đang cố gắng tác động đến kết quả kinh doanh nào? Ví dụ: bạn muốn giảm tỷ lệ rời bỏ bằng cách chủ động tiếp cận.
  • Dữ liệu đầu vào: Mô hình học được những tín hiệu nào trong quá khứ? Ví dụ: bạn cung cấp các mẫu sử dụng, loại kế hoạch và hoạt động hỗ trợ.
  • Đầu ra: Mô hình sẽ tạo ra nội dung gì? Ví dụ: bạn muốn mô hình tạo điểm xác suất rời bỏ cho từng người dùng.
  • Người dùng: Ai sử dụng hoặc hành động dựa trên thông tin dự đoán? Ví dụ: dữ liệu này dành cho chuyên viên quản lý sự thành công của khách hàng.
  • Tiêu chí thành công: Bạn đo lường mức tác động như thế nào? Ví dụ: bạn đo lường tỷ lệ giữ chân để xác định xem bạn đã giảm tỷ lệ rời bỏ hay chưa.

Bằng cách xác định những chi tiết này ngay từ đầu, bạn có thể tránh được một sai lầm thường gặp: xây dựng một mô hình tuỳ chỉnh có tính kỹ thuật cao nhưng không bao giờ được sử dụng.

Chuẩn bị dữ liệu

Để cung cấp cho mô hình của bạn các tín hiệu học tập hữu ích, bạn cần gắn nhãn dữ liệu trong quá khứ bằng các dự đoán lý tưởng. Gắn nhãn người dùng Do All The Things là "đã rời bỏ" hoặc "chưa rời bỏ".

Tiếp theo, hãy cộng tác với nhóm thành công của khách hàng để xác định những đặc điểm hành vi phù hợp nhất với việc dự đoán tỷ lệ rời bỏ. Thu hẹp tập dữ liệu của bạn thành những đặc điểm chính này và xoá các trường không cần thiết để mô hình của bạn không cần phải xử lý nhiễu. Hãy nhớ cân nhắc quyền riêng tư đối với dữ liệu. Xoá thông tin nhận dạng cá nhân (PII), chẳng hạn như tên hoặc email, và chỉ lưu trữ dữ liệu hành vi tổng hợp.

Bảng sau đây cho thấy một đoạn trích từ tập dữ liệu kết quả:

user_id plan_type avg_session_time (min) logins_last_30d features_used support_tickets churned
00123 cao cấp 12,4 22 5 0 0
00124 Google AI Pro 5,8 3 1 2 1
00125 miễn phí 18,1 30 7 0 0
00126 cao cấp 9.7 12 4 1 0
00127 Google AI Pro 4.2 2 1 3 1
Bảng 1: Trích đoạn từ một tập dữ liệu để dự đoán tỷ lệ rời bỏ.

Điều này giúp mô hình của bạn có các đầu vào số và phân loại rõ ràng (chẳng hạn như plan_type hoặc avg_session_time) và nhãn mục tiêu rõ ràng (churned). Bạn nên chuyển đổi các danh mục thành giá trị nhận dạng số riêng biệt.

Cuối cùng, hãy chia tập dữ liệu của bạn thành 3 tập hợp con:

  • Tập huấn luyện (thường khoảng 70 đến 80%) để dạy mô hình,
  • Tập hợp xác thực (đôi khi còn được gọi là tập hợp phát triển) để điều chỉnh siêu tham số và ngăn chặn tình trạng khớp quá mức.
  • Tập kiểm thử để đánh giá hiệu suất của mô hình trên dữ liệu hoàn toàn chưa được thấy.

Điều này giúp mô hình của bạn khái quát hoá các quyết định thay vì dựa vào các ví dụ lịch sử đã ghi nhớ.

Huấn luyện mô hình

Không giống như AI tạo sinh (thường được xây dựng dựa trên các mô hình lớn, được huấn luyện trước), hầu hết các hệ thống AI dự đoán đều dựa vào các mô hình tự huấn luyện. Đó là do các tác vụ dự đoán rất cụ thể đối với sản phẩm và người dùng của bạn. Các công cụ như scikit-learn (Python), AutoML (không cần lập trình hoặc ít phải lập trình) hoặc TensorFlow.js (JavaScript) giúp bạn dễ dàng huấn luyện và đánh giá các mô hình dự đoán mà không cần lo lắng về toán học cơ bản.

Trong ví dụ về tỷ lệ rời bỏ, chúng ta đưa tập huấn luyện đã được làm sạch vào một thuật toán phân loại có giám sát, chẳng hạn như hồi quy logistic hoặc mạng nơ-ron. Hãy thử nhiều lựa chọn để xác định lựa chọn phù hợp nhất với dữ liệu của bạn.

Mô hình của bạn sẽ học được những mẫu hành vi tương quan với tình trạng rời bỏ. Cuối cùng, mô hình này có thể chỉ định điểm số xác suất cho từng người dùng. Ví dụ: có 72% nguy cơ người dùng X sẽ huỷ vào tháng tới.

Sau mỗi lần huấn luyện, hãy đánh giá mô hình kết quả bằng cách sử dụng tập hợp xác thực. Bạn có thể cải thiện hiệu suất của một mô hình bằng cách điều chỉnh siêu tham số, nhưng cũng có thể cải thiện hiệu suất bằng cách nhắm đến những điểm cần cải thiện trong tập dữ liệu của bạn.

Đánh giá mô hình

Các nhãn trong tập dữ liệu cung cấp giá trị thực mà bạn có thể so sánh với đầu ra của mô hình. Các chỉ số chính cần theo dõi là:

  • Độ chính xác: trong số tất cả người dùng được gắn cờ là "ngừng sử dụng", có bao nhiêu người dùng thực sự ngừng sử dụng?
  • Độ thu hồi: trong số tất cả người dùng rời bỏ, mô hình đã phát hiện được bao nhiêu người?
  • Điểm F1: một con số duy nhất cân bằng độ chính xác và khả năng thu hồi, hữu ích khi bạn muốn có một thước đo tổng thể về độ chính xác mà không tối ưu hoá quá mức một chỉ số nào đó.

Quá nhiều kết quả dương tính giả sẽ dẫn đến việc lãng phí nỗ lực giữ chân khách hàng, trong khi quá nhiều kết quả âm tính giả sẽ dẫn đến việc mất khách hàng. Sự đánh đổi phù hợp phụ thuộc vào các ưu tiên của doanh nghiệp bạn. Ví dụ: công ty của bạn có thể muốn xử lý một vài cảnh báo sai nếu điều đó giúp bạn có nhiều khả năng bắt được nhiều người dùng hơn trước khi họ rời đi.

Triển khai và duy trì mô hình

Sau khi xác thực, bạn có thể triển khai mô hình bằng API hoặc dưới dạng một dịch vụ phía máy khách có dung lượng nhẹ được tích hợp vào trang tổng quan phân tích của bạn. Mỗi ngày, công cụ này có thể tính điểm cho người dùng và cập nhật hình ảnh trực quan về nguy cơ rời bỏ, cho phép nhóm của bạn ưu tiên việc tiếp cận. Để đảm bảo độ chính xác và độ tin cậy, hãy áp dụng những bài học này từ các nhóm vận hành học máy (MLOps):

  • Theo dõi sự thay đổi về dữ liệu: Phát hiện thời điểm hành vi của người dùng thay đổi và dữ liệu huấn luyện của bạn không còn phản ánh thực tế.
    • Ví dụ: sau khi ra mắt một bản thiết kế lại giao diện người dùng lớn, người dùng sẽ tương tác với các tính năng theo cách khác, khiến dự đoán về tình trạng rời bỏ trở nên kém chính xác hơn.
  • Học hỏi từ những sai lầm: Xác định các mẫu phổ biến đằng sau những dự đoán sai và thêm các ví dụ có mục tiêu để cải thiện chu kỳ huấn luyện tiếp theo.
    • Ví dụ: mô hình này thường gắn cờ người dùng thành thạo là có nguy cơ rời bỏ vì họ mở nhiều phiếu yêu cầu hỗ trợ. Sau khi xem xét, bạn sẽ thêm các tính năng mới để phân biệt hoạt động khắc phục sự cố với hoạt động ngừng tương tác.
  • Đào tạo lại thường xuyên: Ngay cả khi hiệu suất có vẻ ổn định, hãy làm mới mô hình định kỳ để tính đến các mẫu theo mùa, thông tin cập nhật về sản phẩm hoặc thay đổi về giá.
    • Ví dụ: bạn huấn luyện lại mô hình sau khi giới thiệu gói hằng năm, vì cấu trúc định giá sẽ thay đổi hành vi của người dùng trước khi gia hạn.

Vòng đời này là nền tảng của AI dự đoán. Với các công cụ như MLflowWeights & Biases, bạn có thể chạy quy trình này mà không cần chuyên môn sâu về học máy.

Các lỗi thường gặp và cách giảm thiểu

Mặc dù đôi khi sẽ xảy ra lỗi, nhưng bạn có thể phòng tránh các nguyên nhân gốc phổ biến có thể làm suy yếu hiệu suất và niềm tin của người dùng:

  • Dữ liệu chất lượng thấp: Nếu dữ liệu đầu vào của bạn có nhiều nhiễu hoặc không đầy đủ, thì các dự đoán của bạn cũng sẽ như vậy. Để giảm thiểu, hãy trực quan hoá và xác thực dữ liệu của bạn trước khi huấn luyện. Đảm bảo bạn có các tín hiệu học tập bắt buộc và xử lý các giá trị bị thiếu. Theo dõi chất lượng dữ liệu trong quá trình sản xuất.
  • Quá khớp: Mô hình hoạt động rất tốt trên dữ liệu huấn luyện, nhưng không thành công trong các trường hợp mới. Để giảm thiểu, hãy sử dụng xác thực chéo, điều chỉnhcác tập dữ liệu dự phòng. Điều này giúp mô hình của bạn khái quát hoá ngoài các ví dụ huấn luyện.

  • Sai lệch dữ liệu: Hành vi và môi trường của người dùng thay đổi, nhưng mô hình của bạn thì không. Để giảm thiểu, hãy lên lịch huấn luyện lại và thêm tính năng giám sát để phát hiện thời điểm độ chính xác bắt đầu giảm.

  • Chỉ số không phù hợp: Độ chính xác tổng thể không phải lúc nào cũng phản ánh mức độ ưu tiên của người dùng. Ví dụ: đôi khi, "chi phí" của một lỗi cụ thể sẽ quan trọng hơn. Trong phát hiện gian lận, việc bỏ lỡ một trường hợp gian lận (âm tính giả) còn tệ hơn nhiều so với việc gắn cờ một trường hợp vô tội (dương tính giả). Để giảm thiểu, hãy điều chỉnh các chỉ số cho phù hợp với mục tiêu thực tế để phát hiện hành vi gian lận.

Hầu hết những vấn đề này đều không nghiêm trọng. Triển khai hệ thống từng bước và giải quyết các vấn đề khi chúng phát sinh.

Chìa khoá của phương pháp tinh gọn và linh hoạt này là khả năng quan sát. Lập phiên bản cho các mô hình, ghi nhật ký các đặc điểm về độ chính xác và công cụ được dùng để xây dựng mô hình, theo dõi hiệu suất theo thời gian và luôn giám sát. Khi có vấn đề xảy ra, bạn sẽ có thể phát hiện và khắc phục vấn đề trước khi người dùng nhận thấy.

Điểm cần nhớ

AI dự đoán biến dữ liệu hiện có của bạn thành thông tin dự đoán, cho biết điều gì có khả năng xảy ra tiếp theo và nơi cần hành động. Đây là dạng AI cụ thể và có thể đo lường nhất. Tập trung vào những vấn đề được xác định rõ ràng có thể thể hiện bằng dữ liệu, tiếp tục lặp lại khi sản phẩm của bạn phát triển và theo dõi hiệu suất theo thời gian.

Trong mô-đun tiếp theo, bạn sẽ tìm hiểu về AI tạo sinh. AI này giúp bạn tạo nội dung mới dựa trên dữ liệu hiện có.

Tài nguyên

Nếu muốn tìm hiểu về cơ sở toán học của AI dự đoán, bạn nên xem các tài nguyên sau:

Kiểm tra mức độ hiểu biết của bạn

Chức năng chính của AI dự đoán là gì?

Để tạo nội dung mới như văn bản hoặc hình ảnh.
AI dự đoán không tạo nội dung mới.
Để hiểu dữ liệu hiện có và dự đoán những gì có thể xảy ra tiếp theo.
Tuyệt vời, chính xác!
Thay thế mọi hoạt động đưa ra quyết định của con người bằng các tác nhân tự trị.
Chưa chính xác.
Để tạo giao diện trò chuyện cho người dùng.
Đó không phải là câu trả lời đúng.

Thao tác nào liên quan đến việc nhóm các mục vào các danh mục được xác định trước dựa trên mẫu?

Hồi quy.
Chưa chính xác. Hồi quy là mô hình dự đoán các giá trị bằng số, chẳng hạn như tỷ lệ tương tác.
Dự báo.
Chưa chính xác. Dự đoán là khi mô hình dự đoán các sự kiện trong tương lai hoặc xác định hành vi bất thường.
Phân loại.
Tuyệt vời, chính xác!
Đề xuất.
Chưa chính xác.

Trong "Vòng lặp AI dự đoán", tại sao bạn nên chia tập dữ liệu thành các tập huấn luyện, xác thực và kiểm thử?

Để tăng kích thước của tập dữ liệu một cách nhân tạo.
Chưa chính xác.
Để giúp mô hình đưa ra quyết định chung thay vì dựa vào các ví dụ đã ghi nhớ trong quá khứ.
Tuyệt vời, chính xác!
Để đảm bảo mô hình chạy nhanh hơn trong quá trình phát hành công khai.
Chưa chính xác.
Để tách dữ liệu theo vị trí của người dùng.
Chưa chính xác.

Chỉ số nào cân bằng độ chính xác và khả năng thu hồi để cung cấp chỉ số tổng thể về độ chính xác?

Điểm độ chính xác
Chưa chính xác.
Tỷ lệ người dùng huỷ hoặc đăng ký gói thuê bao mới
Chưa chính xác.
Điểm F1
Tuyệt vời, chính xác!
Độ trễ
Chưa chính xác.

Độ lệch dữ liệu là gì và bạn nên giảm thiểu độ lệch này như thế nào?

Khi mô hình hết dung lượng lưu trữ, hãy mua thêm.
Chưa chính xác.
Khi mô hình tạo ra thông tin sai lệch, hãy sử dụng kỹ thuật tạo câu lệnh để chỉnh sửa đầu ra.
Chưa chính xác.
Khi hành vi của người dùng thay đổi và dữ liệu huấn luyện không còn phản ánh thực tế, hãy huấn luyện lại mô hình.
Tuyệt vời, chính xác!
Khi kết nối API không thành công, hãy sử dụng một nhà cung cấp khác.
Chưa chính xác.