Trong khi AI dự đoán trích xuất thông tin chi tiết từ dữ liệu hiện có, thì AI tạo sinh sẽ tiến thêm một bước và tạo ra nội dung mới. Gemini có thể viết văn bản, tạo hình ảnh, tạo mã hoặc thậm chí thiết kế toàn bộ giao diện người dùng. Sau đây là một số ví dụ phổ biến về các trường hợp sử dụng AI tạo sinh:
- Tạo nội dung: Trợ lý viết AI có thể tạo bản nháp và chỉnh sửa văn bản hiện có.
- Tóm tắt: Các công cụ như Thông tin tổng quan do AI của Google tạo giúp cô đọng các tài liệu, cuộc họp hoặc trang web dài thành bản tóm tắt ngắn gọn và hữu ích.
- Tạo mã: Các công cụ dành cho nhà phát triển sử dụng AI tạo sinh để viết và tái cấu trúc mã, giúp tăng năng suất của nhà phát triển.
- Tạo hình ảnh và thành phần: Bằng cách sử dụng các mô hình thị giác, người dùng có thể tạo thành phần trực quan, chẳng hạn như biểu ngữ và hình thu nhỏ.
Vòng lặp AI tạo sinh
Hầu hết các mô hình AI tạo sinh đều được huấn luyện bằng mạng nơ-ron và cấu trúc biến đổi. Các mô hình học cách đề xuất phần tử tiếp theo trong một chuỗi, chẳng hạn như từ, pixel hoặc nốt nhạc tiếp theo, dựa trên các phần tử trước đó.
Về mặt toán học, điều này không khác nhiều so với AI dự đoán. Cả hai đều học các mẫu từ dữ liệu. Điểm khác biệt nằm ở quy mô.
Trong AI dự đoán, các lựa chọn đầu ra bị giới hạn ở một vài nhãn, chẳng hạn như "rời bỏ" hoặc "không rời bỏ". Trong AI tạo sinh, không gian đầu ra có thể bao gồm hàng trăm nghìn lựa chọn. Được huấn luyện dựa trên hàng tỷ ví dụ, cơ chế dự đoán này phát triển thành một công cụ mạnh mẽ có khả năng tạo ra những kết quả mới chưa từng thấy.
Việc phát triển một hệ thống AI tạo sinh tuân theo phương pháp lặp lại.
Chúng ta sẽ xem xét cách hoạt động của ứng dụng này thông qua ứng dụng mẫu BlogBuddy. Đây là một trợ lý hệ thống quản lý nội dung giúp người dùng tạo ra những nội dung mô tả hấp dẫn và tiêu đề bài viết thân thiện với SEO.
Xác định trường hợp sử dụng của bạn
Tuyên bố về vấn đề của bạn phải bao gồm:
- Phương thức nhập và xuất dữ liệu. Đó có thể là văn bản (văn xuôi hoặc mã), hình ảnh hoặc âm thanh.
- Phương thức nhập. Nội dung có phải từ trường tải lên, văn bản tự do hay dữ liệu đầu vào có cấu trúc khác không?
- Đối tượng. Ai đang thực hiện việc này? Họ có kiến thức chung hay cần kiến thức chuyên môn?
Các tính năng của BlogBuddy xoay quanh việc tạo văn bản. Đầu vào có cấu trúc bán phần: người dùng cung cấp một chủ đề hoặc bản nháp ngắn và mô hình sẽ trả về các biến thể. Đối tượng là những người làm tiếp thị, có kiến thức chuyên môn về nội dung biên tập.
Bạn cần đặt tiêu chuẩn chất lượng cho các sản phẩm của mình. Trong trường hợp của chúng tôi, chúng tôi muốn tạo văn bản ngắn, dễ đọc và có nhiều từ khoá phù hợp với giọng điệu của ấn phẩm.
Các chỉ số thành công rõ ràng sẽ giúp bạn định hướng phần còn lại của quy trình. Bạn sẽ tìm hiểu thêm về cách thu thập các chỉ số thành công trong Phát triển dựa trên đánh giá.
Chọn mô hình cơ sở
Có rất nhiều mô hình có sẵn được huấn luyện trước trên các tập dữ liệu lớn, phổ biến. Bạn có thể điều chỉnh hành vi của các đối tượng này cho phù hợp với nhu cầu cụ thể. Các mô hình AI tạo sinh thường lớn hơn và phức tạp hơn nhiều so với các mô hình dự đoán, vì vậy, tốt nhất là bạn nên xây dựng dựa trên một mô hình hiện có thay vì xây dựng và huấn luyện mô hình của riêng mình.
Lựa chọn của bạn sẽ quyết định các chức năng, chi phí, khả năng tuỳ chỉnh và ranh giới về quyền riêng tư của sản phẩm. Lựa chọn mô hình có mối tương quan chặt chẽ với nền tảng mà bạn triển khai hệ thống AI.
Trong khoá học này, bạn sẽ tìm hiểu cách chọn nền tảng.
Thiết kế câu lệnh và bối cảnh
Sau khi chọn mô hình, bạn cần cung cấp cho mô hình đó các chỉ dẫn phù hợp bằng một câu lệnh. Đối với BlogBuddy, chúng ta có thể đưa ra lời nhắc cho mô hình như sau:
Generate three short, engaging title suggestions for this article
Bạn có thể thêm nhiều loại thông tin vào câu lệnh. Ví dụ:
- Một câu lệnh hệ thống đặt hành vi chung.
- Ngữ cảnh dành riêng cho dữ liệu đầu vào của tác vụ hiện tại.
- Hướng dẫn cho người dùng trong các ứng dụng đàm thoại, chẳng hạn như chatbot hoặc trợ lý ảo.
Suy luận và xử lý hậu kỳ
Sau khi bạn tạo xong câu lệnh, câu lệnh đó sẽ được gửi đến mô hình để suy luận. Bạn có thể thay đổi các tham số mô hình, bao gồm cả nhiệt độ (để tăng tính sáng tạo) và số lượng mã thông báo tối đa (để tăng độ dài và tính chi tiết) nhằm điều chỉnh cách mô hình phản hồi. Sau khi tạo, đầu ra thường được xử lý bằng các quy tắc và biện pháp bảo vệ bổ sung.
Ví dụ: bạn có thể diễn đạt lại văn bản có phân biệt giới tính, điều chỉnh giọng điệu hoặc lọc bỏ các từ bị cấm.
Để hỗ trợ việc điều chỉnh độ minh bạch và độ tin cậy, bạn có thể thêm một mô hình nhỏ hơn, thứ cấp để phân loại hoặc tóm tắt kết quả. Ví dụ: "Phần giới thiệu được tạo từ 12 bài viết có liên quan. Độ tin cậy: cao."
Vòng đánh giá và phản hồi
Vì không gian đầu ra của AI tạo sinh gần như vô hạn, nên hầu hết các câu lệnh đều không có một câu trả lời chính xác duy nhất. Các điểm chuẩn tiêu chuẩn, chẳng hạn như MMLU hoặc SQuAD, có thể đo lường khả năng chung của mô hình, nhưng hiếm khi nắm bắt được nhu cầu cụ thể của người dùng. Trong bối cảnh sản phẩm, bạn cần xác định hỗn hợp chỉ số định tính và định lượng của riêng mình:
- Độ chính xác: Kết quả có chính xác không?
- Tính hữu ích: Kết quả có đáp ứng được kỳ vọng do câu lệnh hoặc ý định của người dùng đặt ra không?
- Mức độ dễ đọc và giọng điệu: Kết quả có rõ ràng và phù hợp với tiêu chuẩn thương hiệu không?
- Nỗ lực của con người: Cần chỉnh sửa hoặc tuyển chọn thủ công bao nhiêu?
- Hiểu biết về lĩnh vực: Đầu ra có phản ánh kiến thức về lĩnh vực cụ thể không?
Để đánh giá các chỉ số này, bạn có thể kết hợp quy trình đánh giá thủ công và tính điểm tự động. Ví dụ: bạn có thể yêu cầu người dùng đánh giá kết quả đầu ra trong thực tế, sử dụng mô hình thứ hai để đánh giá tự động (còn gọi là LLM-as-a-judge) và tiến hành đánh giá nội bộ định kỳ để phát hiện thiên kiến hoặc thông tin sai lệch.
Dữ liệu sử dụng thực tế là một trong những tài sản lớn nhất của bạn khi xây dựng bằng tính năng tạo sinh. Nếu có thể, hãy ghi lại những lượt tương tác này để điều chỉnh câu lệnh và bối cảnh, thử nghiệm các mô hình khác nhau hoặc điều chỉnh các tham số theo thời gian. Mỗi lượt tương tác, lượt chỉnh sửa hoặc lượt đánh giá của người dùng đều trở thành thông tin phản hồi có thể giúp bạn xác định các bước tối ưu hoá tiếp theo:
- Đầu vào không mong muốn của người dùng có thể giúp bạn xác định xem bạn có đang giải quyết đúng vấn đề hay không.
- Các yêu cầu định kỳ theo miền cụ thể có thể giúp bạn đưa ra lựa chọn về mô hình. Bạn có thể chuyển từ một LLM lớn, chung chung sang một mô hình nhỏ, được tinh chỉnh.
- Việc thường xuyên tạo ra thông tin sai lệch có thể cho thấy rằng câu lệnh của bạn thiếu ngữ cảnh cụ thể.
- Nội dung chỉnh sửa quá nhiều có thể cho thấy ngữ cảnh được chia sẻ không đầy đủ. Mô hình không biết thông tin mà người dùng cho là hiển nhiên.
Theo thời gian, các vòng phản hồi này sẽ biến tính năng AI tạo sinh của bạn từ một lệnh gọi mô hình tĩnh thành một hệ thống động liên tục thích ứng với nhu cầu và lựa chọn ưu tiên của người dùng.
Các lỗi thường gặp và cách giảm thiểu
Vì AI tạo sinh hoạt động trong một không gian mở với nhiều dữ liệu đầu vào và đầu ra, nên bề mặt rủi ro của AI tạo sinh rộng hơn nhiều so với các hệ thống dự đoán. Ngoài việc chỉ tạo ra kết quả không chính xác, mô hình này còn có thể tạo ra nội dung độc hại, thiên vị hoặc gây hiểu lầm, hoặc thậm chí vô tình thao túng người dùng. Những thất bại này có thể làm suy giảm niềm tin và khiến công ty của bạn phải chịu hậu quả về tài chính hoặc pháp lý.
Đó là lý do AI tạo sinh cần có một phương pháp quản lý rủi ro chủ động và liên tục. Sau đây là một số rủi ro phổ biến nhất:
- Ảo tưởng: Mô hình bịa ra dữ kiện hoặc trình bày sai thông tin chi tiết. Để giảm thiểu, hãy sử dụng RAG để xác định cơ sở thực tế.
- Quá tin tưởng: Người dùng cho rằng kết quả luôn chính xác. Để giảm thiểu, hãy khuyến khích quy trình xem xét và chỉnh sửa thay vì tự động xuất bản. Trong khoá học Quản trị AI: Xây dựng một cách có trách nhiệm, bạn sẽ tìm hiểu cách giúp người dùng điều chỉnh mức độ tin tưởng của họ.
- Tính không nhất quán: Kết quả đầu ra có sự khác biệt lớn giữa các lần chạy. Để giảm thiểu, hãy sử dụng các mẫu câu lệnh, kiểm soát nhiệt độ hoặc ví dụ ít lần để ổn định giọng điệu và cấu trúc.
- Nội dung độc hại hoặc gây hại: Mô hình tạo ra văn bản thiên vị, phản cảm hoặc mang tính thao túng. Để giảm thiểu, hãy áp dụng bộ lọc kiểm duyệt và trình phân loại nội dung độc hại trước khi hiển thị. Liên tục kiểm thử đầu ra bằng các câu lệnh thực tế và duy trì một vòng hồi tiếp thông tin để gắn cờ và huấn luyện lại các trường hợp đặc biệt.
- Độ trễ và chi phí: Các mô hình lớn có thể chậm và tốn kém. Đặc biệt nếu bạn hướng đến việc áp dụng trên quy mô lớn, thì có thể khó ước tính trước chi phí và mức sử dụng tài nguyên của các mô hình. Để giảm thiểu, hãy sử dụng tính năng lưu vào bộ nhớ đệm, xử lý hàng loạt và các mô hình nhỏ hơn cho các tác vụ ngắn.
Điểm cần nhớ
Nói tóm lại, AI tạo sinh biến những ý tưởng thô sơ thành nội dung hữu hình như văn bản, hình ảnh, mã nguồn hoặc cuộc trò chuyện. Nó phát triển mạnh mẽ ở những nơi mà sự sáng tạo và khả năng thích ứng quan trọng hơn độ chính xác.
Là một nhà phát triển web, sự thành công của bạn phụ thuộc vào việc thiết kế các câu lệnh phù hợp, đặt mô hình của bạn vào đúng dữ liệu và liên tục điều chỉnh hệ thống theo lựa chọn ưu tiên của người dùng.
Tài nguyên
Đọc về cách chọn các mô hình nhỏ hơn và bền vững. Để tìm hiểu thêm:
- Tham gia Khoá học học máy ứng dụng về AI tạo sinh.
- Tham khảo Bộ công cụ AI tạo sinh có trách nhiệm.
- Để tìm hiểu thêm về các loại mô hình cơ sở trong AI tạo sinh, hãy đọc chương 5 trong Nghệ thuật phát triển sản phẩm AI.
Kiểm tra mức độ hiểu biết của bạn
Đâu là điểm khác biệt chính giữa đầu ra của AI tạo sinh và AI dự đoán?
Vai trò của nhiệt độ mô hình là gì?
Tại sao các điểm chuẩn tiêu chuẩn thường không đủ để đánh giá AI tạo sinh?
Đâu là một biện pháp giảm thiểu phổ biến đối với hiện tượng ảo giác?
Theo vòng lặp AI tạo sinh, bạn nên làm gì với ý kiến phản hồi của người dùng?