Tạo chatbot cục bộ và có thể hoạt động ngoại tuyến bằng Prompt API

Christian Liebel

Ngày xuất bản: 13 tháng 1 năm 2025

Đây là phần cuối cùng trong loạt bài gồm 3 phần về chatbot LLM. Các bài viết trước đã thảo luận về sức mạnh của LLM phía máy khách và hướng dẫn bạn cách thêm chatbot dựa trên WebLLM vào một ứng dụng danh sách việc cần làm.

Một số thiết bị mới hơn được trang bị mô hình ngôn ngữ lớn và các mô hình AI khác ngay trên thiết bị. Chrome đã đề xuất tích hợp các API AI tích hợp sẵn vào trình duyệt, với một số API ở các giai đoạn phát triển khác nhau. Nhiều API trong số này đang trải qua quy trình tiêu chuẩn hoá, nhờ đó các trang web có thể sử dụng cùng một cách triển khai và mô hình để đạt được hiệu suất suy luận tối đa.

Prompt API là một trong những API AI như vậy. Để sử dụng API này, nhà phát triển nên đăng ký tham gia Chương trình dùng thử sớm. Sau khi chấp nhận, bạn sẽ nhận được hướng dẫn về cách bật Prompt API trong trình duyệt. Prompt API có trong thử nghiệm ban đầu cho Tiện ích Chrome, vì vậy, bạn có thể kiểm thử API này cho người dùng tiện ích thực.

Quyền truy cập vào mô hình được chia sẻ

Prompt API hoạt động tương tự như WebLLM. Tuy nhiên, lần này không có lựa chọn mô hình (bạn phải sử dụng LLM đi kèm với trình duyệt). Khi bạn bật AI tích hợp, Chrome sẽ tải Gemini Nano xuống trình duyệt. Sau đó, bạn có thể chia sẻ mô hình này trên nhiều nguồn và chạy với hiệu suất tối đa. Có một vấn đề trên GitHub mà một nhà phát triển đã yêu cầu thêm tính năng chọn mô hình.

Thiết lập cuộc trò chuyện

Bạn có thể bắt đầu cuộc trò chuyện bằng tin nhắn theo cách tương tự, nhưng Prompt API cũng cung cấp một cú pháp rút gọn để chỉ định câu lệnh hệ thống. Bắt đầu phiên mô hình ngôn ngữ bằng phương thức create() trên giao diện LanguageModel:

const session = await LanguageModel.create({
  initialPrompt: [
    {
      type: 'system',
      content: `You are a helpful assistant. You will answer questions related
        to the user's to-do list. Decline all other requests not related to the
         user's todos. This is the to-do list in JSON: ${JSON.stringify(todos)}`,
    },
  ],
});

Trả lời câu hỏi đầu tiên của bạn

Thay vì có một đối tượng cấu hình để định cấu hình hoạt động phát trực tuyến, Prompt API cung cấp 2 phương thức riêng biệt:

prompt() sẽ trả về toàn bộ chuỗi
promptStreaming() trả về một đối tượng có thể lặp lại không đồng bộ. Ngược lại với WebLLM, Prompt API phản hồi bằng chuỗi phản hồi đầy đủ, nên bạn không cần tự kết hợp các kết quả.

Nếu chưa có nguồn gốc nào khác kích hoạt quá trình tải mô hình xuống trước đó, thì yêu cầu đầu tiên của bạn có thể mất rất nhiều thời gian trong khi Gemini Nano được tải xuống trình duyệt. Nếu mô hình đã có sẵn, quá trình suy luận sẽ bắt đầu ngay lập tức.

const stream = session.promptStreaming("How many open todos do I have?");
for await (const reply of stream) {
  console.log(reply);
}

Bản minh hoạ

Tóm tắt

Việc tích hợp LLM vào các ứng dụng có thể giúp nâng cao đáng kể trải nghiệm người dùng. Mặc dù các dịch vụ đám mây cung cấp mô hình chất lượng cao và hiệu suất suy luận cao bất kể thiết bị của người dùng, nhưng các giải pháp trên thiết bị (chẳng hạn như WebLLM và Prompt API của Chrome) có thể hoạt động khi không có mạng, cải thiện quyền riêng tư và tiết kiệm chi phí so với các giải pháp thay thế dựa trên đám mây. Hãy dùng thử các API mới này và giúp các ứng dụng web của bạn thông minh hơn.