Cách hoạt động của Google Tìm kiếm

Công cụ tìm kiếm có chức năng gì?

Công cụ tìm kiếm là phiên bản kỹ thuật số của thủ thư. Chúng sử dụng một chỉ mục toàn diện để giúp tìm thông tin phù hợp cho cụm từ tìm kiếm. Khi hiểu được kiến thức cơ bản về tính năng tìm kiếm, bạn sẽ chuẩn bị để người dùng dễ dàng tìm thấy nội dung của bạn.

Cách trình thu thập dữ liệu duyệt web

Thu thập dữ liệu giống như đọc qua tất cả sách trong thư viện. Trước khi có thể cung cấp bất kỳ kết quả tìm kiếm nào, các công cụ tìm kiếm cần phải có càng nhiều thông tin trên web càng tốt. Để làm điều này, các công cụ tìm kiếm sử dụng trình thu thập dữ liệu – một chương trình di chuyển từ trang web này đến trang web khác và hoạt động như một trình duyệt.

Nếu sách hoặc tài liệu bị thiếu hoặc bị hỏng, trình thu thập thông tin không thể đọc sách hoặc tài liệu đó. Trình thu thập thông tin sẽ cố gắng tìm nạp từng URL để xác định trạng thái của tài liệu. Nếu một tài liệu trả về mã trạng thái lỗi, thì trình thu thập dữ liệu sẽ không thể sử dụng bất kỳ nội dung nào trong đó và có thể thử lại URL sau. Điều này đảm bảo chỉ các tài liệu có thể truy cập công khai mới được đưa vào chỉ mục.

Nếu phát hiện thấy mã trạng thái chuyển hướng (như 301 hoặc 302), trình thu thập dữ liệu sẽ tuân theo lệnh chuyển hướng đến một URL mới và tiếp tục ở đó. Sau khi nhận được phản hồi thành công, tức là họ đã tìm thấy tài liệu mà người dùng có thể truy cập, họ sẽ kiểm tra xem tài liệu đó có được phép thu thập dữ liệu hay không rồi tải nội dung xuống.

Bước kiểm tra này bao gồm HTML và tất cả nội dung được đề cập trong HTML, chẳng hạn như hình ảnh, video hoặc JavaScript. Trình thu thập dữ liệu cũng trích xuất các đường liên kết từ các tài liệu HTML để trình thu thập dữ liệu cũng có thể truy cập vào cả các URL được liên kết. Đi theo các đường liên kết là cách trình thu thập dữ liệu tìm các trang mới trên web.

Trình thu thập dữ liệu không chủ động nhấp vào các đường liên kết hoặc nút mà chuyển URL đến một hàng đợi để thu thập dữ liệu vào lúc khác. Khi truy cập một URL mới, sẽ không có cookie, trình chạy dịch vụ hoặc bộ nhớ cục bộ nào (như IndexedDB).

Xây dựng chỉ mục

Sau khi truy xuất tài liệu, trình thu thập thông tin sẽ đưa nội dung đó cho công cụ tìm kiếm để thêm nội dung vào chỉ mục. Giờ đây, công cụ tìm kiếm sẽ hiển thị và phân tích nội dung để hiểu được. Kết xuất nghĩa là hiển thị trang dưới dạng trình duyệt (có một số hạn chế).

Các công cụ tìm kiếm xem xét từ khoá, tiêu đề, đường liên kết, tiêu đề, văn bản và nhiều nội dung khác. Những tín hiệu này được gọi là tín hiệu mô tả nội dung và ngữ cảnh của trang. Tín hiệu giúp công cụ tìm kiếm trả lời bất kỳ cụm từ tìm kiếm nào bằng cách sử dụng trang phù hợp nhất có thể.

Các công cụ tìm kiếm có thể tìm thấy cùng một nội dung tại các URL khác nhau. Ví dụ: một công thức cho "bánh táo" có thể xuất hiện trong /recipes/apple-pie và dưới /recipes/1234. Để tránh lập chỉ mục và hiển thị công thức hai lần, công cụ tìm kiếm sẽ xác định URL chính nên là gì và loại bỏ các URL thay thế cho thấy cùng một nội dung.

Cung cấp các kết quả hữu ích nhất

Công cụ tìm kiếm làm nhiều việc hơn là chỉ so khớp cụm từ tìm kiếm với các từ khoá trong chỉ mục. Để cung cấp kết quả hữu ích, nhà phát triển có thể cân nhắc ngữ cảnh, từ ngữ thay thế, vị trí của người dùng, v.v. Ví dụ: "thung lũngsilicon" có thể dùng để chỉ khu vực địa lý hoặc chương trình truyền hình. Nhưng nếu cụm từ tìm kiếm là "silicon Valley Cast", thì các kết quả trong khu vực này sẽ không thực sự hữu ích.

Một số cụm từ tìm kiếm có thể mang tính gián tiếp, chẳng hạn như "bài hát từ tiểu thuyết từ bột giấy" và các công cụ tìm kiếm cần diễn giải điều đó và hiện kết quả cho phần nhạc trong phim. Khi người dùng tìm kiếm nội dung nào đó, công cụ tìm kiếm sẽ xác định kết quả hữu ích nhất rồi hiển thị kết quả đó cho người dùng. Thứ hạng hay thứ tự các trang sẽ xảy ra dựa trên cụm từ tìm kiếm. Thứ tự này thường có thể thay đổi theo thời gian nếu có thông tin tốt hơn.

Bước tiếp theo: cách tối ưu hoá cho công cụ tìm kiếm

Giờ đây, khi đã nắm được kiến thức cơ bản về cách hoạt động của công cụ tìm kiếm, bạn có thể thấy được giá trị trong việc tối ưu hoá cho công cụ tìm kiếm. Việc này được gọi là SEO hay "Tối ưu hoá cho công cụ tìm kiếm". Bằng cách đảm bảo công cụ tìm kiếm có thể tìm và tự động hiểu nội dung của bạn, bạn đang cải thiện khả năng hiển thị trang web cho các tìm kiếm liên quan. Điều này có thể thu hút nhiều người dùng quan tâm hơn đến trang web của bạn. Hãy dùng Lighthouse để kiểm tra trang web của bạn và kiểm tra kết quả SEO để xem các công cụ tìm kiếm có thể giúp người dùng biết đến nội dung của bạn hiệu quả đến mức nào.