搜索的工作原理

搜索引擎的作用是什么?

搜索引擎是图书管理员的数字版本。它们使用综合索引来帮助查找与查询相关的正确信息。了解搜索的基础知识之后,您便可以使内容更易于被用户发现

抓取工具如何浏览网页

爬行就像是翻阅图书馆里的所有书。搜索引擎需要获取尽可能多的网络信息,才能提供任何搜索结果。为此,搜索引擎会使用抓取工具。抓取工具是一种程序,可在网站之间传输,其作用类似于浏览器。

如果图书或文件丢失或损坏,抓取工具将无法读取。抓取工具会尝试提取每个网址,以确定文档的状态。如果文档返回错误状态代码,抓取工具将无法使用其任何内容,并且可能在以后重试该网址。这样可以确保只有可公开访问的文档才会编入索引。

如果抓取工具发现重定向状态代码(例如 301 或 302),就会跟踪重定向到新网址并继续访问新网址。一旦获得成功的响应(即找到用户可访问的文档),他们会检查是否允许抓取该文档,然后下载内容。

这项检查包括 HTML 以及 HTML 中提及的所有内容,例如图片、视频或 JavaScript。抓取工具还会从 HTML 文档中提取链接,以便也可以访问链接的网址。通过以下链接,抓取工具可以在网络上查找新网页。

抓取工具不会主动点击链接或按钮,而是将网址发送到一个队列以供日后抓取。访问新网址时,没有可用的 Cookie、Service Worker 或本地存储空间(例如 IndexedDB)。

构建索引

检索到文档后,抓取工具会将内容提交给搜索引擎以将其添加到索引中。现在,搜索引擎会呈现并分析内容,以便理解相应内容。渲染意味着将网页显示为浏览器(有一些限制)。

搜索引擎会查看关键字、标题、链接、标题、文字和许多其他内容。这些信号称为“信号”,用于描述网页内容和情境。通过这些信号,搜索引擎可以用最合适的网页来回答任何给定查询。

搜索引擎可能会在不同的网址中找到相同的内容。例如,“苹果派”的食谱可能位于 /recipes/apple-pie/recipes/1234 下。为了避免将食谱编入索引并重复显示两次,搜索引擎会确定应该使用哪个主网址,并舍弃显示相同内容的备用网址。

提供最有用的结果

搜索引擎不仅仅是将查询与索引中的关键字进行匹配,为了提供有用的结果,他们可能会考虑上下文、替代措辞、用户位置等。例如,“硅谷”可能是指地理区域或电视节目。但是,如果查询是“silicon Valley cast”,关于该区域的结果就没什么帮助。

有些查询可能是间接的,例如“《来自小说中的歌曲》”,搜索引擎需要对这些查询进行解读,然后给出电影中音乐的搜索结果。当用户搜索某些内容时,搜索引擎会确定最有用的结果,然后将其显示给用户。系统会根据查询对网页进行排名或排序。随着时间的推移,如果有更好的信息可用,该顺序通常会发生变化。

后续步骤:如何针对搜索引擎进行优化

至此您已经了解了有关搜索引擎工作方式的基础知识,可以发现优化搜索引擎的价值了。这称为 SEO,即“搜索引擎优化”。通过确保搜索引擎可以找到并自动理解您的内容,您可以提高网站在相关搜索中的曝光度。这有助于吸引更多感兴趣的用户访问您的网站。 使用 Lighthouse 审核您的网站并检查 SEO 结果,了解搜索引擎能够在多大程度上让用户发现您的内容。