了解搜索引擎-yiteyi-C++库

这个词 搜索引擎 与谷歌产生共鸣，谷歌是目前使用的最强大、最流行的网络搜索媒体之一。任何输入谷歌搜索栏的查询都会返回数百个相应的网页。然而，一个鲜为人知的事实是，支持谷歌难以置信的能力的技术属于一种用于快速探索的搜索技术。

null

对搜索框进行查询的传统方法如下：

通过搜索引擎数据库进行搜索
识别相关网页
显示搜索引擎结果页（SERP）

所有的搜索引擎都努力提供从万维网交付相关页面的服务，但根据搜索引擎的类型和使用的算法，生成列表的方式有所不同。搜索引擎的主要类型及其工作方式如下：

基于爬虫的搜索引擎： 这些搜索引擎通常有三个主要组件：
- 爬虫或蜘蛛： 爬行器是一种软件代理或机器人，被部署在网络中，生成一个单词列表，作为短语以及它们出现的位置（URL）——这一过程称为爬行。爬行器从流行页面或大量使用的服务器开始，跟踪网站上的每个链接。通过这种方式，蜘蛛穿透网络，淹没搜索引擎的数据库。爬行器会定期返回这些站点以查找更新。这些步行者不断地对网络的动态世界进行爬网，以保持引擎高效运行。
- 索引器： 爬行器在数据库中检索到的所有信息——短语列表和URL被编码并组织成一个可理解的结构，称为索引。通常使用的数据结构是哈希表、哈希映射或倒排索引。倒排索引数据结构在基于关键字的查询中是有效的，并使信息检索变得方便，就像大多数教科书末尾的索引一样。因此，索引器将单词及其在不同位置的出现情况和指定的权重（比如基于出现频率）存储在一个有组织的结构中，以备检索。
- 查询处理器： 最后一个组件接受搜索查询，并通过索引中的数百万个条目查找相关匹配项。搜索引擎使用不同的计算技术来确定各种页面的相关性，然后根据页面排名算法对这些页面进行排名，最后呈现给用户。算法采用的排名系统取决于各种查询相关因素（如字数频率、文档语言、地理位置）和查询无关因素（如文档的流行程度、文档质量）。最终呈现的SERP由经过处理的搜索结果和付费搜索结果组成。
  必应、雅虎、百度、Yandex、DuckDuckGo、AOL和Ask都属于这类搜索引擎。
人力资源目录： 接下来，我们有基于目录的操作，其中web链接被组织成目录或主题目录，很像教科书中的前索引。与传统的自动化不同，该引擎利用人力进行分类。搜索在这个目录中进行，由网站和简短描述组成。在大多数情况下，一个真实的人会在现有网站上搜索、查看并将其与描述一起添加到目录中。不同的页面被分类为主题，以创建一个层次结构，相似的页面被聚集在同一主题下，并根据相关性进行排名。返回用户搜索查询时，会列出此目录中最有利和预期的描述。除了目录搜索结果外，最终的列表还包括付费结果，这些结果将再次进行排名。由于专门的以人为基础的工作组决定网络结果，而不是复杂的算法，因此避免了相关性方面的任何差异。这里的重点在于响应的相关性，因为搜索查询仅限于网页，而不是传统引擎，后者为给定的查询返回数千个网页。 Open Directory、LookSmart、Chacha、Mahalo甚至雅虎一度都属于这类搜索引擎。
混合搜索引擎： 上述两种搜索引擎技术在功能上是对立的，每种都有自己的优势。基于爬虫的搜索引擎可以很好地处理特定的查询，但在提供一般查询的相关结果时效果不佳。然而，人工目录在一般查询中提供更好的结果，但在特定查询中无法提供相同的效率。因此，顾名思义，混合搜索引擎结合了基于爬虫的搜索引擎和目录结果。雅虎、MSN和谷歌使用这种技术来呈现他们的搜索结果。
元搜索引擎： 这些搜索引擎将所有其他搜索引擎的结果结合起来，创建一个更大的结果列表。通过从第三方搜索引擎的索引中同时收集结果，这些引擎可以收集范围广泛的页面。这些结果将被处理、排序并呈现给用户。然而，在去除冗余后，这种方法对给定查询的结果数量很少，不能完全满足用户需求。 Dogpile、Metaseek和SavySearch就是这种元搜索引擎的几个例子。

除了上述搜索引擎之外，各种其他类型的搜索技术也在试图吸引用户的注意力，比如计算搜索引擎WolframAlpha和语义搜索引擎Swoogle。在全世界范围内，我们的搜索引擎不断地免费提供大量的问题。

文章版权归作者所有，未经允许请勿转载。

THE END

技术文章