这个词 搜索引擎 与谷歌产生共鸣,谷歌是目前使用的最强大、最流行的网络搜索媒体之一。任何输入谷歌搜索栏的查询都会返回数百个相应的网页。然而,一个鲜为人知的事实是,支持谷歌难以置信的能力的技术属于一种用于快速探索的搜索技术。
null
对搜索框进行查询的传统方法如下:
- 通过搜索引擎数据库进行搜索
- 识别相关网页
- 显示搜索引擎结果页(SERP)
所有的搜索引擎都努力提供从万维网交付相关页面的服务,但根据搜索引擎的类型和使用的算法,生成列表的方式有所不同。搜索引擎的主要类型及其工作方式如下:
- 基于爬虫的搜索引擎: 这些搜索引擎通常有三个主要组件:
- 爬虫或蜘蛛: 爬行器是一种软件代理或机器人,被部署在网络中,生成一个单词列表,作为短语以及它们出现的位置(URL)——这一过程称为爬行。爬行器从流行页面或大量使用的服务器开始,跟踪网站上的每个链接。通过这种方式,蜘蛛穿透网络,淹没搜索引擎的数据库。爬行器会定期返回这些站点以查找更新。这些步行者不断地对网络的动态世界进行爬网,以保持引擎高效运行。
- 索引器: 爬行器在数据库中检索到的所有信息——短语列表和URL被编码并组织成一个可理解的结构,称为索引。通常使用的数据结构是哈希表、哈希映射或倒排索引。倒排索引数据结构在基于关键字的查询中是有效的,并使信息检索变得方便,就像大多数教科书末尾的索引一样。因此,索引器将单词及其在不同位置的出现情况和指定的权重(比如基于出现频率)存储在一个有组织的结构中,以备检索。
- 查询处理器: 最后一个组件接受搜索查询,并通过索引中的数百万个条目查找相关匹配项。搜索引擎使用不同的计算技术来确定各种页面的相关性,然后根据页面排名算法对这些页面进行排名,最后呈现给用户。算法采用的排名系统取决于各种查询相关因素(如字数频率、文档语言、地理位置)和查询无关因素(如文档的流行程度、文档质量)。最终呈现的SERP由经过处理的搜索结果和付费搜索结果组成。
必应、雅虎、百度、Yandex、DuckDuckGo、AOL和Ask都属于这类搜索引擎。
- 人力资源目录: 接下来,我们有基于目录的操作,其中web链接被组织成目录或主题目录,很像教科书中的前索引。与传统的自动化不同,该引擎利用人力进行分类。搜索在这个目录中进行,由网站和简短描述组成。在大多数情况下,一个真实的人会在现有网站上搜索、查看并将其与描述一起添加到目录中。不同的页面被分类为主题,以创建一个层次结构,相似的页面被聚集在同一主题下,并根据相关性进行排名。返回用户搜索查询时,会列出此目录中最有利和预期的描述。除了目录搜索结果外,最终的列表还包括付费结果,这些结果将再次进行排名。由于专门的以人为基础的工作组决定网络结果,而不是复杂的算法,因此避免了相关性方面的任何差异。这里的重点在于响应的相关性,因为搜索查询仅限于网页,而不是传统引擎,后者为给定的查询返回数千个网页。 Open Directory、LookSmart、Chacha、Mahalo甚至雅虎一度都属于这类搜索引擎。
- 混合搜索引擎: 上述两种搜索引擎技术在功能上是对立的,每种都有自己的优势。基于爬虫的搜索引擎可以很好地处理特定的查询,但在提供一般查询的相关结果时效果不佳。然而,人工目录在一般查询中提供更好的结果,但在特定查询中无法提供相同的效率。因此,顾名思义,混合搜索引擎结合了基于爬虫的搜索引擎和目录结果。 雅虎、MSN和谷歌使用这种技术来呈现他们的搜索结果。
- 元搜索引擎: 这些搜索引擎将所有其他搜索引擎的结果结合起来,创建一个更大的结果列表。通过从第三方搜索引擎的索引中同时收集结果,这些引擎可以收集范围广泛的页面。这些结果将被处理、排序并呈现给用户。然而,在去除冗余后,这种方法对给定查询的结果数量很少,不能完全满足用户需求。 Dogpile、Metaseek和SavySearch就是这种元搜索引擎的几个例子。
除了上述搜索引擎之外,各种其他类型的搜索技术也在试图吸引用户的注意力,比如计算搜索引擎WolframAlpha和语义搜索引擎Swoogle。在全世界范围内,我们的搜索引擎不断地免费提供大量的问题。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END