搜索引擎是如何组织网络的

如果您曾经使用过搜索引擎在网络上进行研究,您就会知道,在输入搜索后返回的匹配网站列表的长度会根据搜索内容和所使用的搜索引擎而发生巨大变化。例如,如果您在Yahoo!搜索引擎,你会得到一个包含96个类别和2688个特定网站的列表。

通过劳拉·祖劳斯基,网络编辑 一九九九年三月一日

如果您曾经使用过搜索引擎在网络上进行研究,您就会知道,在输入搜索后返回的匹配网站列表的长度会根据搜索内容和所使用的搜索引擎而发生巨大变化。例如,如果您在Yahoo!搜索引擎,你会得到一个包含96个类别和2688个特定网站的列表。如果你在Excite的网站上输入完全相同的单词,你会得到不少于79254个单独的网站。在Lycos的网站上进行同样的搜索,结果只有3个类别和大约100个单独的网站,根据它们与“自动化”一词的匹配程度来选择。

搜索引擎的工作原理

为什么这些网站之间有如此大的差异?这一切都与该特定网站选择如何找到并跟踪所有网站有关。搜索引擎不会搜索整个万维网。这是不可能的,考虑到现有网站的数量和新网站每天都在增加的事实。大多数搜索引擎使用机器人到互联网上收集尽可能多的网站的url和描述。他们不是真正意义上的机器人;相反,它们是计算机程序,旨在自动定位和索引url及其引用的url。就像网上冲浪本身一样,它似乎是一个无休止的过程,这就是为什么它必须是一个自动化的任务。

这些机器人,有时被称为“蜘蛛”,然后将找到的url索引到数据库中,这就是搜索引擎实际搜索的内容。由于每个不同的搜索引擎都有自己的机器人程序或程序来进行索引,并且每个搜索引擎对url的索引不同,搜索引擎收集到数据库中的主题相关网站的表示形式和数量显然会因搜索引擎而异。这并不是说任何一个搜索引擎都比其他搜索引擎好。这完全取决于您希望如何组织和呈现信息。

去哪里?

大多数搜索引擎的机器人或蜘蛛会从它们可以找到大量url访问的地方开始,通常是包含大量链接的页面。从那里,他们可以探索无数不同的途径,最有效地收集url和网站描述。然而,由于肯定会有机器人无法从其他地方访问的网站,大多数搜索引擎也允许用户提交url供机器人访问,通常是通过填写在线表格。这两种方法有助于确保搜索引擎的数据库中有不同的url集合。然后,每个搜索引擎的数据库都被组织成类别,以帮助搜索更容易。然后,用户可以通过两种方式搜索数据库:输入特定的单词或短语,或者浏览他们想要进一步信息的类别。

虚拟库

许多机器人将开始收集的地方被归类为在线“虚拟图书馆”,专门用于特定的主题或领域。一些虚拟图书馆的运作方式与常规搜索引擎完全相同,不同的只是它们在数据库中保存的内容。其他虚拟图书馆只是保存了一个相关网站链接的在线列表,用户可以浏览,没有搜索选项。这些虚拟图书馆可以成为研究某一特定主题的有价值的工具,或者放在书签列表中方便经常引用。大多数虚拟库都可以通过大型搜索引擎找到。

作者信息
劳拉·祖劳斯基,网络编辑,lzurawski@cahners.com

制造与工程虚拟库

制造市场,

控制工程虚拟图书馆,

1999自动化集成商指南,

最常用的搜索引擎

Alta Vista -

激发-

HotBot -

InfoSeek -

莱科思-

WebCrawler -

雅虎- - - - - -