深深网络深似海----搜索引擎之外的网络世界

2003-11-10 by Vincent Ping

本文写于2003年11月，此处保留原文，仅供参考。

1、引言

可以把互联网想象成一个信息的海洋，为了帮助我们在这个海洋中找到自己需要的信息，就有了分类目录和搜索引擎这样的服务，前者采用人工分类的方法建立目录，提供用户查询，代表是Yahoo.com，后者使用程序软件（搜索机器人）在网络上抓取页面，提供查询，现在最著名的是Google.com。搜索引擎能查询到的信息远远比分类目录丰富，加上搜索技术的发展，使得查询结果也越来越准确，这就是Google.com及搜索技术现在这么热门的根本原因。

到目前，GOOGLE中搜索的全部网页数已经超过了30亿，但是和整个互联网的丰富信息相比，这还不到1%，那么剩下的在哪里呢？为什么搜索引擎不检索呢？如何才能查询这些信息呢？……

2、什么是INVISIBLE WEB / DEEP WEB

还是用这样的比喻：互联网是一个信息的海洋，那么搜索引擎抓取只是这个海洋的表面，而在信息海洋的深处，存在巨大数量的内容，搜索引擎无法启及，这些内容叫着“DEEP WEB”，或者“INVISIBLE WEB”，可以翻译成“搜索引擎不可见的网络”（为方便行文，下面仍直接使用“INVISIBLE WEB”）。

举个实际的例子，我们要查询最新的“火车时刻表”，通过搜索引擎我们可以找到一些提供“火车时刻表”的站点，如 http://www.he183.com/lieche/，但是真正要知道具体车次的详细情况，我们要到这个站点输入车次进行查询。在这里，这个站点里的信息虽然我们人类可以通过查询得到自己需要的信息，但是对于搜索引擎则无法抓取，这些内容，就叫着“INVISIBLE WEB”。

根据Bright Planet公司（http://www.brightplanet.com/）在2000年底进行的一次研究（ http://www.brightplanet.com/deepcontent/tutorials/DeepWeb/index.asp ）表明，搜索引擎无法抓取的网络内容是其可以抓取的500倍。尽管这几年搜索引擎技术突飞猛进，但是“INVISIBLE WEB”的内容也在以更快的速度增长。同时Bright Planet公司的研究表明，这些“INVISIBLEWEB”的内容95%都是可以通过互联网公开访问的（无须付费和注册），只是搜索引擎不能抓取，或者抓取了也无法提供查询。（这也解释了为什么“分类目录站点”仍然有存在的必要，如百度推出的生活服务目录 http://www.baidu.com/life/）

3、存在INVISIBLE WEB的原因

现在你应该对“INVISIBLE WEB”有了一点初步的印象，那么为什么搜索引擎不去抓取这些公开的信息，提供给大家查询呢？

有两类原因：一是因为技术原因搜索引擎无法抓取；二是搜索引擎可以抓取，但是因为其他选择不去抓取。下面逐一分析：

1)因为技术原因搜索引擎无法抓取：

我们知道搜索引擎使用搜索机器人（Spiders）通过链接在网络上抓取内容，但是当它遇到一个需要“输入内容”或者“在一些选项中进行选择”才能访问的网页时，它就变得无能为力了，因为“搜索机器人”不会思想。

搜索机器人的这个不足导致有两类站点它无法抓取。

一种是对某个数据库的查询，由于结果页面都是在“输入内容”或者“选项”的基础上动态生成的，对于这类站点可见得只有那些静态的页面和查询的首页，其他都是不可见的；
另外一种情况是需要用户名和密码登录才能访问的站点，搜索机器人无法“输入内容”，所以它没办法访问。现在很多站点都有全部或者部分内容需要登录才能阅读，这些内容都属于“INVISIBLE WEB”。

2)搜索引擎可以抓取，但是因为其他选择不去抓取：

除了搜索引擎无法抓取的内容外，还有许多内容它可以抓取，但是因为下面这些原因而选择不去抓取：

文件格式问题：搜索引擎通过“搜索机器人”抓取内容是为了以后让用户可以查询到这些内容，但是很多文件格式，搜索引擎抓取后无法识别，也更无法被用户查询到。例如，如果一个站点全部是图片，搜索引擎抓取也无法识别其中的信息内容，它就选择放弃抓取。现在搜索引擎除了网页基本格式HTML和TXT外，能识别的其他文件格式越来越多，如PDF、WORD、EXCEL、POWERPOINT，但是还是有很多其他文件格式无法识别。
使用动态脚本语言，带“？”的页面：越来越多的站点采用脚本语言（如ASP、PHP、JSP、PERL等）调用数据库的方式动态生成，并通过一些带“？”的链接访问数据库。（这个和前面谈到的“查询数据库”站点有一定的关系。）对于这种带“？”的页面，搜索引擎可以抓取，但是一般情况下选择不去抓取，这是为了避免一种叫“搜索机器人陷阱（spider traps）”的脚本错误，这种错误会让搜索机器人进行无限循环的抓取，无法退出而浪费时间。国内的百度现在支持一些带“？”的脚本页面，但是这样做是暂时的，有很大风险，一方面这样的页面常常不稳定，用户最后查询得经常是“错误”或者和原来不同的内容，影响搜索质量；另外，也会有碰到“搜索机器人陷阱”的可能。

正是由于上面的这些原因，所以存在“INVISIBLE WEB”，而且随着脚本技术的普遍采用，“INVISIBLE WEB”的范围越来越大。

4、如何查找INVISIBLE WEB

我们知道存在大量的“INVISIBLE WEB”，而且由于这些内容常常主题更专一，其信息的质量也非常高。那么有没有办法查找相关信息呢？这就要利用一些“INVISIBLE WEB”的分类目录和专门的工具，下面列出部分知名的站点：

Librarians' Index to the Internet http://www.lii.org/
Resource Discovery Network http://www.rdn.ac.uk/
The Invisible Web http://www.invisibleweb.com/
Complete Planet http://www.completeplanet.com/
Invisible-Web.net http://www.invisible-Web.net/

5、搜索引擎在“INVISIBLE WEB”的进展

除了“INVISIBLE WEB”，在搜索引擎可以抓取的网页中，它们目前也只抓取了大约35%左右（2003年初数据），也就是说，搜索引擎目前的主要任务仍然是将可以检索的部分尽快检索，所以对“INVISIBLE WEB”关注不多，一定的进展主要集中：

尽量识别各种文件格式，如GOOGLE现在支持的PDF、WORD、EXCEL、POWERPOINT；
建立针对“INVISIBLE WEB”的数据库查询站点的分类目录，如上文提到的百度生活指南http://www.baidu.com/life/。

参考资料：