深深网络深似海----搜索引擎之外的网络世界
2003-11-10 by Vincent Ping本文写于2003年11月,此处保留原文,仅供参考。
1、引言
可以把互联网想象成一个信息的海洋,为了帮助我们在这个海洋中找到自己需要的信息,就有了分类目录和搜索引擎这样的服务,前者采用人工分类的方法建立目录,提供用户查询,代表是Yahoo.com,后者使用程序软件(搜索机器人)在网络上抓取页面,提供查询,现在最著名的是Google.com。搜索引擎能查询到的信息远远比分类目录丰富,加上搜索技术的发展,使得查询结果也越来越准确,这就是Google.com及搜索技术现在这么热门的根本原因。
到目前,GOOGLE中搜索的全部网页数已经超过了30亿,但是和整个互联网的丰富信息相比,这还不到1%,那么剩下的在哪里呢?为什么搜索引擎不检索呢?如何才能查询这些信息呢?……
2、什么是INVISIBLE WEB / DEEP WEB
还是用这样的比喻:互联网是一个信息的海洋,那么搜索引擎抓取只是这个海洋的表面,而在信息海洋的深处,存在巨大数量的内容,搜索引擎无法启及,这些内容叫着“DEEP WEB”,或者“INVISIBLE WEB”,可以翻译成“搜索引擎不可见的网络”(为方便行文,下面仍直接使用“INVISIBLE WEB”)。
举个实际的例子,我们要查询最新的“火车时刻表”,通过搜索引擎我们可以找到一些提供“火车时刻表”的站点,如 http://www.he183.com/lieche/,但是真正要知道具体车次的详细情况,我们要到这个站点输入车次进行查询。在这里,这个站点里的信息虽然我们人类可以通过查询得到自己需要的信息,但是对于搜索引擎则无法抓取,这些内容,就叫着“INVISIBLE WEB”。
根据Bright Planet公司(http://www.brightplanet.com/)在2000年底进行的一次研究( http://www.brightplanet.com/deepcontent/tutorials/DeepWeb/index.asp )表明,搜索引擎无法抓取的网络内容是其可以抓取的500倍。尽管这几年搜索引擎技术突飞猛进,但是“INVISIBLE WEB”的内容也在以更快的速度增长。同时Bright Planet公司的研究表明,这些“INVISIBLEWEB”的内容95%都是可以通过互联网公开访问的(无须付费和注册),只是搜索引擎不能抓取,或者抓取了也无法提供查询。(这也解释了为什么“分类目录站点”仍然有存在的必要,如百度推出的生活服务目录 http://www.baidu.com/life/)
3、存在INVISIBLE WEB的原因
现在你应该对“INVISIBLE WEB”有了一点初步的印象,那么为什么搜索引擎不去抓取这些公开的信息,提供给大家查询呢?
有两类原因:一是因为技术原因搜索引擎无法抓取;二是搜索引擎可以抓取,但是因为其他选择不去抓取。下面逐一分析:
1)因为技术原因搜索引擎无法抓取:
我们知道搜索引擎使用搜索机器人(Spiders)通过链接在网络上抓取内容,但是当它遇到一个需要“输入内容”或者“在一些选项中进行选择”才能访问的网页时,它就变得无能为力了,因为“搜索机器人”不会思想。
搜索机器人的这个不足导致有两类站点它无法抓取。
- 一种是对某个数据库的查询,由于结果页面都是在“输入内容”或者“选项”的基础上动态生成的,对于这类站点可见得只有那些静态的页面和查询的首页,其他都是不可见的;
- 另外一种情况是需要用户名和密码登录才能访问的站点,搜索机器人无法“输入内容”,所以它没办法访问。现在很多站点都有全部或者部分内容需要登录才能阅读,这些内容都属于“INVISIBLE WEB”。
2)搜索引擎可以抓取,但是因为其他选择不去抓取:
除了搜索引擎无法抓取的内容外,还有许多内容它可以抓取,但是因为下面这些原因而选择不去抓取:
- 文件格式问题:搜索引擎通过“搜索机器人”抓取内容是为了以后让用户可以查询到这些内容,但是很多文件格式,搜索引擎抓取后无法识别,也更无法被用户查询到。例如,如果一个站点全部是图片,搜索引擎抓取也无法识别其中的信息内容,它就选择放弃抓取。现在搜索引擎除了网页基本格式HTML和TXT外,能识别的其他文件格式越来越多,如PDF、WORD、EXCEL、POWERPOINT,但是还是有很多其他文件格式无法识别。
- 使用动态脚本语言,带“?”的页面:越来越多的站点采用脚本语言(如ASP、PHP、JSP、PERL等)调用数据库的方式动态生成,并通过一些带“?”的链接访问数据库。(这个和前面谈到的“查询数据库”站点有一定的关系。) 对于这种带“?”的页面,搜索引擎可以抓取,但是一般情况下选择不去抓取,这是为了避免一种叫“搜索机器人陷阱(spider traps)”的脚本错误,这种错误会让搜索机器人进行无限循环的抓取,无法退出而浪费时间。国内的百度现在支持一些带“?”的脚本页面,但是这样做是暂时的,有很大风险,一方面这样的页面常常不稳定,用户最后查询得经常是“错误”或者和原来不同的内容,影响搜索质量;另外,也会有碰到“搜索机器人陷阱”的可能。
正是由于上面的这些原因,所以存在“INVISIBLE WEB”,而且随着脚本技术的普遍采用,“INVISIBLE WEB”的范围越来越大。
4、如何查找INVISIBLE WEB
我们知道存在大量的“INVISIBLE WEB”,而且由于这些内容常常主题更专一,其信息的质量也非常高。那么有没有办法查找相关信息呢?这就要利用一些“INVISIBLE WEB”的分类目录和专门的工具,下面列出部分知名的站点:
- Librarians' Index to the Internet http://www.lii.org/
- Resource Discovery Network http://www.rdn.ac.uk/
- The Invisible Web http://www.invisibleweb.com/
- Complete Planet http://www.completeplanet.com/
- Invisible-Web.net http://www.invisible-Web.net/
5、搜索引擎在“INVISIBLE WEB”的进展
除了“INVISIBLE WEB”,在搜索引擎可以抓取的网页中,它们目前也只抓取了大约35%左右(2003年初数据),也就是说,搜索引擎目前的主要任务仍然是将可以检索的部分尽快检索,所以对“INVISIBLE WEB”关注不多,一定的进展主要集中:
- 尽量识别各种文件格式,如GOOGLE现在支持的PDF、WORD、EXCEL、POWERPOINT;
- 建立针对“INVISIBLE WEB”的数据库查询站点的分类目录,如上文提到的百度生活指南http://www.baidu.com/life/。
参考资料: