(2)《看不见的网页》(The Invisible Web: Uncovering Information Sources Search Engines Can't See by Chris Sherman, Gary Price)
2001年3月第二届“网络小姐”评选中,有道测试题是根据驾照的户主姓名和号码,3分钟内在网上搜索相关的信息,结果没有一个选手找到正确答案。用搜索引擎肯定查不到,应该查公安交通管理局的违章数据库。这就是invisible web。那个时候国外也很少有人谈invisible web,BrightPlanet公司的那个Deep Web白皮书还没出来呢。当然,不知道invisible web这个词并不意味着不会用,以前我分类外文书遇到Personal finance、Strategic management拿不准的时候,就一边念叨着“三人行,必有我师”一边查中国国家图书馆、北大图书馆以及清华图书馆的数据库。
2001年下半年开始,一下子冒出了好几个搜索invisible web的网站。一些网络搜索教程也在“搜索引擎”、“分类目录”后增加又副册invisible web。invisible web搜索就是分类搜索,可以在分类搜索重点介绍一下,完全必要再单列。分类目录的编制经常被人嘲笑为没有意义的简单劳动,invisible web可以说是分类目录存在意义的佐证之一。
Chris Sherman和Gary Price的The Invisible Web一书里,把“看不见”又分成四种:第一种是不透明网页(The Opaque Web),搜索引擎可以索引但没有索引的网页,比如某一站点有大量网页,搜索引擎对SPIDER爬网页的数量有所限制,比如还没有收集的新网页,比如一个网页跟其它网页没有链接,网页的主人又没有把网址提交给搜索引擎等;第二种是私人网页(The Private Web),本来是可以索引的,由于网页主人加了口令保护、禁止索引的网站标记、robots文件,便将SPIDER拒之门外。第三种是专用网页(The Proprietary Web),某些网页只有注册用户才能浏览,SPIDER不会填表,当然也就没法收集。第四种是搜索引擎因为技术原因无法收集索引的真正看不见的网页(The Truly Invisible Web)。到目前为止,大部分搜索引擎能够收集索引的还是HTML等语言编写的常规网页,只有GOOGLE才能索引PDF、postscript跟Microsoft Office文件。(这儿应该修正一下,ALLTHEWEB也能索引PDF文件了。)再就是数据库访问形成的动态网页了,SPIDER一方面不敢陷进无休止的圈子,更主要的是它不能填写查询表单,自然也爬不进数据库。传统搜索引擎只能搜索全部网络信息的16%,在剩下的84%中,有不少的数据库还是非常有价值的,这就成了Chris Sherman和Gary Price写这本书的理由。
全书共27章:1.The Internet and the Visible Web; 2.Information Seeking in the Visible Web; 3.Specialized and Hybrid Search Tools; 4.The Invisible Web; 5.Visible or Invisible? 6.Using the Invisible Web; 7.Case Studies; 8.The Future: revealing the Invisible Web; 9.The Best of the Invisible Web; 10.Art and Architecture; 11.Bibliographies and Library Catalogs; 12.Busines and Investing; 13.Computers and Internet; 14. Education; 15.Entertainment; 16. Government Information and Data; 17.Health and Medical Information; 18.U.S.and World History; 19.Legal and Criminal Resources; 20.News and Current Events; 21.Searching for People; 22.Public Records; 23.Real-time Information; 24.Reference; 25.Science; 26.Social Sciences; 27.Transportation
一半的篇幅都是罗列各种资源,这些资源在大部分Invisible Web网站目录都可以检索到。另一小半的篇幅是网络信息搜索的老生常谈,还是从阿帕网家史讲起的。本书的作者之一Chris Sherman是一家咨询公司Searchwise的总裁,并主持About.com的the guide to Web searching,另一位Gary Price是乔治华盛顿大学的图书馆员。