深层网络杂谈
一、前言
深层网络是万维网的一部分,其内容不被标准网络搜索引擎程序索引,与任何人都可以使用互联网访问的“表层网络”形成鲜明对比。
包括:网络邮件、网上银行、云存储、限制访问的社交媒体页面和配置文件以及需要注册、付费才能查看的内容。
深层网络可以通过直连URL或IP地址访问,一般需要输入账号或其它安全信息才能访问有效内容。计算机科学家Michael K. Bergman于2001年发明了该术语作为搜索索引术语。
二、阻止网页被传统搜索引擎索引的方法
1.上下文网络:内容根据访问条件,上下文而异的页面(如客户端IP地址范围)。
2.动态内容:动态页面,响应时根据提交的查询返回页面;或仅通过表单访问,特别是在使用开放域输入元素时(如文本字段);如果缺乏专业知识,就很难驾驭该领域。
3.限制访问内容:以技术手段限制对其页面进行访问的网站(如使用机器人验证码或无存储指令,禁止搜索引擎浏览它们并创建缓存副本)。一般这类网站都有内部的搜索引擎供用户使用。
4.非HTML/文本内容:以多媒体文件(图像或视频)或搜索引擎无法识别的特定文件格式编码的文本内容。
5.私人网站:需要注册和登录的网站(受密码保护的资源)。
6.脚本内容:只能通过JavaScript生成的链接访问的页面,以及通过Flash或Ajax从Web服务器动态下载的内容。
7.软件:某些内容被故意隐藏在常规互联网中,只能通过特殊软件访问。
8.未链接内容:未与其他网页链接的页面,用来防止爬虫软件爬取该内容。这种反爬内容,一般称为内链接页面。
9.网络档案:诸如Wayback Machine之类的网络档案服务,使用户能够跨时间查看网页存档,包括无法访问且未被传统搜索引擎索引的网站。
注:由于计算机漏洞,某些隐藏站点可能会被间接访问。
三、网络搜索技术延展
进入互联网时代后,为了方便查看网络上的内容,搜索引擎使用网络爬虫,通过已知的协议虚拟端口号跟踪超链接。该技术非常适合发现表层网络上的内容,但无法有效地发现深层网络内容。
例如,由于可能的查询数量不确定,这些爬虫程序不会尝试查找作为数据库查询结果的动态页面(可以通过提供查询结果的链接来部分克服该问题)。
全球大量研究人员一直在探索如何以自动方式抓取深层网络,包括只能通过特殊软件访问的内容。
2001年,Sriram Raghavan和Hector Garcia-Molina(斯坦福大学计算机科学系)提出了一种隐藏网络爬虫的架构模型,该爬虫利用“用户提供的或从查询接口收集的重要术语”进行查询Web表单并抓取深网内容。
加州大学洛杉矶分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho创建了一个隐藏网络爬虫,可以自动生成有意义的查询来针对搜索表单发出的问题。几种表单查询语言已经提出,除了发出查询之外,还允许从结果页面中提取结构化数据。
另一个项目是 DeepPeep,由美国国家科学基金会资助,该项目基于新颖的聚焦爬虫技术收集不同领域的隐藏网络资源(网络表单)。
商业搜索引擎也一直探索抓取深层网络的替代方法。站点地图协议(Google于2005年发布)和OAI-PMH是允许搜索引擎和其它相关方发现特定Web服务器上的深层网络资源的机制。这两种机制都允许Web服务器通告托管的可访问链接,从而发现未链接到表面Web的资源。Google的深层网络显示系统计算每个HTML表单的提交内容,并将生成的HTML页面添加到Google搜索引擎的索引中。