深层网络杂谈

一、前言

深层网络是万维网的一部分，其内容不被标准网络搜索引擎程序索引，与任何人都可以使用互联网访问的“表层网络”形成鲜明对比。

包括：网络邮件、网上银行、云存储、限制访问的社交媒体页面和配置文件以及需要注册、付费才能查看的内容。

深层网络可以通过直连URL或IP地址访问，一般需要输入账号或其它安全信息才能访问有效内容。计算机科学家Michael K. Bergman于2001年发明了该术语作为搜索索引术语。

二、阻止网页被传统搜索引擎索引的方法

1.上下文网络：内容根据访问条件，上下文而异的页面（如客户端IP地址范围）。

2.动态内容：动态页面，响应时根据提交的查询返回页面；或仅通过表单访问，特别是在使用开放域输入元素时（如文本字段）；如果缺乏专业知识，就很难驾驭该领域。

3.限制访问内容：以技术手段限制对其页面进行访问的网站（如使用机器人验证码或无存储指令，禁止搜索引擎浏览它们并创建缓存副本）。一般这类网站都有内部的搜索引擎供用户使用。

4.非HTML/文本内容：以多媒体文件（图像或视频）或搜索引擎无法识别的特定文件格式编码的文本内容。

5.私人网站：需要注册和登录的网站（受密码保护的资源）。

6.脚本内容：只能通过JavaScript生成的链接访问的页面，以及通过Flash或Ajax从Web服务器动态下载的内容。

7.软件：某些内容被故意隐藏在常规互联网中，只能通过特殊软件访问。

8.未链接内容：未与其他网页链接的页面，用来防止爬虫软件爬取该内容。这种反爬内容，一般称为内链接页面。

9.网络档案：诸如Wayback Machine之类的网络档案服务，使用户能够跨时间查看网页存档，包括无法访问且未被传统搜索引擎索引的网站。

注：由于计算机漏洞，某些隐藏站点可能会被间接访问。

三、网络搜索技术延展

进入互联网时代后，为了方便查看网络上的内容，搜索引擎使用网络爬虫，通过已知的协议虚拟端口号跟踪超链接。该技术非常适合发现表层网络上的内容，但无法有效地发现深层网络内容。

例如，由于可能的查询数量不确定，这些爬虫程序不会尝试查找作为数据库查询结果的动态页面（可以通过提供查询结果的链接来部分克服该问题）。

全球大量研究人员一直在探索如何以自动方式抓取深层网络，包括只能通过特殊软件访问的内容。

2001年，Sriram Raghavan和Hector Garcia-Molina（斯坦福大学计算机科学系）提出了一种隐藏网络爬虫的架构模型，该爬虫利用“用户提供的或从查询接口收集的重要术语”进行查询Web表单并抓取深网内容。

加州大学洛杉矶分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho创建了一个隐藏网络爬虫，可以自动生成有意义的查询来针对搜索表单发出的问题。几种表单查询语言已经提出，除了发出查询之外，还允许从结果页面中提取结构化数据。

另一个项目是 DeepPeep，由美国国家科学基金会资助，该项目基于新颖的聚焦爬虫技术收集不同领域的隐藏网络资源（网络表单）。

商业搜索引擎也一直探索抓取深层网络的替代方法。站点地图协议（Google于2005年发布）和OAI-PMH是允许搜索引擎和其它相关方发现特定Web服务器上的深层网络资源的机制。这两种机制都允许Web服务器通告托管的可访问链接，从而发现未链接到表面Web的资源。Google的深层网络显示系统计算每个HTML表单的提交内容，并将生成的HTML页面添加到Google搜索引擎的索引中。