聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep Web)数据的关键一步。本文通过介绍使用PageRank算法分析网页的重要性的一种聚焦爬虫,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep web数据集成的质量和效率。