网络爬虫基本原理范例6篇

前言:中文期刊网精心挑选了网络爬虫基本原理范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

网络爬虫基本原理

网络爬虫基本原理范文1

关键词: 搜索引擎;网络爬虫;实现;设计;主题

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)17-0023-02

Abstract: In the information age, the Internet is full of all aspects of our lives, and the application of the search engine for our life brought great convenience .The research on the realization of web crawler in search engine is of great significance to improve the efficiency of search engine. This paper analyzes the realization of the web crawler in the subject oriented search engine, and puts forward the corresponding methods and measures.

Key words: Search Engine; Web Crawler; Implementation; Design; Theme

1 概述

使用搜索引擎,人们可以方便快捷地在网上获取有用信息。随着大数据时代的到来,传统的通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战。主题搜索引擎以提供分类精细、数据全面、更新实时的搜索服务为目标。网络爬虫是搜索引擎的基础模块,是搜索引擎的重要基础。

网络爬虫是一种能自动提取网页内容的程序,利用网页信息格式进行网页分析,也可以定期搜集某个或某些网站的内容,跟踪网站的发展历程。随着网络爬虫技术的快速进步,网络爬虫更加广泛地运用于网站结构分析、个性化信息获取以及用户兴趣挖掘等多种服务中。

2 主题搜索引擎简述

搜索引擎是一种用来在万维网上检索资源文件的计算机程序。搜索引擎根据用户输入的检索关键词推测出用户的查询意图,然后快速地返回相关的查询结果信息供用户使用。

大数据时代互联网数据爆炸性地增长,急切地需要一种快速、准确细致、全面深入且更新及时的信息检索方法。主题搜索引擎克服了传统搜索引擎的诸多困难,使信息检索变得更加精确细致,使搜索到的信息更加全面深入,同时使专题信息和学科信息的更新更加及时。

3 网络爬虫简述

网络爬虫从一个初始URL队列开始,从中获取一个URL,获取网页,从网页中提取所有的URL,并将新的URL添加到URL队列中。然后网络爬虫从队列中获得另一个URL,重复前面的过程,直到达到停止条件。这种爬取资源的方式存在着网络连接不稳定、网页特征多样化、URL不规范等一些问题。

4 网络爬虫分类

第一个网络爬虫是美国麻省理工学院的学生Matthew Grey于1993年写成,后来改进了爬虫程序并将其引入到搜索引擎中。随着搜索引擎技术的不断进步,爬虫程序也越来越复杂,后来产生了通用爬虫、限定爬虫和主题爬虫等几种不同类型的爬虫。

4.1通用爬虫

基本原理上文已分析,但爬取的范围过大,爬取顺序要求低,对爬取速度和存储空间要求较高。

4.2限定爬虫

限定爬虫是一种能爬取用户感兴趣的某一类网页的爬虫程序。但它不要求爬取所有的网页,只需爬取某些特定种类的网页即可。工作过程是:采用朴素贝叶斯方法用网页样本训练一个文本分类器,然后用这个文本分类器指导爬虫的偏好,从爬虫队列中选择出用户感兴趣的网页。

4.3 主题爬虫

主题爬虫先确定一个或多个主题,根据一定的分析算法过滤与主题无关的URL,保留与主题相关的URL并将其放入等待URLs队列中;然后使用某种搜索策略从等待队列中选择下一个要抓取的URL,并重复上述过程,直到达到某种停止条件。

首先主题爬虫需要判定当前抓取与设定的主题的相关性,其次主题爬虫采用按相似度大小抓取网页的策略来抓取网页。相比通用爬虫它极大地节约了硬件和网络资源,加快了爬取速度,还可以满足人们对特定领域的需求。

5 主题爬虫的爬取策略

主题爬虫以通用网络爬虫为基础,在此基础上进行优化和扩展,使其具备主题网络爬虫特有的功能,进而实现面向主题的网页信息提取。

主题爬虫尽可能搜集与主题相关的网页,减少下载无关网页的可能。主题爬虫与通用爬虫相比需要解决以下问题:主题的描述和定义、网页内容与主题相关性的判定、链接重要程度的判定、如何提高主题爬虫资源覆盖率。

面向主题的信息采集系统可分为4个部分,即主题集选取、Web信息提取、页面预处理、链接过滤。

5.1 主题集选取

主题网络爬虫中,为有效进行剪枝和过滤操作,需要对主题进行定义或描述,以此来确定采集的方向,主题集的好坏直接影响到了最终的采集效果。主题可以是几个关键词,还可以是自然语言。用户可以自己定制主题,对主题做进一步的描述。主题集的合理选择是主题爬虫的基础。

5.2 Web 信息提取

从采集起点开始,主题爬虫开爬取Web上的信息资源,通过各种Web协议自动爬取站点的有效信息。为了高效地获取信息,主题爬虫系统中大多都采用了多线程的方式来提取Web信息。

5.3 页面预处理

把主题爬虫抓取到的Web页面规范化,主要包括:页面语法分析,页面去噪等操作,提取网页中的有效信息,然后判定网页信息的主题相关性,过滤与主题无关的页面,从而提高主题爬虫的主题信息提取的准确性。

HTML网页内容可以从正文、标题、标记信息、链接信息等方面反映。因此,对网页信息的提取只需将这些特征信息提取出来。读取页面时,找到标记,将标记中间的内容中的所有标记去除,就得到了页面正文;标记中的内容就是网页的标题,它显示在标题栏中。

即使提取的URL通过了主题相关性判别,提取到的页面内容与设定的主题也可能有很大差距。所以,在页面提取之后应对页面信息进行与主题相关性判别,淘汰与主题无关页面。

5.4 链接过滤

要提高主题Web信息的提取速率和准确性,系统需对采集到的UI进行URL和主题的关系的判定,叫做链接过滤,或链接预测。

链接过滤常用的算法是EPR算法。在链接关系的基础上加入针对链接的相关主题的权重,再引入链接网页之间的主题相关度权重,使产生的重要页面是针对某一主题的,这形成了EPR算法。

6 结束语

网络爬虫的发展为搜索引擎的成功奠定了坚实的基础,然而随着互联网技术的迅速发展,人们对搜索引擎的需求越来越大,信息检索服务也在向着个性化、精细化的方向发展,人们对网络爬虫的进一步设计优化提出了更高的要求。

主题爬虫核心问题是主题页面群的采集和无关页面的过滤问题。网络爬虫具有重复性,如何将页面动态变化的规律与先前的搜索统计结果相结合,提高爬取效率是一个值得研究的问题。目前网络爬虫采用的搜索策略都较固定,缺乏适应性,如何提升爬虫的自适应性有待进一步研究。

参考文献:

[1] 刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29,47.

[2] 盛亚如,魏振钢,刘蒙.基于主题网络爬虫的信息数据采集方法的研究与应用[J]. 电子技术与软件工程,2016(7):168-169.

[3] 梁萍.搜索引擎中网络爬虫及结果聚类的研究与实现[D].中国科学技术大学,2011.

[4] 于娟,刘强. 主题网络爬虫研究综述[J].计算机工程与科学,2015,02:231-237.

网络爬虫基本原理范文2

>> 基于.NET搜索引擎的研究与应用 基于网站建设的搜索引擎优化策略构建 基于搜索引擎优化的省级档案网站调查与分析 基于的档案垂直搜索引擎的实现 基于Servlet的搜索引擎 基于垂直搜索技术的搜索引擎 基于成功要素的搜索引擎优化模型研究 基于Memcached的日历搜索引擎系统优化设计与实现 基于搜索引擎优化的网络宣传机模型 基于搜索引擎优化的网页设计要点研究 网站搜索引擎优化研究 基于Lucene的图书垂直搜索引擎探析 基于lucene的校园网搜索引擎 基于时间技术的搜索引擎排名算法 基于文本的图片搜索引擎的研究 基于神经网络的搜索引擎应用 基于JAVA技术的搜索引擎研究 基于Nutch的搜索引擎的研究 基于垂直搜索引擎的主题爬虫技术 基于Google搜索引擎的原理及使用 常见问题解答 当前所在位置:l”),目的是帮助用户对站点的整体有个把握。

(2)XML格式的网站地图(类似“http:///Sitemap.xml”),它是网站上链接的列表。制作Sitemap并提交给搜索引擎可以使网站的内容完全被收录。

中创建网站地图方案:

(1)创建一个名为Web.sitemap的XML文件,该文件按站点的分层形式组织页面。的默认站点地图提供程序自动选取此站点地图。注意:该文件必须位于应用程序的根目录中。站点地图代码演示如下:

(2)利用免费的在线工具(http://)创建网站地图,只要输入网站地址,在线工具就会动态生成HTML格式或XML格式的网站地图。

4.3 AJAX优化

Ajax(Asynchronous JavaScript and XML)是一种使用客户端脚本与网站服务器交换数据的网站应用开发技术。它为Web中的客户端脚本和服务器语言之间架起了一座桥梁。使用AJAX技术,其直接效果是页面不需要打断交互流程就可以重新加裁从而实现动态地更新,由此极大提升速度和用户体验。但Ajax技术在SEO方面被归入“糟糕”一类效果,因为JavaScript是AJAX实现的基础,对于AJAX来说是必不可少的,而搜索引擎不识别JavaScript代码,因此搜索引擎抓取不到AJAX动态加载的内容。解决方法是在XML Sitemap中建立网站的所有链接,建立所有内容的静态导航链接。这不仅有助于提升网站的搜索引擎可见度,还确保那些没有启用JavaScript的用户也能看到导航条内容和链接。

4.4 网页重定向优化

网站运行过程中会遇到服务器出错,程序配置错误等一系列的问题,这就需要页面重定向。如果不做重定向,用户请求浏览网页碰到这些的时候会出现一些系统默认的错误页面,这样对于搜索引擎来所很不友好。

HTTP 404错误意味着原始网页的URL失效,这种情况很难避免,譬如浏览器请求的网页被删除或者移位,用户键入链接拼写错误等。搜索引擎同样产生HTTP 404错误,认为该页面不存在。如果页面过多将会导致站点的权重大量的流失,影响到排名收录。甚至会受到搜索引擎的处罚,对网站排名进行下降处理。

配置错误页面解决方法,在web.config的system.web节里增加以下配置:

RedirectMode属性设置为ResponseRedirect,则将用户重定向到该错误页面,并且原始URL更改为该错误页面的URL。RedirectMode属性设置为ResponseRewrite,则将用户定向到错误页面,并且不更改浏览器中的原始URL。

301代表永久性转移(Permanently Moved),301重定向是网页更改地址后对搜索引擎友好的最好方法,只要不是暂时搬移的情况,都建议使用301来做转址。

下的301重定向方法,在原页面的Page_Load事件中增加以下代码:

private void Page_Load(object sender,System.EventArgs e)

{Response.Status = "301 Moved Permanently";

Response.AddHeader ("Location","http://");

}

5 结束语

随着互联网的发展,搜索引擎优化会得到越来越广泛的应用。利用搜索引擎收录和排名的规则,根据不同网站的架构,有针对性地基于不同开发平台的特点进行优化来获得搜索引擎的青睐,从而达到提高网站排名的效果。本文对网站的搜索引擎优化处理做了一些研究,还有很多所有平台共有的优化要素都要全面加以优化,才能获得较好的优化效果。

参考文献:

[1]郑耀东从入门到实践[M].清华大学出版社,2009.

[2]吴泽欣.SEO教程:搜索引擎优化入门与进阶[M].人民邮电出版社,2008.

[3]杨帆.SEO攻略:搜索引擎优化策略与实战案例详解[M].人民邮电出版社,2009.

[4]王建.精通Web标准建站―标记语言、网站分析、设计理念、SEO与BI[M].人民邮电出版社,2007.

[5]徐晓力.SEO及其策略研究[J].电脑知识与技术,2010,1(6):59-61.