前言:一篇好的文章需要精心雕琢,小编精选了8篇采集技术范例,供您参考,期待您的阅读。
网络资源自动采集技术反思
摘要:人类已经进入大数据时代,大数据产生了巨大的社会价值和商业价值,如何高效地获取数据,已成为提高未来竞争力的关键要素。网络爬虫就是一种高效的信息采集利器,利用它可以快速、准确地采集我们想要的各种数据资源。但是随着互联网和Web技术的发展,各种反爬虫措施的使用,给网络资源采集带来了很多困难。因此,为了准确高效地采集到需要的数据,网络爬虫也采取了具有针对性的反制措施。本文介绍了网络信息自动采集技术相关的基础概念和原则,研究并归纳了网络信息自动采集技术的存在的主要难点和解决问题的主要技术手段。
关键词:网络资源采集;反爬虫;Scrapy;Selenium
0引言
人类社会已经进入大数据时代,大数据深刻影响和改变着我们的工作和生活。随着互联网、移动互联网、社交网络等的飞速发展,产生了巨量的大数据,蕴含着前所未有的社会价值和商业价值。尤其是人工智能浪潮的兴起和深度学习技术的突破,不论在工程领域还是研究领域,数据已经成为必不可少的一部分。大数据成为21世纪最重要的经济资源之一,正如马云所说:未来最大的能源不是石油而是大数据。如何高效的获取数据,并对互联网上的非结构化数据进行清洗,得到结构化数据,以及对数据进行挖掘、分析的能力,成为企业提高未来竞争力的关键要素[1]。
1网络资源采集基本原理和基础原则
把互联网比作一张巨大的网,网上的每一个结点就相当于这张网上的一个节点,而采集的程序就相当于网上的一只小蜘蛛,根据定制的规则,批量的获取所需要的资源数据,就是这只“小蜘蛛”所要完成的工作。因此,网络资源采集又叫网络爬虫(Webcrawler)或网络蜘蛛(Webspider)。简单来说,网络资源采集就是获取网页并提取和保存信息的自动化程序,主要分为三步。
1.1获取网页
用电信息采集通信技术应用
一、用电信息采集系统
用电信息采集系统主要是是将小区的用户的用电信息进行收集,然后进行处理以及实施监控。可以有效的完善用电信息采集的系统平台,可以达到一个全自动化的目标,满足SG186的信息化深化的应用要求。用电信息采集系统通信构建主要有两个层次。第一个是远程通信:主站系统与集中器间的通信;第二层次是本地通信:集中器和表计之间的通信。在用电信息采集系统中,因为采集过程比较复杂,以及采集数据很大,使得采集工作比较困难。同时,因为集中器和用电信息采集系统进行通信的时候的系统容量比较大,所以这都要求光纤通信来进行支持。
二、EPON通信技术
EPON通信技术,是一种新兴的宽带接入技术,全称以太网无源光网络(EthernetPassiveOpticalNetwork,EPON),在物理层采用无源光纤网络(PassiveOpticalNetwork,PON)技术,在链路层使用以太网协议,最后通过利用PON的拓扑结构实现以太网的接入。所以EPON技术具有两个方面的优点,以太网技术以及PON技术,具有宽带速度高、扩展性强、兼容性好等系列的特点。EPON采用的是一点到多点的结构,所以在具体操作中拓扑结构比较灵活,可以组成数形、星形以及总线形等结构。
三、EPON通信技术在用电信息采集系统中的应用
1、需要考虑的问题。
(1)分光必须要综合考虑到ONU到OLT的距离,以及在传输中会发生的损耗,所以对光分配网络进行专门的设计。为了使得PON网络能够得到最大的覆盖范围。(2)当建成以后,如果新增节点,需要重新计算网络中的ONU关系以及分光器。
自动化数据采集技术现场管理应用
摘要:
数据自动化采集技术是建筑施工现场管理中的一种新信息技术。该技术的运用是跟踪定位项目对象,实时传输数据信息,并通过计算机处理分析数据信息,进而向现场监控人员传递施工现场的具体情况,从而对施工现场进行有效监控和管理。基于强化建筑施工现场管理的目标,本文从功能用途方面对数据自动化采集技术进行分类,再对数据自动化采集技术在建筑施工现场管理中的应用展开深入研究,希望对提高施工现场管理水平有一定的借鉴作用。
关键词:
自动化数据采集技术;施工现场管理;应用
0前言
一般而言,实时有效的施工现场数据信息收集对建筑工程管理有重要影响。传统的数据收集技术需要消耗大量的人力、财力、时间等,现场监控人员往往需要消耗近一半的时间来收集和处理数据信息,而且人工数据收集对工作人员有一定的经验要求。然而复杂繁琐的人工数据收集往往导致信息不及时或者数据误差较大等,造成决策失误、效率低下等问题。先进自动化技术和信息技术促使施工现场高效管理的实现。借助数据自动化采集技术来跟踪定位项目对象,并及时传输和处理数据信息,进而向现场监控人员传递施工现场的具体情况,从而对施工现场进行有效监控和管理。
1建筑施工现场自动化数据采集技术
复杂地区可控震源高效采集技术探讨
在多年的勘探实践中,中国石油东方地球物理公司吐哈物探处通过大量的理论分析和现场试验,2005年和2006年在国内率先提出了可控震源拆分振次和交替扫描技术,在之后的几年中,发展并应用了拆分振次和交替扫描联合应用技术,2011年在国内又首次成功试验了滑动扫描技术,2012年利用KZ34重型震源和滑动扫描技术研究并应用了拆分台次技术。上述技术的应用,大大地降低了单炮激发成本,为高密度、高覆盖、宽方位三维地震勘探技术的应用提供了经济支撑。与此同时,也探索出了一套谐波压制和基于勘探目标的可控震源参数优化设计技术。这些技术的应用,大幅提高了生产效率,为观测系统优化提供了广阔的空间,使得高密度三维地震勘探技术得到工业化应用与推广,地震资料品质大幅提升,获得了良好的勘探成果。同时将这些技术应用到探区外的地震采集项目中,也见到了明显的效果。
可控震源高效采集技术
目前,国内可控震源高效采集技术主要有拆分振次技术、交替扫描技术和滑动扫描技术,这些技术已在国内油气勘探中得到普遍应用。
1.拆分振次技术
以往可控震源施工中,多采用4台8~12次振动,生产效率很低。根据叠加原理可知,不同路径共反射点的水平叠加(多次覆盖)效果优于相同路径多次振动的垂直叠加,根据近年来的生产实践和试验,笔者认识到振动次数对资料品质影响很小,而震源组合台数影响较大。在此认识和试验的基础上,提出了可控震源“拆分振次”的概念,即将一个炮点的多次振动拆分成多个炮点的一次振动(图1),同时适当增加震源组合台数,拆分后面元成倍缩小,炮点密度成倍增加,而激发成本并未增加,甚至还有所降低。这样,就较好地解决了方法和成本之间的矛盾。该技术2005年首次应用到了TH盆地油田开发地震项目中。
2.交替扫描技术
在常规可控震源施工中,当震源从一个点搬到下一个点期间,仪器就要等待,如果区内障碍物多,震源搬迁时间长,仪器等待的时间会更长,这样将大大降低施工效率。为此,笔者首次提出并应用了两套震源交替扫描的施工方法。交替扫描是指使用两组或多组震源交替作业,一组震源扫描时,另一组震源移动搬点,待第一组扫描记录结束后,第二组震源已经到位并开始扫描,这样就实现了仪器不间断记录,从而缩短了由于震源搬点带来的生产间隙停歇,大大地提高了生产效率。
数字采集传输技术在采油工程的运用
摘要:把大数据、物联网、互联网、人工智能技术以及5G运用到数字化采油用中,大大提高采油的效率。基于智能化、数字化技术,分析油厂采油过程中的数字采集和传输技术应用,提高经济效益。
关键词:智能化;数字化;信息化;物联网;大数据
1引言
为响应国家两化融合“以信息化带动工业化、以工业化促进信息化,走新型工业化道路”的号召,进一步提高采油系统数字化和自动化应用力度[1-5]。长庆油田率先部署,与中科院合作进行作业区采油智能化系统的开发与试验。采油智能化系统是将每一口油井,每一个井场,每一个工作站的设备用数字化技术合为一体,通过互联网、物联网技术物物互联,整合应用硬件和软件,完成实时采集、上传、分析和优化,实现“井筒热洗智能清蜡提效果,抽油机运行平稳节能提效益,井筒抽汲参数优化提效率”的目标,实现以作业区为基础网络平台的数字化运行和数字化监管。
2现状分析
采油厂拥有较成熟的油井实时数据采集系统,井场采集的数据采用无线传输,数据汇集后通过光缆传输到站控。现在的采油作业区SCADA系统总体架构如图1所示。采油厂拥有较成熟的油井基础数据,对油井深度,油井泵效,采油的地质情况、机站、配水间等数据都有所统计。采油厂当前对抽油机的效率,油井产量效率及油井的结蜡情况都有一定的研究,只是在对历史数据的利用方面有所欠缺,在对数据进行分析时的基础数据利用有待增强。
3解决方案
通信技术用电信息采集系统研究
1对低压电力线载波通信技术的分析
低压电力线载波通信技术是采用电力线通信的技术,以电力线为信号传输媒介实现信息的收集、处理和传递。它的优点主要体现在以下几个方面:(1)因为它不需要为通信建立实质上的线路,于是节约了电力通信的成本。(2)它自身的操作极其简单、方便。(3)它能更加充分地利用通信技术系统中的资源。虽然,低压电力线载波通信技术具有以上这些优点,但是它自身也存在着一些缺点。比如,当它自身处在一个条件比较差的环境中时,通信技术系统不能很安全地传送信息。因此,改善通信的环境,是目前唯一能够实现信息安全传送的办法。在当代的电力通信事业中,电力线载波通信技术又被分为了两种:第一种是基于宽带的电力线载波;第二种是基于窄带的电力线载波。而低压电力线载波通信技术采用的是第二种电力线载波通信技术。
2简析低压电力线载波通信技术在用户信息采集中的应用
2.1低压电力线载波通信技术的工作原理
低压电力线载波通信技术分为两个部分:一是对载波进行调解的通信部分;二是对载波进行路由选择的通信部分。
2.1.1对载波进行调解的通信部分
它的通信工作机制是:当开始进行信息传送时,将这些信息调解成一种特定的信号,这种信号通过电力线的传送路线,被准确地输送到接收方,最后又恢复成为原来的信息。在现代电力事业中,载波调解时所用到的技术主要是频率偏移控制技术、频段相位改变控制技术和直接扩展频率控制技术。
网络信息采集技术资源建设研究
【内容摘要】
随着我国经济发展的需要,高素质人才的缺口越来越大,为此,强化教育教学,提高人员素质成为了社会发展必须要解决的一个重大问题。在教育重视程度不断强化的基础上,教育教学的理念和技术有了显著的发展,更多的先进技术在教育中得到了应用,教学资源的丰富化也在进一步实现。就目前的教学现状而言,积极进行教学资源的建设,一方面可以提升教育教学的广泛性,另一方面可以强化教学的深入性,所以利用现代化方式采集资源意义重大。网络技术和信息技术是现阶段利用的较为普遍的技术,此技术的突出优势是信息传递速度快,而且采集范围广,对于教学资源的建设有着重要的意义,所以本文就网络信息采集技术辅助教学资源建设进行研究分析,目的是积极探讨技术利用,从而建立起更加规模化和专业性的教学资源。
【关键词】
网络信息采集技术;辅助教学;资源建设
教学资源建设是现代教育教学的一项重要内容,强化资源建设不仅可以丰富教学内容,而且通过教学资源的共享,实现教育教学质量的整体提升。过去的教育资源采集,主要依靠的是渠道的力量,但是由于渠道建设的投入巨大,而且效果不显著,所以积极探讨其他教育资源建设采集方式意义重大。目前的社会,信息技术和网络技术应用广泛,网络资源更是层出不穷,所以积极利用信息网络技术,进行网络信息的采集,可以更好地帮助教学资源的采集,从而实现教学资源库的建设,进而帮助教学质量的提升。
一、利用网络信息采集技术辅助教学资源建设的客观性
(一)网络信息采集技术利用的必要性。
网络视听节目监管系统数据采集技术
[摘要]文章根据目前网络视听节目监管系统中视听节目数据采集技术的现状,通过分析归纳出目标Web 页面编码元素的共有特征,提出一种基于视听节目识别技术的通用型模板主题爬虫程序,并分析研究网站遍历策略及多进程协同并行执行策略等关键技术,以大幅降低网络视听节目监管系统的维护成本,提高其监管工作的智能化水平,为研究建立高效的网络视听节目监管系统提供参考。
[关键词]网络视听节目;主题爬虫;广度优先搜索;多进程调度
近十年,网络视听媒体发展迅速,视听节目传播数量呈爆发式增长,并呈现数据更新频繁、内容丰富多样等特点。网络视听媒体平台在提供丰富多样的节目的同时,也为一些“丑、色、怪、假、俗、赌”等各类违法违规信息提供了传播渠道,损害了网络视听媒体的影响力和公信力,助长了社会不良风气。因此,建立智能化的网络视听节目监管系统,推动监管系统创新发展,在海量数据信息中快速、准确地提取出视听节目,及时发现和解决各类违法违规问题,对构建风清气正的网络视听环境具有积极意义。目前,大多数网络视听节目监管系统主要通过定制模板爬虫程序的方式来采集目标网站数据信息,此类模式的爬虫程序需要人工归纳和提取目标网站 Web页面中视听节目的所属板块、上传者、下载地址等信息来作为该网站爬虫程序的模板。其优点是采集数据准确率高,但若网站发生改版,模板程序匹配不到对应的属性信息,则会导致无法抓取到网站数据,这就需要技术员重新修改爬虫程序模板,才能采集到所需数据。此类定制模板爬虫程序根据特定网站属性而制作,因此不适用于其他网站数据信息的采集,其扩展性和通用性较差。文章研究通用型模板主题爬虫程序,使其普遍适用于网络视听节目服务网站的视听节目数据采集,并为构建智能化网络视听监管系统提供具有参考意义的案例。
一、通用型模板主题爬虫程序的实现
主题爬虫程序是一个自动提取与主题信息相关网页的搜索程序。其具有三个方面的核心技术问题,一是设定采集数据目标的描述或定义;二是网页数据信息的过滤与分析;三是网站 URL 的遍历策略。文章讨论的通用型模板主题爬虫程序预设置主题相关信息为视听节目特征元素,采用文字密度页面分析技术,提取出与主题相关的视听节目链接,而网站遍历策略则以广度优先搜索策略与“海捞”算法相结合的方式来采集目标数据信息。
(一)视听节日特征元素
在网络视听节目服务网站中,不同的开发者虽然在采用技术及代码方面存在一定的差异,但是也会遵循统一的技术规范。文章在对大量 Web 页面传播视听节目的代码进行分析研究的基础上,经由高层次抽象提取、归纳,提取出视听节目在 Web 页面代码中的共同特征信息,作为通用型模板主题爬虫程序的主题目标信息,此种主题爬虫程序能普遍适应大多数互联网视听节目服务网站的数据采集。在通常情况下,Web 页面中的视听节目编码的后缀名信息、 引用播放信息、播放器加载信息、特殊播放格式信息等,均遵循一定的规律特征,主要表现为以下几种情况。一是 Web 页面中视听节目的后缀名编码规则。在通常情况下,视听节目常用格式有 MPEG、AVI、ASF、MOV、WMV、3GP 等,这些文件格式在 Web 页面中的代码也以相应的视听文件后缀名格式出现,如 MPEG 文件格式视听节目在 Web 页面中编码的后缀名为“.mp4”,AVI 文件格式视听节目在 Web 页面中编码的后缀名为“.avi”等。二是 Web 页面中引用视听节目也具有一定的编码规则。为了提高网站数据资源的丰富性,有部分视听节目服务网站传播的视听节目除了本网站所属服务器的资源,还调用其他媒体平台的视频资源,如引用央视网、优酷、腾讯、爱奇艺等媒体平台所提供的视听节目源。这些引用站外平台节目源的网站在 Web 页面中会出现引用媒体平台的 URL 地址相关标识。 比如,某网站引用央视网网站平台的视听节目资源,则在该视听节目展示区域的 Web 页面编码中就会含有“cctv.com”等元素。三是 Web 页面中加载播放器信息的编码规则。互联网视听节目服务网站为用户提供视听节目服务,需要在 Web 页面代码中加载播放器相关信息。目前被广泛使用的播放器的类型主要分为专用播放器、流媒体、flash、现代播放器等。流媒体是目前网络平台较为流行的视听媒体传播格式,其常见的格式有 M3U8、RA、RM、SWF 等。其传播方式是把视听节目压缩后,按规则将视听节目拆分成多个小片段,以视频流(视频片段)的方式发送至用户端,当特定播放器接收到视频流(视频片段)后,用户即可边播边看。此外,有部分网站也通过调用专用播放器的形式为用户提供视听节目在线观看服务,例如调用爱奇艺、优酷、腾讯、哔哩哔哩等平台研发的专用播放器。另外,也有部分网站采取调用 player 等通用播放器的方式为访问用户提供视听节目在线观看服务。在 Web 页面中加载这些流媒体播放器、专用播放器等播放器信息,页面编码均呈现特定的编码规则,如含有“showPlayer”“player.video.qiyi.com”“flvplayer.swf”等播放器信息编码元素。四是特殊播放器在 Web 页面中的元素特征。除了上述情况,还有部分互联网视听节目服务网站以加载特殊播放器的方式提供视听节目,其页面编码也有相应的规律,如含有“aliyunlayer”“playerframe”等特征元素。通过分析上述几种视听节目特征元素发现,网络视听节目服务网站在为用户提供视听节目在线观看服务时,其 Web 页面中的编码元素均具有一定规则,根据这些编码元素的特征和规律,配置为主题爬虫程序的目标信息,制作成基于视听节目识别的通用型模板主题爬虫程序。此类爬虫程序作为网络视听节目监管系统中数据信息采集的重要手段,解决了原有定制模板爬虫程序通用性较差等问题。主题爬虫程序根据 Web页面中含有符合视听节目的元素特征的某一种或多种元素来判断页面含有视听节目的概率,网站页面的链接中含有符合视听特征的元素越多,则该链接为视听节目链接的概率就越大。在通常情况下,在程序调试及实际使用过程中,使用者根据网站采集数据的正确率,对主题爬虫程序主题相关度的阈值进行调整,以提升程序采集的准确率。