网络Flash爬虫搜索方法比较

摘 要 首先介绍Flash资源的优点及网络中的存在形式、网络爬虫的定义及原理、爬行网页面临的问题;其次提出一种新的搜索方法,与传统网络爬虫进行比较,验证新搜索方法的优势;最后指出下一步工作的发展方向.

关 键 词 Flash;爬行器;搜索方法

中图分类号:TP393.01 文献标识码:B

文章编号:1671-489X(2014)14-0032-03

Flash资源以其生动、易于交互和制作简单等特点越来越受到人们的追捧.但是随着网络技术的快速发展,Flash资源在网络中的存在形式变得格外复杂,传统搜索引擎对网络Flash资源的获取不能到达令人满意的水平.作为搜索引擎的基础组成部分,网络爬虫的作用必须得到人们足够的重视,所以,改进网络爬虫的搜索方法越来越受到人们的重视.本文提出一种新的搜索方法,与传统爬虫的基本组成结构和搜索结果进行比较,验证新搜索方法的优势.

1.网络Flash资源的优点及存在形式

网络Flash资源的优点

1)Flash动画通常比较短.因为只占有有限的网络带宽,通常是几兆字节大小,Flash动画平均时间比起传统动画会更短一些.

2)Flash动画能够与观看者产生互动,满足观看者更多需求.观看者可以通过一定的操作来改变动画的播放进程,传统的动画并不具有这样的特性.

3)Flash动画的制作相对传统动画更简易.Flash动画制好者能够相对比较容易地转变为制作者,他们只需要掌握一些与动画制作相关的软件就可以尝试制作Flash动画.Flash动画的制作需要在电脑上进行,Flash制作软件需要的条件比较简单,对硬件要求也比较低,所以不需要较大的投入.

4)Flash动画占用空间较小.Flash动画可以使用矢量图形,所以使得文件所用空间较小;Flash动画完成后可以上传到网上,互联网用户可以欣赏和下载,能够以较快的速度在网络中传播,这样的一个优点让Flash动画迅速在网络上风靡起来.用传统方法制作的一些动画,因为占用的空间比较大,在网络上传播起来就比较困难.

5)Flash动画受制作者水平和技术等原因的限制.不可否认的是,互联网上的不少Flash动画还是比较粗糙、简单的,但是Flash动画的确有还在发展一些新的视觉效果,如三维效果,相信未来将有新的发展.它比起传统的动画来说更容易和智能,更符合大众口味.

6)Flash动画大大减少人力、材料资源的消耗,存储方式更加方便,生产成本大大降低.与此同时,Flash动画在制作周期上相比传统动画也会大大减少,对于相同时长的动画,用Flash技术来制作所需要的时间将会大大缩短,而用传统方法制作通常花费的时间要更长一些.

网络Flash资源的存在形式 Flash资源通常存放在Web服务器中,往往以独立的文件形式存在.传统的方式包括两种.

第一种是嵌入到网页中作为网页组成的一部分.Flash动画嵌入网页的方法很多,情况比较复杂,目前主要是利用标签(OBJECT和EMBED)、脚本、函数或对象将Flash资源嵌入网页,使用网页浏览器解析网页的HTTP标签和脚本,再用相应的形式显示、播放Flash动画.

第二种是通过网页中的锚文本链接.网页中用锚文本链接Flash动画很简单,可以自由下载.然而,通过Ja-Script脚本展现的Flash动画资源作为一种丰富的存在形式,人们对它的研究还比较少.

2.网络爬虫的定义和工作原理

网络爬虫的定义 网络爬虫是搜索引擎系统结构中搜索器的俗称,又叫网络蜘蛛,是一个自动搜集网页的系统程序.它的功能是昼夜不停地在互联网中爬行,收集信息,通常从首页开始,读取网页信息,找到网页中的其他链接地址,继而找到下一个网页,再在新的网页中找到新的链接地址.这样循环往复,目的是把该网站的所有网页抓取完毕.它负责搜集新信息,更新旧信息.

网络爬虫的工作原理 当蜘蛛抓取网页,一般有两种信息收集策略.

1)以URL集合作为起始,沿着这些URL,以宽度优先、深度优先,循环往复地在Web中收集信息.它沿着网页中的超链接爬行到其他网页,循环处理,并把搜集到的全部网页保存起来.这些起始URL通常是一些很正规且包含很多链接的站点.

2)网站空间根据域名、IP地址等划分,每个网络蜘蛛负责一个子空间的穷举搜索.爬虫搜集多种多样的信息,包括网页文件(如HTML、JSP、ASPX等格式),有的网络爬虫能够处理文档(如Word、Excel、PPT等),甚至是数据库.爬虫将收集所有过滤字符格式的文档,从全文数据提取文本.每个文档都与全文文件有对应关系,包括标题、网页的URL、大小、类型和其他属性以及文本内容.


3.网络爬虫面临的问题

截止2014年1月底,中国互联网上网页数量超过1500亿个,静态网页数占59.78%,动态网页数占40.22%,其中有大量页面是重复的,每个网页的字节数大约为50 KB.关于网页数量和字节数的增长率,2013年较之2012年增幅分别为22.2%和19.0%.动态网页的存在,客户端、服务器端脚本语言的使用,使得指向相同页面的URL数量出现爆炸式增长.

以上特征使得网络爬虫面临一定的困难:首先,海量的网页信息使得网络爬虫在有限的时间内只能爬行少量网页;其次,动态网页的一些技术原因使得网络爬虫无法爬行它们.仅在中国就存在如此之多的网页,假如考虑全世界的网页,那么,世界上是不存在能索引互联网上所有网页的搜索引擎的,即使可以抓取全部的页面,也没有充足的空间来容纳.

4.网络爬虫搜索方法比较

网络爬虫的基本组成结构比较 基本组成结构比较如图1、图2所示. 网络爬虫的搜索结果比较 本实验选取的是含有Flash资源比较多且比较权威的10个网站作为种子网站,传统爬行器搜索到的Flash个数与带JS(JaScript)脚本文件搜索的爬行器搜索到的Flash个数分别在最后两列里面,如表1所示.

实验结果分析 本实验所用带JS脚本文件搜索的爬行器不但具备传统爬行器的功能,而且可以爬行网页中包含的JS脚本文件,将JS文件下载下来然后放到网页源文件的后面,再对整体进行Flash个数的统计.本实验分别用传统爬行器和带JS脚本文件搜索的爬行器对相同的10个网站进行爬行,爬行时间为24小时,在爬行了65 626个页面之后,带JS脚本文件搜索的爬行器搜索到的Flash个数比传统爬行器搜索到的Flash个数多了4000多个.这说明JS脚本文件里面也包含了许多Flash资源,能够让网络爬虫找到更多的Flash资源;同时,CSS(层叠样式表)文件也可能包含Flash资源,假如对网页中包含的CSS文件进行搜索,也可以扩大搜索Flash资源的范围.在查找别的网络资源时也可以用这种方法,如图片、视频等,本实验为找到并下载更多的Flash资源提供参考.

5.结束语

随着Flash制作技术的蓬勃发展,其在教育教学中的作用也日益突显,有的Flash资源可以直接应用于教学,有的对教学有潜在价值.网络的迅猛发展使Flash动画的发布与共享摆脱了时间、空间的限制,已成为获取这些资源的重要途径.另一方面,海量丰富和动态更新网络资源,使得人们越来越难找到需要的Flash动画资源.网络爬虫技术将被用于应对互联网上越来越多的Flash资源,在找到隐藏在网页中的Flash资源方面具有很大的应用价值,对建立数字化学习资源库有很大的价值.同时,面临的挑战也很大.本文下一步的工作是找到更多的Flash资源,再下载下来以供研究.

类似论文

计算机网络环境下教学方法

摘 要:随着计算机网络技术的发展,互联网扮演了更为重要的角色极大地推动了网络教学,也就是说网络环。
更新日期:2024-8-12 浏览量:105478 点赞量:22982

计算机网络故障与排除方法探析

摘 要:随着计算机网络技术的发展,互联网在我国的发展速度逐年加快,计算机网络在各个领域都得到了重要应用。
更新日期:2024-12-1 浏览量:21310 点赞量:6118

网络新闻标题创作方法

随着网络技术的日趋成熟,网络新闻媒体迅速发展,网络新闻更是越来越受到大众的青睐,而相较于传统新闻,一条网络新闻标题的制作更。
更新日期:2024-11-21 浏览量:142775 点赞量:30351

基于二维动画制作之FLASH动画创作方法

摘 要:作为二维动画创作的一个重要工具,FLASH软件已经被普遍采用进行动画创作 本文就动画创作的三个阶段。
更新日期:2024-6-24 浏览量:84072 点赞量:19142

《计算机网络基础课》教学方法改进

摘 要:计算机网络基础课是每个高校学生都必须掌握的基础课程,计算机基础课也是计算机专业的高校学生所必。
更新日期:2024-6-10 浏览量:82075 点赞量:18655

改进中职计算机网络基础课程教学方法的

[摘 要]:根据计算机网络基础课程及中职院校学生的特点,从计算机网络课程的教学现状、教学内容入手,讨论如何提。
更新日期:2024-4-5 浏览量:13428 点赞量:4952

提高计算机网络维护效率的方法

【摘 要】在信息时代飞速发展的今天,人们的生产及生活领域中,已经离不开各种计算机技术和网络技术的应用 计算机网络技。
更新日期:2024-4-6 浏览量:12016 点赞量:4210