农业云大数据自组织推送关键技术综述

摘 要:“信息过载”是大数据时代农业用户发现感兴趣信息面临的一个严重问题,个性化推送是解决该问题的一个有力工具.本文提出了农业云环境下大数据自组织区域推送的必要性,同时阐述了当前几项热点关键技术,包括用户建模、推荐对象建模和推荐算法及云计算下个性化数据挖掘,并尝试给出了推荐系统未来研究的难点、重点和热点问题.

关 键 词:推荐系统;云计算;数据挖掘;个性化

中图分类号:TP393文献标识码:ADOI:10,3969/J.issn.1003-6970.2013.03.001

本文著录格式:[1]郭平,刘波,沈岳,农业云大数据自组织推送关键技术综述[J].软件,2013,34(3):1-6

0引言

随着物联网、云计算、下一代互联网等新一代信息技术的快速发展和信息内容的日益增长,“信息过载”问题愈来愈严重,推荐系统(remendersystems)被认为可以有效的缓解此难题,帮助用户从海量数据中发现感兴趣信息,满足个性化需求.

近年来,我国在农业个性化知识服务服务领域从本体论、语义网、知识工程角度开展了广泛的研究,成果主要体现在三个方面:以搜索引擎为代表的知识检索系统,需回答大量预设问题进行知识推理的专家系统,特定领域应用系统,它们在各自的场合都发挥了积极作用.然而知识检索系统不能满足用户个性化需求,专家系统的应用很难普及,特定领域应用开发成本高和重用难度大.物联网与数据挖掘云服务提供知识服务云实现物理世界的“感知控”,知识服务云的研究主要集中在制造和图书情报领域,云环境下的农业个性化知识服务的研究尚处于起步阶段,主要集中在服务模式的构建与展望.

本文是对科技部科技支撑课题“农村农业信息化关键技术集成与示范”(2011BAD21803)与“农村物联网综合信息服务科技工程”(2012BAD35800)研究成果的总结,也是对农业云推荐系统研究的升华.

1农业云大数据自组织区域推送的提出

1.1农业信息资源特点

我国自“十一五”时期以来,农业农村信息化发展取得了显著成效,主要表现在农业农村信息化基础设施不断完善、业务应用深入发展、物联网技术在农业中逐步推广应用等方面.从中央到省,市、县建立了“三农”综合信息服务平台,涉农企业、组织和科研院所也积极搭建了各具特色的农业信息服务平台,目前正向乡镇村发展.农村信息员队伍及以农业综合信息服务站和农业合作社为代表的农村信息服务机构发展迅速,“三电合一”、“农民信箱”、“农村”等信息服务模式应用深入.云计算利用海量的存储能力把农业信息资源形成高度集成和虚拟化的计算资源一“农业知识聚合云”,支持用户在任意位置、使用各种终端方便获取信息,但由于农业领域生态区域性和过程复杂性及农业区域发展不平衡和农民文化的多层次性也带来了“信息过载”、“资源隐晦”“资源迷向”等问题.

1.2农业云环境下大数据自组织区域推送

物联网和云计算背后是大数据,在云计算模式下,用户不确定的、智能的交互,个性化需求更加多元化,信息交互行为更加频繁;在大量用户通过社会标注达成共识的过程中,逐渐形成不同社区,涌现出群体智能,形成“农业用户兴趣社交云”.利用云的海量存储、群体涌现智能、强大的计算能力和物联网感知控优势,可以提供面向用户复杂分析计算,实现业务重点由面向应用和资源的传统信息服务,转变为基于对海量农业知识进行动态划分,有目的、主动、、自组织推送给有需求的农业用户,为农业用户提供实时性、个性化知识服务,指导农业生产过程.


首先以Hadoop+MapReduce+HBaSe分布式框架为处理平台,对“农业用户兴趣社交云”,融合用户兴趣偏好和社交网络进行建模,将这些多元用户信息充分融入推送系统会更好产生推荐结果;将推荐对象“农业知识聚合云”按农业知识高维性、多样性、多层次性特征分类聚类为各种知识块静态和动态元数据;通过智能算法推荐和社会网络推荐为用户发现个性化内容;根据用户的地理位置、用户服务的评价以及云基础服务提供商信息将预测值最高的服务推送给用户实现与物理世界的互动(如图1).

从以上分析可知,农业云大数据自组织区域推送的关键技术有用户兴趣模型、推荐对象模型,推荐算法、数据挖掘四个部分,以下分别对这几项技术进行论述.

1.2.1用户兴趣模型

用户兴趣建模是个性化服务技术的基础和核心,包括数据收集、模型表示、模型学习与模型更新.用户兴趣建模的方法有很多,常用的有向量空间模型、神经网络、遗传算法、用户一项目评价矩阵、基于案例的表示、基于本体论的表示、基于加权关 键 词的表示,基于社会网络的表示等.几乎每种表示形式都是以一种私有形式进行知识表示,此外一些表示技术还依赖于模型学习,如广泛使用的基于向量空间模型的表示与TF-IDF学习技术联系在一起.表示形式的私有性和对学习技术的依赖性阻碍了用户模型在系统间的共享,这种共享对于减少用户建模工作量,提高推荐算法启动效率具有重要意义.因此开发独立于模型学习技术的通用用户模型表示技术是目前研究中热点,基于语义网和社交网络的用户模型在这方面表现了优势.

用户的兴趣或需求会随时间、情景发生变化,结合长期和短期兴趣及兴趣的变化用户兴趣建模的重点,目前的更新机制很难及时跟踪用户兴趣的变化,有更好的学习效率和动态变化适应能力的建模是未来的重要研究方向,国内外大量的文献对此展开了研究,遗忘函数、时间窗、用户兴趣的漂移特性等被提出.

在湖南农业云中,基于呼叫中心、互联网,手机报、手机短信,电视广播等用户在多应用系统中形成的兴趣偏好和社交网络特征,提出“农业用户兴趣社交云”建模思路:以图论模型表示用户“兴趣图”数据和“社交图”数据,根据经典的局域世界演化理论,综合考虑实际情况中用户之间的多重关系和关系的强弱程度,以用户之间相似度为节点连接概率因素,生成动态多维网络,进行用户数据的挖掘和更新;结合农业本体,在多维社交网络的基础上,将基于农业本体的区域用户兴趣融合在云计算平台上进行处理.1.2.2推荐对象模型

推荐本质上是将推荐对象的特征与用户的兴趣偏好进行推荐计算,所以推荐对象的描述和用户的描述密切相关.推荐系统应用不同领域,它推荐的对象也就各不相同,目前,湖南农业云主要是文本性数据;不同的对象,特征也不相同,目前没有一个统一的标准来进行统一描述,主要有基于内容、分类、聚类的方法.

基于内容的方法是从对象本身抽取信息表示对象,常见的是向量空间模型,使用最广泛的是加权关 键 词矢量方法进行特征选取,使用TFIDF计算每个特征的权值.向量空间模型对模型中的特征词进行权重估计(TF-IDF)过程中不考虑特征词之间的相关性,直接用特征词作为维度构建文档向量,降低了文档向量对文档概念表达的准确性以及对不同类型文档的区分能力.

基于分类的方法是把推荐对象放入不同类别,把同类文档推荐给对该类文档感兴趣的用户.主要有两种,一种是基于知识工程的方法,使专家的类别知识直接编码为分类规则,正确率和召回率高,但工作量大;近期研究最多的是另一种一机器学习,根据训练样本集建立分类器,方法有很多,常见的有概率分类、 贝叶斯回归分析、决策树分类器、决策规则分类器、Rocchio分类器、神经网络分类器、支持向量机(SVM)、分类器融合、Boosting分类器、k最近邻方法(KNN)等.

研究文本聚类的最初目的是为了提高信息检索的查全率和查准率,近年来,文本聚类用于自动产生文本的多层次的类,并利用这些新生成的类对新文本进行效率较好的归类,已经提出了大量的文本聚类算法.传统的聚类算法在处理高维和海量文本时效率不很理想.针对这样的问题,将聚类分析与计算智能理论,并行计算、云计算等相结合,设计出高效的并行聚类算法,己经成为一个比较流行的研究思路.

在湖南农业知识云数据模型中,将能更好反映特征词相关性的超图模型引入,将文档中提取的特征项表示为图中节点,特征词条之间的关系构成图中边,用边上权值表示相关联特征项之间共现程度.通过对文本图模型K最近邻划分实现降维降噪的粗粒度数据切片;对切片后数据反映用户兴趣如地域、时间、诉求等多维度特征的智能聚类,实现细粒度的聚合与分割.

“农业知识聚合云”模型算法建立在基于MapReduce处理的大规模图上,得到各种知识块静态和动态元数据.

1.2.3推荐算法

推荐算法是整个推荐系统中核心部分,大量的论文和著作都关注了这个方面.目前,基本包括以下几种:基于内容过滤推荐、协同过滤推荐、基于关联推荐、基于知识推荐、基于效用推荐、基于网络结构推荐、基于聚类推荐、基于社会网络分析推荐、混合型推荐等.通过对众多推荐算法进行比较分析,各种算法都有优缺点(如表1):

各种推荐方法都有各自的优缺点,在实际问题中采用多种策略进行混合推荐,主要有两种混合思路:推荐结果混合和推荐算法混合.目前大部分的推荐算法都是混合推荐算法,主要还是以协同理论为核心,再配合其他算法的优点或交叉学科的理论来改善推荐的质量.另外基于社会网络个性化推荐算法研究是一个趋势,基于社会网络的推荐是协同过滤的延伸,通过考察结点之间(用户和用户之间或产品之间)的相关性和结点之间的信任度可以获得比一般协同推荐更高推荐效果,如文献提出将社会网络关系结合到推荐算法中.纵观国内外在推荐算法上的研究,主要集中在基于用户显性评分数据的协同过滤算法上,对基于非显性评分行为数据场景下的研究却显得有点不足.目前在扩展性问题上学术研究不是很具有针对性,主要集中在通过各种交叉学科中的方法来对用户进行聚类或对行为数据进行降维、压缩等缩短推荐的项目集或减少计算量,从而提升算法的性能;有关基于云平台上的推荐算法研究目前主要集中于协同过滤算法MapReduce化.而实际应用中,己出现利用分布式集群解决算法扩展性方法,如GoogleNews的推荐算法就是部署在分布式环境下,从而满足海量数据下的推荐服务.

根据农业云大数据自组织区域推送实际情况将推荐结果和推荐算法混合,提出“三层推荐”策略:在丰富的知识块云元数据基础上,将知识块属性和用户兴趣行为基于频繁模式的知识关联撮合推荐;通过复杂网络聚类算法识别一个用户多个社区兴趣,融合“兴趣图”和“社交图”协同过滤推荐,突破算法推荐的局限性,让用户信任的朋友圈子为其发现和推荐内容,取得社交推荐的时效性和算法推荐的长尾性之间的互补,从而针对每个社区成员提供精准个性化推荐;根据基础设施服务供应商、用户所在的地理位置以及用户对服务可用性评价值的相似性等,将大量用户云终端聚类为一定数量的社区,提高云端推送服务的有效性,最终形成通过大众参与,支持云间变换,集电信网、广播电视网、互联网合一的自组织区域推送,较有效地处理一般推荐算法中存在的稀疏性、冷启动以及大规模实时计算的问题.

1.2.4云计算下个性化数据挖掘

数据挖掘采用了多种领域中的思想,包括来自统计学的抽样、估计、假设检验以及人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论.随着数据挖掘的不断发展,也采用了包括最优化、进化计算、信息论、信号处理、可视化、信息检索、云计算、并行计算等技术.与传统的数据挖掘相比,云计算下的个性化数据挖掘的目标,就是通过云计算中心,向用户提供针对其即时演化需求的数据挖掘SaaS(SoftwareasaService,软件即服务)服务,其基础问题主要为:对于用户不同的数据挖掘需求以及针对用户特点进行个性推荐的建模和表征;数据挖掘算法适应云计算的并行分布式化;使数据挖掘的结果和算法能够支持云间变换并形成一种面向用户、即时组合的、变粒度的云服务,其中数据挖掘的云服务化是研究的难点.

(1)云计算下个性推荐的建模和表征

云下的个性推荐建模和表征与传统上个性化推荐明显的不同在于海量异构大数据和用户间群体涌现的社交网络,它们本质上形成了多个顶点的大规模图.云计算可以为大规模个性化提供技术支撑,云服务本身也有大规模个性化应用需求,目前研究两者结合的文献还很少,张泽华从计算资源的角度基于复杂系统理论对云计算联盟体系结构进行建模,并基于蚁群优化算法和复杂系统理论进行了负载均衡研究;郭昱就有效处理客户需求信息该如何选择与分布云计算平台中的关键节点问题,提出了基于云计算的大规模客户需求模型.赵东杰对复杂网络、数据挖掘与群体智能有效结合进行了探索研究.农业云大数据自组织推送通过“农业知识聚合云”分解的静态、动态知识元数据和“农业用户兴趣社交云”形成的兴趣图、社交图基于用户行为和知识元数据的关联撮合,通过人工智能和社交圈子帮助用户发现内容,实现搜索和推荐的无缝结合,为智能个性化推荐实现“内容”愿景.(2)算法并行分布式与高性能计算

对于大规模数据的处理,典型系统结构大致分为三类:基于MapReduce模型的分布式并行处理系统、基于BSP模型的分布式并行处理系统和分布式图数据库系统.数据挖掘算法现在的发展趋势是基于云计算的并行数据挖掘,它的同一个算法可以分布在多个节点上,多个算法之间是并行的,多个资源实行按需分配,而且分布式计算模型采用云计算模式,数据用DFS或者HBASE,编程模式采用MapReduce这种方式.Bhaduri等整理了一个十分详尽的并行数据挖掘算法文献目录,包含了关联规则学习、分类、聚类、流数据挖掘四大类分布式数据挖掘算法,同时还包括分布式系统、隐私保护等相关的研究工作.

2基于云计算推荐系统研究的重点、难点与热点

2.1云环境下用户偏好获取安全与可信问题

推荐系统中,用户数据集的数量和质量问题,影响用户模型的精确度、可用性,导致问题的根本原因在于用户对隐私和安全的考虑.而云环境下,数据的安全与隐私是用户非常关心的问题.既能得到准确用户信息而提高推荐系统性能,又能有效保护用户信息同时检测并能预防推荐攻击(一些不法的用户为了提高或降低某些对象的推荐概率,恶意捏造用户评分数据而达到目的)将是未来推荐系统的一个重要研究方向.

2.2模型过拟合问题

过拟合现象是指系统推荐给用户的对象与用户刚刚看过的不是太相似或者太不相关.过拟合(过学习)的问题本质上来自于数据的不完备性,这在实际应用中是无法完全避免的.在于兴趣偏好获取方式或隐私等原因使用户没有对足够多类别的对象进行评价.目前解决的主要方法是引入随机性,使推荐算法收敛到全局最优或者逼近全局最优,关于既要保证推荐的多样性,又不能与用户看过的对象重复或毫不相关这一问题的研究是推荐系统研究的一个难点和重点.

2.3稀疏性与冷启动问题

稀疏性和冷启动问题困扰推荐系统很长时间了,前者的解决办法主要过滤和降维.目前针对冷启动问题提出了一些解决方法,主要分为 两大方面,一是直接利用传统协同过滤的评分数据结合特定的方法进行解决,二是新用户或新项目的内容属性信息与传统的协同过滤评分数据相结合的方法进行改善冷启动问题.稀疏性与冷启动问题一直是推荐系统研究的一个难点和重点.

2.4数据挖掘的结果和算法智能服务化

将数据挖掘算法融入针对海量用户的使用记录和计算资源间协作进行优化组合,利用这些特性通过大众参与的交互作用,提高云间服务的智能性、有效性将是大数据时代推荐系统研究的一个制高点.将数据挖掘任务及其实现算法服务化,通过SaaS方式向云计算中心索取所需的相应的数据挖掘,这可能是目前突破数据挖掘专用软件使用门槛过高、普通大众难以触及、企业用户使用成本太大、挖掘算法和结果难以实时得到评价和相应修改等问题的最有希望的解决方案之一,也是数据挖掘走向互联网大众、走向实用化的重要的一步.

2.5大数据处理与增量计算问题

目前对大数据的研究仍处于一个非常初步的阶段,半结构化和非结构化数据给传统的数据分析带来巨大挑战,尤其算法如何快速高效地处理推荐系统海量和稀疏的数据成为迫在眉睫的问题.当产生新的数据时,算法的结果不需要在整个数据集上重新进行计算,而只需考虑增量部分,对原有的结果进行微调,快速得到准确的新结果,是增量计算的理想状态.但一般而言,随着信息量的增多,算法的误差会累积变大,最终每过一段时间还是需要利用全局数据重新进行计算.一个特别困难的挑战是如何设计一种能够保证其误差不会累积的算法,也就是说其结果与利用全部数据重新计算的结果之间的差异不会单调上升,要达到这种程度,还有很长的路要走.

结束语:

随着新一代信息技术的快速发展和信息内容的日益增长,搭载在云计算平台的自组织区域推送具有它天然的优势:云的海量存储使得推荐系统能有效获取训练数据;云的分布式计算能力提供了较高的响应能力;海量用户的使用记录和计算资源问大众参与的交互涌现,最终形成自组织优化组合的智能个性化云推送.因此,农业云自组织区域推送具有重要的研究意义和广阔的应用前景,对云环境下其他领域的个性化推送应用具有借鉴意义,但目前存在大量问题需要进行深入细致的研究.

02;技术[J],计算机学报,2011,34(10):1753-1767

[36]吕善国,吴效葵,曹义亲,基于网络结构的推荐算法[J]_实验室研究与探索,2012,31(7):278-280,368

[37]周佳,罗铁坚,一种基于内容关联的学术资源协同推荐算法[J],中国科学院研究生院学报,2013,30(1):117-123

[38]唐晓波,张昭,基于混合图的在线社交网络个性化推荐系统研究[J]情报理论与实践,2013,36(2):91-95

[39]王立才,孟祥武,张玉洁,上下文感知推荐系统[J],软件学报,2012,23(1):1-20

[40]刘建国,周涛,汪秉宏,个性化推荐系统的研究进展[J],自然科学通报,2009,19(1):1-15

[41]许海玲,吴潇,李晓东,阎保平,互联网推荐系统比较研究[J]软件学报,2009,20(2):350-362

[42]孙冬婷,何涛,张福海,推荐系统中的冷启动问题研究综述[J],计算机与现代化,2012,5:59-63

[43]张亮,基于聚类技术的推荐算法研究[D],成都:电子科技大学硕士学位论文,2012,7-18

[44]Liu,F.,Lee,H.J.Useofsocialworkinformationtoenhancecollaborativefilterinperformance.Expert[J]SystemswithApplications.2010,37(7):4772-4778.

[45]Jiang,J.,Lu,J.,Zhang,G.,Long,G.Scaling-UpItem-BasedCollaborativeFilteringRemendationAlgorithmBasedonHadoop[C].2011IEEEWorldCongressonServices.IEEE[A].2011,490-497.[46]周源,基于云计算的推荐算法研究[D],成都:电子科技大学硕士学位论文,2012,26-64

[47]吕雪骥,基于云计算平台的智能推荐系统研究[D],合肥:安徽大学硕士学位论文,2012,25-43

[48]刘晨,改进的聚类挖掘算法对网络自助出版“长尾”文本的推荐应用[D],上海:复旦大学硕士学位论文,2011,10-19

[49]陈桂生,张海粟,刘玉超,云计算下的个性化数据挖掘服务[EB/OL],[2011-2-28]中国人工智能学会通讯,http://,caai./contents/50/119,

[50]张泽华,云计算联盟建模及实现的关键技术研究[D],昆明:云南大学博士学位论文,2012,26-114

[51]郭昱,吴清烈,基于云计算的大规模客户需求响应模型及其节点的选择与分布[J],系统工程理论与实践,2011,31(增刊2):1-6

[52]赵东杰,张海粟,韩言妮,杨海涛,何宇,基于网络化数据挖掘的群体智能研究方法[C],Proceedingsof2010The3rdInternationalConferenceonComputationalIntelligenceandIndustrialApplication(Volume9).IEEE[A].2010,239-243.

[53]AnandRajaraman,JeffreyDidUllman著,王斌译,互联网大规模数据挖掘与分布式处理[M],北京:人民邮电出版社,2012,1-253

[54]BhaduriK,DasK,LiuKun,etal.Distributeddataminingbibliography[EB/OL].[2011-01-03].http://.cs.umbc.edu/~hillol/DDMBIB/

[55]杨健,汪海航,王剑,俞定国,云计算安全问题研究综述[J],小型微型计算机系统,2012,33(3):472-479

[56]孟小峰,慈祥,大数据管理概念技术与挑战[J],计算机研究与发展,2013,50(1):146-169

[57]周涛,个性化推荐技术的十大挑战[EB/OL],[2013-3-30],http://,programmer../13824/

类似论文

网络节点安全关键技术综述

摘 要:本文全面分析网络节点安全要素,指出其中关键技术,最后提出需要继续研究的问题,起到“抛砖引玉”。
更新日期:2024-5-14 浏览量:68748 点赞量:15494

农业信息智能服务关键技术成果

长期以来,作为我国农业信息化的核心内容,农业信息服务一直是现代农业发展的重要内容,在降低灾害风险、保障粮食安。
更新日期:2024-4-19 浏览量:57980 点赞量:13574

信息安全关键技术综述

摘 要:随着信息技术的普及,信息的价值越来越高,伴随而来的是信息所面临的安全威胁也越来越严重,如何使用。
更新日期:2024-8-25 浏览量:106268 点赞量:22902

基于LOD的三维地形数据的组织

摘 要:该文基于笔者从事LOD的相关研究,以基于LOD的三维地形数据组织为研究对象,论文首先探讨了地形的分块与调度方法。
更新日期:2024-1-7 浏览量:8018 点赞量:3269

B/S架构中的数据推送设计与实现

摘 要 :以B/S系统中的数据推送开发为背景,选取了通过客户端浏览器的定时刷新来定时向服务器请求新数据的方式,基于J2EE架构。
更新日期:2024-11-19 浏览量:143919 点赞量:30997

航测遥感内业数据处理关键技术

摘 要:航测遥感内业数据处理关键技术在进行全数字摄影测量中发挥重要作用 其能够优化和完善全数字控制空间数据生产流。
更新日期:2024-12-21 浏览量:156603 点赞量:33613