摘 要:人类生成大数据的基本能力已超越了我们处理数据、管理数据和转移数据的能力.而如何管理数据,并将数据从一点转移到另一点,将是人们面临的一大挑战.文中分析了人们在大数据管理中遇到的一些重要问题.
关 键 词 :数据管理;大数据;保密性;完整性;大数据基线
美国政府在即将到来的大数据项目中将面临重重挑战,其中之一就是生成数据量不足.但事实上,Gartner最近的报告显示,企业数据年平均增长速度在40%~60%.
作为一些生成大量数据机构(包括国家天气服务局、国家海洋和大气管理局)的主管政府部门,美国商务部的这一数字甚至更低.
在最近的FOSE大会上,美国商务部CIO Simon Szykman表示:“我们不存在挑战的领域之一就是我们生成数据的能力.我们生成数据的基本能力提升很大,从很大程度上讲,这一能力已超越了我们处理数据、管理数据和转移数据的能力.”
如何管理数据,并将数据从一点转移到另一点,将是美国政府面临的一大挑战.
Szykman还提到了商务部在大数据中遇到的其他一些重要问题,主要为以下五个方面:
数据工程师
研究领域的很多科学家正在研究大数据的精密使用,比如在预防医学、药品设计和胎儿检查领域如何开发基因数据.但Szykman担心的是,真正了解大数据技术构架的人太少.
他说:“我们得好好想想大数据及我们如何利用它,特别是在一些特殊领域.无论是政府的直接应用还是由政府出资科研,政府都在推动大数据这一前沿技术的发展.”
保密性vs.完整性
对于那些有科研基础的机构来说,大数据安全不仅仅是一个保密问题.事实上,更大的担忧是数据的长期完整性.
Syzkman说:“这是IT界一直为之努力的议题.有时候,我们过分关注结果而忽视了安全.人们有时会问:‘我们最终都要和公众分享这一数据,那安全有什么重要呢?’”
这一问题的最佳答案来自科研机构,如NOAA.他们收集的基准数据正巧是美国气候变化政策备受争议所在.
Szykman说:“不管这些政策的政治倾向性如何,它们都对经济有重大影响.如果我们放弃了这些长期气候记录数据的安全性,那将造成严重后果.我们的确得好好想想大数据的问题.”
大思路,早规划
在向开放数据转移的过程中,尽早搞清楚系统生命周期的要求显得越来越重要.
Szykman说:“过去没有做的一件事就是尽早研究开放数据在生命周期上的要求.我认为,数据模型、分享和信息的情况会越来越普遍,而系统性的战略会越来越多.在生命周期的早期,在我们成功安装新的系统或应用程序后,就应该尽早考虑该问题.”
数据真实性
大数据的重要性不仅仅在于数据所生成的记录,更大的价值在于根据这些数据得出科研结果的“复制能力”.
Szykman说:“从学术层面来看,这正是你证实所做工作价值的时候:其他人也可以对结果进行复制.另一方面,如果你丢失了得出科研结果的那些数据,这会降低结果的合理性.”
制定基线
由于很少存在类似的应用程序,难以获取相关信息或进行比照,因此有时候很难评定大数据以及其他高科技项目的开支和风险.出台开支和风险的基线,对大数据和数据中心来说都是一大挑战,因为还没有相关标准.
他说:“操作一些简单事情有时候充满挑战,如计算数据中心的能耗.大数据基线不仅在基础设施层面,还包括数据包,都需要对未来资源进行更优规划.