当机器知道一切

阿西莫夫的小说《基地》,建立在一个奇特的理论基础上.这种叫做“心理史学”的学说认为,虽然个体是模糊而不可描述,但是大量人口的行动是可以精确预测的.它有点像是热力学的扩展版,认为当人口达到某个统计学量级的时候,就可以精确预测世界的未来.

以巨大的数量来弥合个体之间的差异,是人们一直在做的事情.如果心理史学的设想真的可行,必然需要建立关于人们思想、行为、喜好等等数据网络;然而如何收集这些数据、如何处理这些量级惊人的数据,阿西莫夫并没有提及.

当然,《基地》只是一本科幻小说,而且写于1942年.当时电子计算机尚未诞生,即使是超前如阿西莫夫者,也不会预见到数据收集能力和计算能力会达到怎样的程度.

现在,心理史学的技术基础似乎已逐步发展成熟.也许有一天,我们可以收集人类所有的行为数据,并像预测社会性昆虫的活动那样,预测我们自身.乍看之下有点难以接受,但这正是大数据研究者们梦想的未来.

时代巨变

今天的企业已经快要被数据淹没了.Google每天处理的数据量,是世界上最大图书馆所有存书数据量的上千倍,Facebook每天都会更新数千万张照片以及数十亿条新条目,而世界上最大的视频分享网站每秒钟上传的视频长度都超过一小时.这些数据价值巨大,因为每一个片段背后都有一个活生生的人.

但是如何从数据中精准地挖掘出人们真正想要的东西,则成了前所未见的巨大挑战.

这正是“大数据”这个新兴领域所研究的问题.虽然计算机芯片的发展速度让我们拥有了之前无法想象的计算能力,但是面对这种量级的数据,依然需要探索.

2008年9月,世界上最著名的学术期刊之一《自然》做了一期大数据的专刊,大概可以视作大数据闪亮登场的标志.然而和诸多新技术一样,大数据也经历了学界的热捧、质疑之后,才在业界慢慢发展起来,最终成为用户耳熟能详、风险投资趋之若鹜的名词.

它的动力在于人类测量、记录和分析世界的渴望,在于人类发现一切的雄心:希望以一种前所未有的方式,从海量数据中挖掘出人们自己都不会意识到的需求,提供无处不在的帮助,让这个世界变得更好.

当我们开始更多地借助计算机来探索世界的时候,也就自然而然地引发了数据爆炸.今天地球上数据产生的速度已经超过了数据存储设备生产的速度,而且增速没有丝毫放缓的迹象.

当技术成熟到我们可以获得和使用所有数据,且无需在其中抽样的时候,当我们可以借由互联网访问所有数据的时候,量变便引发了质变.

发现更多的细节

从上世纪50年始,人们就迈开了探索机器翻译的脚步.人们开发了各种各样的算法,以语料库来为机器翻译软件提供养料,希望让计算机可以像人们一样,学习人类的语言,最终让语言之间的隔阂消失不见.但是,即使到了今天,机器翻译依然远不完美.语言的模糊性让擅长精确的计算机一筹莫展;虽然人们已经尽力让计算机学会接受模糊,但是成效不彰.

2006年,Google推出了机器翻译系统.它的思路完全不同:以海量的语料库作为备选,选择所有可能的翻译,然后在其中选择可能性最高的那个.它不大在意输入的语料库质量,而只在乎数量.Google用一贯的思路来看待这个问题:即足够的数量可以弥补质量的不足- - -知道得越多,就会猜得越准.Google的科学家认为,大数据基础上的简单算法,会比小数据基础上的复杂算法更加有效.

维基百科也是这样.似乎只要找对了方法,大数据就会具有某种自我清洁的能力,会更可能给出正确答案.

大数据为机器学习带来了全新的思路,也会改变我们与这个世界交互的方式,许多过去依赖于人类判断力的领域都会面临革命.不仅仅是机器翻译或者机器自动驾驶汽车;网站将会向我们推荐更适合我们的产品,搜索引擎将会根据我们的喜好而重排搜索结果,社交网站会向我们推荐我们更有兴趣结识的朋友,银行会在发现账户出现不合常理的支出时提出警告.

在计算能力和算法的帮助下,我们将可以分析更多的数据,而不像过去那样只依赖于抽样分析.这将会带来更准确的结果,并且发现那些传统分析方式无法发现的细节- - -而这些细节,往往会打开一扇新的大门.

改变人们看待问题的方式

大数据让人们拥有了全新看待问题的方式.传统上,人们更热衷于分析因果关系,例如购买婚礼用品的年轻人,往往会在之后的一年之内购买婴儿用品;但是在大数据领域,人们不这样看问题.在海量数据面前,相关性的重要性超过了因果性.不必关心原因;只需要找到那些彼此相关的需求即可.

今年,Netflix公司开发的一部新剧成了意料之外的大热门.这个拥有3300万以上用户的在线视频租赁企业拥有海量的用户数据,不仅知道每一位用户曾经租过、看过什么片子,还知道他们在观看过程中快进、回退、暂停的具体时间.根据这些数据,Netflix几乎可以描述出每位观众在看电影时的具体动作.

对这些数据的分析,让这家公司发现了一些有趣的关联.有些用户喜欢同一位导演、同一位演员与同一部剧目.于是,他们翻拍了这部剧,请了这些受欢迎的导演和演员来参与,并且大手笔地砸下一亿美元,拍摄了两季26集,并且在一天内全部上映完第一季.

这种打破了无数电视业传统模式的剧目就是《纸牌屋》.Netflix完全没有像传统电视剧那样拍出试拍集,以试探观众的反应;这完全是算法的胜利.《纸牌屋》的成功被视为大数据在流行文化领域的胜利:只要有足够的数据,我们可以计算出目标观众最可能最买账的文化产品,对其节奏的控制甚至可以精确到每一页或者每一分钟.

也许对于崇尚风格和挑战的文化产业来说,计算机的介入会设下一道电网,让人们唯唯诺诺于计算结果之前,不敢越雷池一步;但是,至少就目前来说,像《纸牌屋》这样的成功,只不过是孤例而已,担心还为时尚早.

反思和担忧

如今连接在网络上的移动设备,已经多过了固定设备.用智能手机或者平板访问网络的用户随处可见,他们让那些端坐在自家书房访问网络的人,看起来像是老古董.而可穿戴设备和更多的传感器可能会把这一情形继续向前推进,直到把一切我们可以想象到的事物和人都化成数据为止.

大数据时代要求我们找到方法来量化所有过去看来微不足道的小事,把所有数据都保存在永远在线的互联网上,并以此为基础挖掘出前所未见的潜在价值.云计算和物联网是大数据时代的基础,而这两者都在逐渐成形.机器将会感测一切、计算一切,然后帮我们作出最好的选择- - -人类的生活也许从来没有如此安全和方便.

不过,这种设想将会导致对隐私的担忧,甚至会引发愤怒情绪- - -人们不愿意承认自己的一切都可以量化,不愿意接受计算机的引导和建议,认为这样丧失了人之所以为人的基础:模糊,不确定,随机.美和爱这样的感觉,该如何量化呢?


科幻作家刘慈欣的《诗云》曾经讲过一个类似的故事.外星智慧生物体会到了古诗之美,于是穷尽所有可能组合,把所有可能的诗句都记录了下来.这些诗记录在微小的卡片上,而制造这些卡片耗尽了地球上的大部分物质,让地球外面围起了一圈诗歌之云.但是,这些外星人也没有办法挑选出那些好诗- - -好诗,并不是可以靠算法来分析的.

这可以算是对技术发展的恒久反思.每一次革命性新技术的出现,必然都伴随着对人类本质的拷问.然而,我们总是在漫长的磨合之后,才会坦然接受技术带来的方便,同时接受与新技术共生的事实.

大数据同样如此.每个人依然是独一无二的个体,计算机永远无法真正理解人类的需求;大数据只不过是一种技术手段而已,和语言、文字、印刷术、互联网的作用一样:消除真实世界中的种种限制,让人类自己在智力发展的路径上走得更远.

(作者系科技专栏作者,关注IT技术、技术史和技术对社会的影响.曾出版《未来在现实的第几层》等作品)

类似论文

基于DSP机器视觉的监控报警装置

摘 要 : 针对市场上现有的监控设备的实际需求,设计一套基于嵌入式机器视觉技术的集监控和报警功能的系统 该系统具有。
更新日期:2024-7-23 浏览量:95326 点赞量:21152

济南德佳玻璃机器有限公司

济南德佳玻璃机器有限公司成立于1999年,是一家专业从事中空玻璃加工设备的研发、生产和销售的高新技术企业,拥有目。
更新日期:2024-1-22 浏览量:20509 点赞量:5683

出钱机器2023年第2期

大宁快三十岁了,整日游手好闲,一事无成 这天,大宁从姐姐家偷拿了一本古书,想换点儿钱花 姐姐发现书不见了,就来问他,他百般抵赖 姐姐一时拿。
更新日期:2024-1-9 浏览量:6649 点赞量:2511

《时间机器》和《化身博士》对比赏析

摘 要:科幻小说通过丰富的想象不仅向读者展示了未来人类社会,更重要的揭示了进化所导致的种种社会问题,比。
更新日期:2024-7-12 浏览量:95153 点赞量:21466

别把看病当成“修机器”

据某省消协开展的一项调查显示 医院问诊的平均时间只有4 6分钟 有人把看病时与医生的“经典对话”放在网上,其中医生只有4句话,每。
更新日期:2024-2-2 浏览量:7808 点赞量:2983

频道推荐