0
点赞
收藏
分享

微信扫一扫

读《大数据时代》

我是芄兰 2022-04-23 阅读 69

       提到大数据,你会想到什么?是淘宝推送商品的背后指南?还是程序员电脑上的庞大数据库?这都是大数据的一隅,实际上大数据只是空洞的IT行业术语,不同的人就有不同的认识。而在我看来,大数据正是我们所处的时代本身。时间来到2012年,大数据(big data)一词被越来越多的人提及,它被人们用来描述定义信息爆炸时代产生的海量数据。也是在这一年,《大数据时代:生活、工作与思维的大变革》这本书在国外出版。而今2022年,人们也只是看清了大数据的冰山一角。让我们坐着时光的快车,一起回到10年前,看看那时的作者对大数据时代的看法。

       首先,要认识“大数据”,我们就要先认识“数据”。在拉丁文里,数据(data)最初的意思是“已知”,今天的“数据”主要指的是信息。大数据简单理解就是它由无数的“已知信息”堆积而成。仅仅是堆积并不能体现大数据的明智,我们在数学上往往是用已知去求得未知。因此大数据的目的很简单,就是求得未知。但是不同于以往人们对因果关系的认知,大数据求得未知的方式是通过相关关系。例如根据大数据统计,近年来可乐和雪碧的销量逐年下滑。具体调查发现这是人们关注“健康消费”的结果,在物质充裕的今天,人们对饮料的消费更加偏向健康风格,缺点就是味道上会有些一言难尽罢了。其中大数据显示二者销量下滑就是相关关系,而具体调查显示“健康消费”的观念导致销量下滑就是因果关系。虽然事后可口可乐也推出什么无糖、含膳食纤维等看起来很健康的可乐风格,但这改变不了它是碳酸饮料的实质,倒是让果汁销量上升了不少(笑)。

       其次,我们要了解大数据给我们带来的转变,随着时代的发展,信息量爆炸增长的今天,我们本能的去获取我们认为更精确的数字,但是面对庞大的数据量,精确到小数点后十几位的数字显得很累赘,假如要我们求中国GDP要精确到几分钱,就显得小肚鸡肠。所以自然而然的我们对数字精确度的追求降低了。

       最后,对数字精确度要求降低,取而代之的是对数据量的需求量增多,早期的抽样调查是为了应对样本量过多的问题,对统计过程做出的简化。在时代飞速发展的今天,计算机的处理速度完全能够消化以“亿字节”为单位的数据,省下来的性能用于统计总体,能够保证更多的信息录入,即“样本=总体”,直接对总体进行调查计算,这样处理的数据足够多,得出的结果也能更接近实际值。假如我是一家游戏公司,要调查某游戏玩家的每周活跃度,那我大可不必去变着法子抽样调查,直接后台监控玩家活跃数据就能做到实时统计,同时利用大数据可视化做出更加清晰的图标,连锁反应之下就轻松做到了过去很难做到的事。

          其实上面就是书中提到的“大数据的精髓”,其精髓就在于我们分析数据的三个转变:1、分析更多数据,不再依赖采样分析。2、忽略微观精确度,重视宏观洞察力。3、相关关系与因果关系同样重要,甚至能得出对问题更有帮助的结论。仔细品味你会发现,从过去我们一直追求的“用样本来代替总体”“追求更精确的结果”“有因才有果”这几个理论在大数据并不吃香,原因在于大数据本身的性质如此。科技的进步让能收集的数据变多;数据足够多了那结果自然显得更精确;大数据主要负责罗列事实、陈述 谁和谁可能有关,并不能解决问题发生的原因。

       我们可以用大数据去了解人们对一种商品的喜爱程度,也可以用来改善交通规划,还可以用来监控病人的身体状况,给出更好的治疗方案。大数据如此神奇的原因就在于几乎我们周围的一切都可以量化,数据、技术和思维的三足鼎立使得我们能用大数据分析了解更多未知的领域。相关关系指导着因果关系的推演,世界的轮廓正清晰的显示在我们的屏幕上。这就显得大数据这个概念那么万能。

       然而,越是万能的概念,越是空洞。这就意味着大数据的好坏单方面取决于使用对象。收集数据的手段越来越多,我们几乎每时每刻都暴露在“第三只眼”的监视之下。大数据的价值不再单纯来源于它的基本用途,而更多来源于它的二次利用,这就颠覆了当下隐私保护法以个人为中心的思想。越来越多的人开始抱怨大数据的危害,你是否还在为手机应用连绵不断的授权所困扰?又是否对动不动就输入身份证的游戏抱有偏见?我们要么选择相信这个资本公司能不滥用自己的身份信息,要么就是出于对自己隐私保护的目的放弃一些权力。这时,在种种复杂矛盾下,大数据也从时代宠儿变成人人口中的“安全隐患”。

       这就是大数据被滥用产生的负面效应,但随着法律对个人隐私权的完善和企业承诺对于个人隐私数据的保管,风波逐渐平息,可是相关的事例让我们不禁坐下来深思大数据未来的发展。无论是束手束脚的发展下去,还是任其放纵不去接管,这些方法都不可取。

       当然,大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法替代,大数据为我们提供的不是最终答案,而是参考答案,帮助只是暂时的,而更好的方法和答案还在不远的未来。所谓“凡是过往,皆为序章”,走在时代前列的我们一定可以拿到更好的结果,续写新的篇章。或许到那时候,就像我们怀念印刷术刚发明的时代一样,或许未来,我们也会怀念今天的大数据时代。作者也在感慨大数据的是非之后完结了这本《大数据时代》。

       时代在日新月异中不断发展,我们的认知水平也在不断提高。人们往往对日出满心期待,又在黄昏时分感慨不已。与我而言,大数据就好像浮在正午的太阳,炎热迫使图求安逸的人们去寻求更好的环境。嗷嗷待哺的我们还在学习新的知识,或许几年之后我们也能成为风口,将未来吹向远方。

举报

相关推荐

0 条评论