大数据正在揭露说谎的人-木庄网络博客

本文摘自人民资讯，原文链接：https://mini.eastday.com/mobile/211202235953742140550.html，侵删。

先来问个问题，一名女子在社交媒体上秀恩爱。如果她同时在谷歌上打出一个问题“我老公是不是……”，她最有可能搜的问题是什么？

一般情况下，大多数人在社交媒体上秀出的一面，都是美化过的。当他们在搜索的时候，常常会暴露自己真实的想法。所以，大多数人很容易凭直觉猜测，她搜索的很可能是：“我老公是不是出轨了？”但实际上，她最有可能问的问题是：“我老公是不是同性恋？”这个问题的搜索量比“我老公是不是出轨了？”的搜索量高出10%。这个结果，是不是让你吃惊不小？

今天我们一起来挖掘大数据的价值，并告诉你如何进行大数据分析来增进我们对这个世界的理解。

第一部分。

在一个大数据的时代，什么样的大数据是有价值的？大数据，就是能够涵盖海量信息的数据集，能够帮助我们更好了解所在的世界。我们现在所处的大数据时代已经需要用“流数据”来形容了。什么是流数据？举一个例子，现在一辆无人驾驶汽车每秒钟所产生的数据量大概有100G，你的手机标配大概也就64G吧，也就是它一秒钟产生的数据量，一台手机装不下。所以，流数据显示的是一种动态实时产生大量数据的状态。

在这样的大数据时代，我们需要改变认知。几年前，我们认知是觉得数据越多越好。现在大数据已经不是越多就越好了，相比数量而言，挖掘新的大数据的价值更高。一种大数据有没有用，重点是它能不能提供一些新的信息，特别是此前从没有搜集到的信息。

在这么多数据里，怎么发现更多新鲜的大数据呢？可以依靠数字尾气，尾气就是汽车排放的那个尾气，这是一个形容流数据的名词。

我们现在每个人手里都有一台智能手机，我们无论在哪儿，只要拿着智能手机上网、发微信、买东西，都会留下数字的记录，这就是数字尾气。当然数字尾气不仅仅局限在人，随着越来越多的电子产品，比如说家用电器，也被接入互联网，它们也在实时产生数字记录，这些数字尾气汇流成的数据集，变得越来越重要。

我们未来将面临大数据以几何级别增长的状态，更需要从中找到新的信息。那什么是新的信息？首先是相关性的信息。谷歌首席经济学家哈尔·瓦里安做的一个研究的例子。他们利用谷歌的一项功能“谷歌相关性”来做经济学的研究，这个工具能够找到不同数据之间的相关性。研究的问题是，用户搜索哪些信息，能预测一个市场内的房价。

两人把特定地区的搜索信息与房价做了比较。研究发现，的确能够从一个地区的搜索中找到房价涨跌的线索。比如，如果更多人搜索 “八成按揭贷款”，或者 “涨幅”、 “涨价的速度”，一个市场的房价就会涨。如果更多人搜索 “快速卖房的流程” 或者 “按揭超过房价了”，那这个市场的房价还得跌。换句话说，关键词和句子的搜索与一个市场房地产宏观的表现的确有相关性。

其次，随着技术的进步，图像、视频等信息，也越来越多地被广泛使用，成为新的大数据。新的数据很可能是混乱复杂的，并不像平常人认为的是那种一目了然、简单清晰的数据。举了一个根据图像大数据进行分析的例子。研究者发现，越来越多的人在照相的时候开始笑了，这是为什么呢？研究者选择的大数据是过去100年里，美国高中生毕业图册上的照片。

分析这些照片就发现，随着时间的推进，越接近现在，照片上笑的人就越来越多，而且是从微笑到开口大笑，女生比男生更明显。为什么会出现这种变化？研究者发现，主要原因竟然是柯达的市场营销术。早期人们拍照时，总会很正式，正襟危坐，很严肃。

当时用的老式照相机，个头比今天的电影摄像机还要大很多，摄像师要把头钻在黑布套里面，拍个照片费事得很。结果，照相变成了很重要的场合，不是随时随地就做的事情。柯达对此很担心，为了推广更多人使用的照相机器，柯达想出了新的市场推广方式，把照相和快乐捆绑在一起，鼓励更多人随手拍下身边快乐的场景。当人们不再把照相那么当回事之后，也就开始习惯对着镜头微笑，而且笑得越来越开。

第二部分。

无论是有意还是无心，每个人都可能说谎，他们可能在调研时掩藏自己真实的想法，他们的常识可能是错误的。一句话，无论是调研的结果，还是人们的直觉，甚至是许多人相信的常识，都不一定能反映真实的世界。而大数据研究恰恰可以戳穿各式各样的谎言。

过去的认知，总以为市场调研的数据可信。但如果你用调研的方式去了解每个人的想法，每个人都可能说谎，因为人们没有动力在调研中提供真实的想法。

一个明显的例子就是，为什么美国2016年总统大选的民调那么不靠谱。在大选前一天，希拉里还领先特朗普好几个百分点，哪知道大选结果却是特朗普反超。这其实是美国人不真实的回答可能导致川普的支持率少报了至少两个百分点，因为不少特朗普的支持者并不愿意在接受民调的时候说出自己真实的想法。

社会学中将这种行为称作社会期望偏差，也就是人们会把自己非主流的想法藏起来，担心自己的想法跟别人不一样而遭到歧视。美国选民对待特朗普的态度就凸显了这种偏差。这些 “地下”的特朗普支持者觉得，主流民意把特朗普包装成一个大嘴巴的笨蛋，自己如果公开对他的支持，就可能会被别人嘲笑，因此选择在人前隐藏自己的想法。

类似的偏差很多。比如说一些人明明心里存在性别歧视，但是如果别人问起来，他会说自己支持男女平等。像谷歌的工程师公然在内部邮件里鼓吹男性比女性更适合当软件工程师的案例，凤毛麟角，非常少。无论是出于社会压力，还是希望表现得“政治上正确”，调研可能无法发现很多隐藏着的性别歧视者，这就是社会期望偏差在起作用。

人们撒谎的例子还很多，有些时候是善意的谎言，有些时候是情不自禁的 “自欺欺人”。有时候我们对自己撒谎，很可能自己有好高骛远的想法，或者宏大的计划，却无法抵挡住诱惑。比如我们说要读高深的书，其实更喜欢小道消息；声称自己喜欢文艺片，其实还是更愿意看火爆的商业大片。

那么，大数据如何发现人们在说谎呢？可以观察人们在互联网上的行为，就能更好反映他们的倾向。说回2016年美国总统大选，其实，仅仅对搜索信息做一个梳理，也能发现特朗普获胜的苗头。比如说在特朗普逆袭的美国中西部几个州——这几个州的选前民调数据显示，都是希拉里的基本盘，希拉里因此也没有在这里投入多少精力——但是谷歌的搜索就显示，搜 “特朗普希拉里”的人数，多于搜 “希拉里特朗普”的人。显然，如果你倾向于投票给谁，就可能把谁的名字放在前边。

同样，大数据分析对预测大选的投票率也比传统调研的方法要更准确。比如，传统调研调查投票率，会问选民 “你是否会投票”，这个数据不一定是准确的。但是在选举之前几周搜索 “如何投票”或者 “在哪儿投票”的人，最有可能真正在大选日去投票。一个地区这样的搜索越多，这个地区的投票率就越高。

除了在大选中预测民意，大数据分析还能挑战一些常识，推翻我们固有的认知。看到一个问题时，我们经常用直觉去判断，但是大数据告诉我们，很多直觉不靠谱。

先举一个美国 “吃瓜群众”的常识。很多美国人认为，穷人更容易入选NBA，也就是美国男子职业篮球联赛，特别是黑人的孩子，因为在NBA球员里，黑人的比例非常大。这种传统的想法认为，NBA给了穷人家的孩子一条出人头地的出路，因此穷人家的孩子会特别努力，肯吃苦，而中产家庭的孩子缺乏这样的努力与吃苦精神。

现实是这样么？对过去几十年所有NBA选手的家世背景的大数据分析显示，恰恰是中产家庭的孩子更有可能参加 NBA 选秀。因为首先， NBA 需要个子高的球员，而家境比较好的孩子更容易长高，那些吃救济、单亲家庭的孩子很可能成长阶段营养不够，不容易长高。其次， NBA 不仅需要高个子和体能，也需要团队配合能力，需要比较高的情商。而美国的穷人很可能生长在单亲家庭，缺乏情商教育，不合群。现实很残酷。“吃瓜群众”对苦孩子 “能吃苦更努力”的一厢情愿，在大数据面前不堪一击。

再举一个教育方面的例子。我们知道，有个群体叫虎妈，也就是严格管教孩子，要求孩子考名校的妈妈们。虎妈们有一种常识——高中进名校是未来进好大学、找到好工作的敲门砖。纽约就有这么一所特别著名特别难进的公立高中，能上这所高中，基本上就等于拿到了进入常春藤大学的录取通知书，也拥有了进入上层中产的入门券。

大数据的研究者就问了，到底是学校优秀让学生可以有更多机会，塑造了孩子的未来，还是在激烈竞争里脱颖而出的学生本身就很优秀？大数据给了解答这一问题的机会，因为这所高中的录取完全看分数，有人恰巧超过了分数线，就被录取了，有人却因为一两分的差距而落榜。研究者对比在分数线上下差别不大的两组人未来的发展情况，发现是否进入顶级高中对于这两组人的未来没有太大的影响，决定一个人未来最大的因素是他的才智和冲劲。这个研究结果让虎妈们大跌眼镜。

第三部分。

那么下面，我就来为你讲述最后一个重点：当我们有了海量数据之后，可以更精准地对特定地区和特定人群做出分析，我们甚至有机会精准地对某个特定的人进行画像。换句话说，未来可以利用大数据做到各种各样的 “私人定制”。这听起来到底是好事还是坏事？

其实自从大数据产生第一天起，对大数据被 “滥用”的风险，以及在数字时代如何保护个人的隐私，就不断被提醒。利用大数据研究来预测未来，一旦涉及到特定的个人的时候，一定要慎之又慎。

举一个可能造福所有人的例子。未来医学发展中利用大数据的一个重要发展领域就是，找到一个病史记录上跟你的身体信息类似的人，或者跟你的某种身体体征类似的人，比如说血脂和血糖水平、家族心血管疾病病史，当然也包括特定的基因等等，这在大数据时代很快就会成为可能。这可以定义为每个人的数据分身，或者说数据影子。这么做的好处很多。医生可以根据你的数据分身的病史记录，预测你未来接受治疗的反应，并可能提出更稳妥的诊疗方案，真正做到医疗的私人定制。

因为现代医药测试仍然是统计学上的数字，也就是某种药物对某种病情的治疗效果，在统计学意义上有效，对于一个比较大的群体是管用的，但是这些对不同的人并不一定有效，有时甚至有负面作用，因为每个人的其他体征千差万别，对药物的反应也会不同。

这样，从病史记录上找到你的数字分身，就可以知道他的身体对特定药物和特定医疗方法的反应，医生也就可以根据这一点来推荐更适合你的诊疗方案。同样，你的数字分身在治疗过程中的各种表现以及病情发展的记录，也可以帮助医生判断你的病情发展，尝试使用更新的药物和科技手段来治疗。

从大数据分析发展的角度来看，找到每个人的数据分身会越来越容易，但是是否应该允许在各个行业都能轻易使用你的数据分身，却需要特别慎重。比如，如果允许在保险业里找到你的数据分身，也就是找到跟你的风险喜好相同的人，保险公司就能更好判断你能够承受多高的保费，因此定价更精准，宰你也就更没商量。

同样，赌场也非常想找到一个人的痛点在哪里。赌场的所谓痛点，就是到底多大损失会让一个赌徒元气大伤，从而立志戒赌。每个人的痛点都不同。赌场非常想在每个赌徒越过痛点之前打住，比如免费邀请吃大餐，或者免费升级住豪华套间，保证每个赌徒还会成为回头客。大数据分析就非常容易帮助赌场去分析你的数据分身，推断出你的痛点，让你对赌博欲罢不能。

所以，“私人定制”的大数据分析优点和问题都非常明显。但是大数据被 “滥用”的最大风险，恰恰是依赖大数据模型去判断具体个人的行为，并侵犯个人权益。可以从两点来理解这样的风险。

首先，这是一个道德问题。比如，政府是不是应该监管分析个人的 “数据尾气”的行为？企业能不能利用大数据的 “私人定制”牟利？政府可能希望用数字预测模型来预防犯罪，但是政府是不是真的可以在犯罪行为还没有发生的时候就把嫌疑犯逮捕，理由是大数据预测他会犯罪？同样，对于企业而言，大数据分析的 “私人定制”也给了他们最好的牟利机会。

前边提到的保险业就是一个例子，如果能够根据不同人的风险偏好来定不同的保险价格，保险公司的收益将有大幅提升。同样，不同人对同一种商品，能接受的价格也不一样，如果可以根据这个来定价的话，商家也可以利润最大化。但这么做，都直接侵犯到了每个人的隐私。现在已经有专家提出，个人数据也是产权。大数据分析一旦侵害了私人产权，就成了大问题。

其次，这也是一个统计学的问题。大数据分析可以让研究者测试许多变量。但是当你测试特别多的变量的时候，很有可能某个特定变量在统计学意义上有效，这并不意味着这一变量真的能预测未来的结果。举一个例子，有大数据调查研究，人们喜欢什么与人的智商相关。研究就发现，喜欢哈雷摩托车的人，与低智商有关联性。如果有人据此就确定，某个喜欢哈雷摩托的人就智商低，就会出大问题。同样，你的数据分身无论跟你多像，也不是你。如果基于对你的数据分身的分析，就去推论你的其他一些特质，肯定会出问题。

总结一下，大数据让 “私人定制”成为可能，这会带来巨大的福利，但是也暴露出极大的风险。未来无论消费还是医疗，大数据分析都能提供根据个人特点的定制化服务，不过这种大数据分析需要有严格的监管，不然非常容易被用于牟取暴利。

同样，我们在赞叹科技的进步的同时，也需要了解科技的两面性。大数据研究本身是中性的，但是怎么去使用，尤其涉及到预测个人行为的时候，一定要慎重。不然，我们很容易会陷入到一个“透明人”的危险境地。想象一下，如果每个人的一举一动都可以被预测，那会是什么样的世界？

点击下方卡片/微信搜索，关注公众号“天宇文创意乐派”(ID:gh_cc865e4c536b)

听说点赞和关注本号的都找到漂亮的小姐姐了哟且年后必入百万呀！！

往期推荐

这才是世界排名前十的奢侈品！你有几个?（必看）

不满被辞退，一程序员写爬虫程序侵入公司后台删库泄愤，造成经济损失10余万元

中消协双11提醒：遇到促销短信骚扰，留证据可举报

炸裂！跑P站上教微积分，年入170w...

来源：搜狐