大数据已经渗透到我们生活的方方面面,从企业做决策到普通人刷手机,似乎一切都离不开数据的支撑。铺天盖地的宣传都在强调数据的魔力——它能精准勾勒出每个用户的画像,实现因人而异的个性化服务。但在这股热潮背后,我们是否真的搞清楚了数据到底是什么?数据的价值究竟从哪里来?
在说大数据之前,不妨先看一个生活中的例子。假设你想了解一个人,不同的信息渠道会带来截然不同的结果。
第一种渠道,你可以找知情者问个明白:工资多少、在哪儿上班、什么学历、家庭条件怎么样、有没有房和车。这种方式得到的信息最详细、最具体。
第二种渠道,你只能拿到一些被筛选过的指标:收入区间、单位性质、学历层次、大致的消费水平。这些信息虽然有用,但已经被处理过,有些模糊了。
第三种渠道,你只能看到一些抽象的评分或等级:收入80分、单位2级、学历2级。这种高度抽象的信息便于比较,却丢失了具体细节。
这三种方式正好对应了数据从精细到粗糙的三个层次。很明显,数据越详细,信息密度越高,判断起来就越准确。但这还不是全部。

在刚才的例子中,有一个关键因素常常被忽略:评价本身是有主观性的。同一个人的同一组信息,不同的人基于不同的立场和目的,可能会给出完全不同的结论。比如一个准备结婚的人,如果发现对方毕业于名校或者在大公司做高管,可能就直接决定了。但在更复杂的情况下——比如谈生意或者组建团队——单某一个维度优秀,并不足以支撑做出决定。
问题在于,提供数据的一方往往有自己的考虑。他们可能为了保护隐私,只给你脱敏后的数字;或者为了自身利益,只展示对自己有利的那部分。而接收数据的一方,往往没办法验证这些评价是否客观、评判标准是否一致。
这让我想起一个古老的说法:同一个姑娘,在不同的人眼里有不同的样子。媒人跟穷书生说姑娘贤惠持家,跟富户说姑娘精明能干。需求不一样,评价的标准自然也不同。
把这个场景放到大数据领域,你会发现很多看似精密的算法模型,实际上也存在类似的问题。

算法给出的一般是定量结果,而且这种结果往往只是在特定数据范围内的相对比较。模型的适用范围有限,放到具体场景中,效果常常不如预期。更关键的是,模型的可解释性往往不够——用户搞不清楚算法为什么给出这样的结果,也就很难产生信任。
这就解释了为什么市面上各种数据产品都在炫耀各种指标和排名,但真正能让用户信服、愿意掏钱使用的没几个。
当然,这不是说大数据没用。关键在于怎么正确理解和运用它。

大数据真正厉害的地方,在于从海量数据里通过复杂的算法提炼出有价值的信息。但这里有个前提:数据本身不能直接产生价值,只有被合理解读、被正确应用的信息才有价值。
同样一组数据,从不同角度去解读,会得出完全不同的结论。比如说“数据显示这是一个白色的小盒子”——这可能只是个客观描述;但如果告诉你这是一件知名品牌的化妆品,你的认知就变了;再进一步,如果告诉你这是一个礼物,信息的含义又不一样了。

算法是工具,它给出的结果是单一的。但现实世界是复杂的,具体问题需要结合外部信息和具体情境来综合判断。不同的人、不同的角度、不同的深度,面对同样的数据会有不同的感受和结论。
数据的价值不在于数量多少,而在于能否在适当的场景下被正确理解和应用。这或许才是大数据时代最值得思考的问题。
立即登录