做用户画像时,最让人头疼的就是打通各种用户ID。企业内部业务多,系统各搞各的,ID散落各处,形成一堆数据孤岛。怎么把这些碎片拼起来,看清一个真实用户的完整面貌?这就得靠ID-Mapping了。看看阿里、网易、美团和58同城这些大厂是怎么做的,我们就能摸清不同业务下ID打通的门道。
企业做业务整合,最直接的痛点就是合并两套身份。美团和大众点评合并就是个典型例子,同一个人在两边APP里留下了完全不同的身份标识。怎么破?美团去找最靠谱的交集锚点。虽然两边账号都支持手机号、微信、微博登录,但手机号最接近实名,自然就成了绑定账号的核心纽带。这种靠强账号体系打通的方法,在靠交易和注册吃饭的企业里最常见——用户一注册就给个全网唯一的UID,以后所有的实名信息都围着它转。

但如果用户不怎么登录,或者经常在不同端上碎片化使用,只看账号就不够用了。58同城旗下有同城、赶集、安居客、转转一堆产品,数据来源五花八门,既有各自的用户ID,也攒了海量的设备ID。面对这种弱账号、强设备的复杂生态,58同城拿IMEI、IDFA、手机号等当桥梁,把不同业务线的标识连成一张网。那些没注册的沉默用户,就靠终端设备ID来认。SDK收集设备参数报上来,后台通过算法实时算出唯一的终端ID下发,这样哪怕用户是匿名的,行为轨迹也能被拼凑出来。
等到ID种类越来越多,简单的键值匹配就会撞上算力瓶颈和逻辑漏洞。网易有云音乐、邮箱、严选,ID也是五花八门。网易的办法是引入数据挖掘算法,特别是图划分和社区发现技术。这套算法不光能认出几个孤立的账号是不是同一个人,还能处理现实里的麻烦事。比如一个人多设备,网易就设个关联阈值,把只出现一次的异常账号踢出去,防止脏数据搞乱画像;手机设备大概两年半一换,系统就加了衰减系数,老设备时间越久权重越低,保证认人的准头和时效。
业务复杂度像阿里这样达到极致时,穷举计算就彻底没戏了。阿里业务铺得太广,线上线下交织,ID从电脑cookie到IMEI,从淘宝号到支付宝号,啥碎片都有。每个业务部门只摸到用户的一条边,光靠手机号或邮箱去营销,根本看不清这个人到底是谁。为了打通这座最顽固的数据孤岛,阿里搞出了OneData体系,OneID专门负责把实体打通、重塑画像。几亿人每人几十种ID,组合起来是个天文数字。阿里弃用老办法,改用机器学习算稳定性和收敛性。把ID关系图谱喂进去,算法剔掉不靠谱的关联,吐出一条铁定对的关系网,最后生成一个Super ID当作这个人的唯一码。这下,海量数据才算真正顺畅地融在一起。

整体来看,打通ID的思路是一步一步升级的。起初靠账号实名绑定,用UID把确定的信息串起来;接着靠设备识别和校准,用技术手段把匿名的行为轨迹也缝进来;最后靠图计算和机器学习做动态融合,把账号、设备、时间地点这些揉成复杂网络,靠社区发现、阈值界定和衰减机制,在概率和收敛中不断逼近那个真实的“人”。这三招不是互斥的,而是看数据质量和业务需要,一层一层叠加使用的底牌。
立即登录