编者按
在数据洪流里,“用户画像”早已不是新鲜词,却仍是多数团队难以驾驭的暗礁。若想让决策像利刃般精准,必须先让画像褪去冗余,留下最锋利的那一道刃口——关键特征。本文将以“快缩短网址”(suo.run)为镜,拆解关键特征的提炼之道,愿为你点亮一盏微光。
一、关键特征:从噪声中打捞信号
想象一家女装店,七成顾客为女性。单看绝对比例,【女性】似乎就是答案;但若整座商场八成顾客皆为女性,女装店的“女性”反而成了背景噪声。
再看另一极端:千名员工中仅一位博士,这位博士的【博士】标签在整体里闪耀如北极星。
于是,关键特征的定义浮现——它并非“出现最多”,而是“显著偏离基准”。偏离,才有故事。
二、关键特征的双生花:绝对与相对
1. 绝对特征
只看群体内部分布。女装店 70% 女性,即其绝对性别特征。
2. 相对特征
把镜头拉远,与参照系对比。女装店男性占比 30%,商场仅 20%,于是“男性”反而成为女装店的相对正向特征。
相对特征又分两极:
• 正向:显著高于参照
• 逆向:显著低于参照
绝对特征无逆向,因为“0% 科学家”这类标签无穷无尽,失去洞察价值。
三、提炼之术:从单点到群体
1. 单用户的关键特征
以全局为参照。若“使用信用卡支付”在全体用户中仅占 0.8%,而某用户恰好如此,该标签即可被擢升为关键特征。
阈值如何设?可借信息熵或卡方检验,将显著性 p 值钉在 0.05,亦可凭业务敏感度微调。
2. 群体用户的关键特征
TGI(Target Group Index)是一把游标卡尺:
TGI = (目标群体内某特征占比 ÷ 参照群体内该特征占比) × 100
• TGI > 120:正向显著
• TGI < 80:逆向显著
在 suō.run 的后台,我们让 TGI 自动跑批,正排逆排一键切换,像调焦镜头般捕捉人群的棱角。

四、落地场景:让画像呼吸
传统画像常把维度锁死在性别、年龄、城市,如同用三原色描绘霓虹。关键特征则允许画像长出新的触角——
• 一位短链重度用户的关键特征可能是“凌晨 2 点活跃”,而非“25 岁男性”;
• 某电商导流人群的逆向特征也许是“几乎不用支付宝”,提示我们补全支付链路。
在 suō.run 的管理后台,特征池开放 200+ 标签,支持自定义阈值与多值标签加权,让每一次洞察都贴近业务脉搏。
五、未尽之问
多值标签如何降维?极小分母下的 TGI 畸变如何平滑?这些问题没有标准答案,恰是数据科学的迷人之处。欢迎在 suō.run 社区留下你的解法,让思想继续缩短距离。
本文由「冬至」执笔,首发于 suō.run。
转载须注明出处,侵权必究。
