10亿商品中捞假货
“线上打假的难点在于商品数量庞大,单淘宝上就有数以十亿计的商品,要从如此海量的商品中找出假货,难度可想而知。”清海说,阿里巴巴最终选择了自己最为拿手的大数据作为切口。
所谓“大数据打假”,就是利用智能识别、数据抓取与交叉分析、智能追踪等技术手段,通过一个涵盖多重考量因素和线上规则的实时大数据模型将假货从庞大的在线商品中筛选出来。
从2013年起,阿里巴巴就逐步建立起了全球最专业的图片侵权假货识别系统,通过检测图片中的局部Logo,来识别图片中商品的品牌,进而判断该商品是否为假货,识别能力超过国外同类图片侦测软件Google goggles。
但这只是依靠单一因素的初级大数据打假形式。
“我们希望构建一个更为丰富的数据模型。”清海告诉本刊记者。
为此,其所在的团队开始着重研究售假卖家和正规卖家的行为轨迹,找到两者的差异,进而建立一个面向全平台卖家的评价模型。
这个在庞大的商品信息、物流信息、支付信息基础上搭建的评价模型包含了100多项对卖家的考量因素,如登陆IP、商品文字、图片描述、交易信息、消费者评价、权利人投诉等,甚至一些社交媒体数据也会被纳入其中。
借助速度可达每秒1亿次的评价模型,清海所在的团队能实时对全网的十亿在线商品进行筛查,对淘宝数百万卖家进行评分,以识别出具有售假风险的高危用户和售假团伙。
起初,该体系帮助阿里巴巴揪出了不少潜伏已久的售假卖家,但在运营九个月后,这个被称作“大而全”的万能评价模型就暴露出了问题。
“筛选出的部分信息最终被证实是虚假的,也就是店铺并未涉假,尽管这种信息在所有推送信息中占比不足1%,但仍然说明原先的万能评价体系存在缺陷,覆盖率很高,准确性有问题。”清海说。
团队不久便找到了问题的症结:阿里巴巴平台上存在上百个类目的商品,每个行业的售假特征并不相同,统一的评价体系导致了误判。
之后,大数据模型建设团队对该体系进行了升级,将原本统一的评价模型拆分成针对不同行业的多维评价模型,比如保健品行业、奢侈品行业等。
“除保留一些固定的通用评价因素外,我们还根据每个行业的不同特征加入了特定的考量因素。”清海说,相较1.0版本,2.0版本的评价体系虽然覆盖范围小,但被证明准确率更高。
得益于大数据打假的应用,阿里巴巴目前已实现了“线上追踪”、“线下定位”、“权利人共建”“24小时全年无休”的四维打假模式。

结束白天的课程和训练,夜间阿里巴巴打假特战队员还得学习“大数据”打假相关知识,我中掌握假货的线下分布规律十分重要,根据阿里打假的成功来看,目前国内假货的产业聚集区,主要在东部和东南沿海地区">结束白天的课程和训练,夜间阿里巴巴打假特战队员还得学习“大数据”打假相关知识,其中掌握假货的线下分布规律十分重要,根据阿里打假的成果来看,目前国内假货的产业聚集区,主要在东部和东南沿海地区