算法瓶颈与激进布局下的危机:今日头条,走好
今年春节可能是张一鸣过得最不开心的一年。
当各大互联网公司豪掷千金在各大春晚上怒刷一波存在感时,本来也准备大干一场的今日头条旗下两款产品——“火山小”、“抖音”,却遭遇了春晚冠名被多家卫视临时撤下的尴尬窘境,最后不得不用刚刚收购的自拍相机App激萌救场。
至于冠名被撤的原因,据钛报道,大概率上是因为李天佑,这个中国喊麦第一人因歌词含有违法性质而被央视《焦点访谈》点名批评,随后遭到全网封杀。而火山小正是李天佑直播的平台。
把时间往前推 2 个月。
2017 年 12 月 29 日,因传播色情低俗信息,存在严重导向问题,对网上舆论生态造成恶劣影响。今日头条手机客户端“推荐”、“热点”、“社会”、“图片”、“问答”、“财经”等 6 个频道被暂停更新 24 小时。
短短两个月时间内,这家被捧为“TMD”三小巨头之一的明星公司,旗下多款产品遭遇了不同程度的危机,而这很难说不是在为其信奉的“算法没有价值观”的“价值观”买单。
众所周知,今日头条以新闻聚合阅读起家,利用个性化推荐技术,打造出一款千人千面的资讯App,正是由于其对用户资讯需求和阅读喜好的准确把握,短短几年时间内横扫国内新闻阅读市场,甚至开始威胁到百度在内容分发领域的地位。
然而即使今日头条强大如斯,其头上却始终悬着一把达摩克斯之剑——版权与灰色内容,这也是算法短时间内难以克服的阿喀琉斯之踵。
算法的瓶颈
人工智能时代,算法确实代表着更为先进的生产力,但算法并不是万能的。
去年 9 月,人民网曾连发 3 篇评论文章,批评以今日头条为代表的,单纯依靠算法推荐的平台价值观缺失、制造信息茧房以及走向媚俗化,并过度追求“眼球新闻”。
事实上这也是今日头条目前所面临的算法瓶颈。
作为对外界批评的回应,今日头条在 2018 年 1 月对外公布了算法原理。
图片来源于
根据其公布的文章来看,今日头条采用的典型推荐算法有协同过滤、逻辑回归、DNN、因子分解机(Factorization Machine, FM)和梯度提升决策树(GBDT)。
虽然目前业界普遍采用的是混合推荐来综合各个推荐算法的优点,但算法的弱点仍然没有被真正避免和弥补。
首先,算法严重依赖于数据的优劣。训练数据的优劣则直接关系到算法模型的优劣。
算法背后实质上是机器所做的枯燥乏味的,冷冰冰的数学计算,计算结果基本上就是后续内容推荐的依据。
虽然点击率、阅读时长、点赞、评论、转发都是推荐模型里可以量化的指标,但各大推荐平台却不得不承认点击率在推荐模型里仍然占有很高的权重。
利用人性弱点攫取用户注意力的内容,在点击率这个指标上面的表现天然好于一般内容甚至是优质内容。
而用户的点击阅读行为数据反过来又会成为训练模型的数据,成为给用户推荐内容的依据,如此循环往复,最终畸形的数据造就畸形的模型,畸形的模型组合成畸形的系统,畸形的系统推荐出畸形的内容。
其次是数据有效性问题。
用户的需求变幻莫测,但系统却难以捕捉需求背后用户的真实意图,再加上阅读场景的不同,用户之间的个体差异,看似需求中暗含着某些规律,实际上可能是“技术的幻想”。
最后,目前世界上还没有任何算法胆敢保证其推荐内容的质量。
媒体习惯于夸大其词,比如过于强调人工智能的“智能”,而选择性忽略人工智能技术实际的进展和应用情况。
事实上目前的个性化推荐系统还远没智能到读懂文章的内容,更没法从本质上分析内容有没有价值,而只能从外部的数据来衡量文章的质量。
从这个角度看算法确实没有“价值观”。
因为它还不知道价值为何物。如果没有编辑干预,个性化推荐系统会推荐什么样的内容难以想象。
而作为国内最大的个性化推荐平台之一,今日头条显然对这些问题有着深切的感触。
了解人工智能的人都知道,数学里的极限理论在人工智能领域有着广泛的应用,虽然完全去捕捉用户的需求和意图不可能,但通过获取更多维度的数据,交叉验证数据的有效性或许可以去无限逼近用户的真实需求和意图。
与用户行为数据和历史阅读数据相比,更有效的数据莫过于社交数据。
根据GWI2017 年的报告显示,平均每个用户每天在社交媒体和在线通讯平台上花费 2 个小时 15 分钟时间,而这一数字在 2016 年还是 1 小时 49 分钟。该报告还显示98%的用户至少使用了一个社交。平均每个网络用户拥有7. 6 个网络账户。