近日,马蜂窝“造假门”事件进一步发酵。昨日晚间,铅笔道记者收到的乎睿数据团队发来的,关于揭露马蜂窝数据造假的完整报告,该报道从最初的75页精简为25页。根据报告中内容,该团队在马蜂窝上发现了7454个抄袭账号,这些抄袭账号平均每个人从携程、艺龙、美团、Agoda、Yelp上抄袭搬运了数千条点评,合计抄袭572万条餐饮点评、1221万条酒店点评,占到马蜂窝所有点评总数的85%。
乎睿数据负责人对铅笔道表示,其实发现马蜂窝的问题完全是一个巧合,团队自5月份才组建,恰逢创业大赛准备参加,不成想叫外卖吃坏了肚子,去差评那家餐馆才发现评论很多都是刷单刷出来的。间接发现了马蜂窝造假事件,最初是因为兴趣觉得好玩,后面越挖越深,由于价值观和性格使然,所以花了四个月完成了这份揭露报告。
10月23日凌晨,乎睿数据就马蜂窝数据造假及起诉一事发表官方声明。声明表示,其团队已对大量可疑行为进行视频录屏,截屏截图和司法公证,并掌握了一些接管抄袭账号的马蜂窝内部员工信息,所有了解和确定的分析内容和点评消失账号链接全部收录在其官网上。声明强调,马蜂窝事件纯属顺手为之,没有针对任何个人或企业。
一天前, 马蜂窝起诉深圳乎睿数据有限公司、丁子荃名誉侵权案已获立案。
此次马蜂窝“造假门”事件始发于10月20日,自媒体“小声比比”发布一篇文章,题为《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》。文中指出,旅游社交分享网站马蜂窝上的2100万条“真实点评”中,有1800万条都是“通过机器人和从点评和携程等竞争对手那里抄袭过来的”。次日晚间,该自媒体发布了第二篇直指马蜂窝充斥僵尸和水军的数据报告,指出马蜂窝疑似存在评论搬运、游记掺水、问答抄袭的现象。
报告目录:
一. 以马蜂窝官方账号为代表的大量账号存在严重侵权,九成内容或为抄袭。
二.官方推广活动奖品奖励多被机器人和内部员工获得。
三. 增长黑客的邪门玩法:使用机器人来回复用户,以提高社区活跃度。
四. 内容发布时间诡异,通常为为朝九晚五,有双休、午休且不加班。
五.用户精心编写的内容屡遭利益集团盗用、篡改,用户维权乏术。
六. 虚假商业内容充斥推荐系统,用户难得真实的消费信息。
马蜂窝的核心价值就是为用户提供真实有效的信息。实现该价值的方式是通过无数用户的真实分享,这也是内容能够源源不断产生的根基。
马蜂窝用户 社交 个性
经过世界杯期间巨额广告的投放,讲求真实分享的旅游社区的“马蜂窝”猛然进入大众视野。这只独角兽将点评、游记、问答、小组等UGC(用户贡献内容)版块与社交电商功能整合形成商业闭环,其2017年度成交总额已达近百亿人民币,并于同年12月完成了1.33亿美元的D轮融资,是近年中国成长最快的在线旅游公司之一(1)。
但用户贡献的内容是否就比其它信息更为可靠呢?乎睿数据团队初步探索了马蜂窝UGC和用户数据并与竞品比照,结果发现包括官方帐号在内的许多马蜂窝用户竟然人均抄袭了数百名大众点评网用户的评价以及大量来自携程、艺龙乃至Yelp、Agoda等知名跨国网站的用户内容,甚至还屡次在官方有奖活动中拔得头筹。
如上图所示,我们发现马蜂窝官方账号——问答小班长1-11号以及其它一些发布官方信息的账号人均抄袭了数百位不同大众点评网友以及大量其它竞品与行业巨头的用户内容。
这些诡异现象若只说是巧合实在难以令人信服,它们背后究竟是平台运营的增长黑客还是利益推手的暗箱操作?为继续深入调查,乎睿数据团队搜集整理了相关平台的海量数据,尝试通过多维度的用户挖掘分析从各版块着眼,揭开马蜂窝的盖子。
真实的点评,这才是大家做点评最重要的参考和依据。
马蜂窝创始人陈罡参加黑马会旅游分会沙龙分享(3)
根据官网数字,马蜂窝目前共有2100万条真实点评,覆盖全球200多个国家和地区。截至17年末,马蜂窝已拥有1.2亿用户,月均活跃用户数达1亿4。本次分析包含了马蜂窝近726万条餐饮点评、约1320万条酒店点评,与其官方数据基本持平。
为求公正,我们从官网收集到的约116万餐饮POI(Points Of Interest)中随机抽取三分之一作为样本,参照官方账号的侵权习惯并放低标准以至少完整抄袭150名大众点评网用户为限,竟筛选出7454例马蜂窝抄袭账号。其中除了多个官方性质账号,还有的直接被马蜂窝内部员工掌管。
平均下来,每个抄袭账号都一字不差地照抄了212位不同大众点评用户的餐饮评价(每位至少被抄一条),海外餐饮点评则抄袭或使用谷歌翻译自Yelp,还有大量酒店评价也可直接追溯到携程、艺龙、TripAdvisor、Agoda等网站。
不考虑从他人点评里截取中间段落或者拼接不同用户内容等“抄袭升级”现象,也忽略旅游产品、景点、娱乐等版块中的侵权行为,单单这七千余抄袭账号在餐饮、酒店两部分就生产了近1800万条点评,以不到马蜂窝1.2亿用户万分之一的体量贡献了总数85%以上的评价内容。(后文以”抄袭帐号”、”抄袭团 伙”代指这7454例抄袭账号)
与其他常见的“空白头像”点评不同,这些带着照片和语气的点评,来自社区活跃用户及其游记,真实、生动,富有画面感。
马蜂窝CEO陈罡撰文:如何颠覆酒店预订的用户体验(5)
如此疯狂地搬运站外UGC也导致了很多奇妙的现象,比如抄袭中复制粘贴了谷歌翻译的Bug, 用户个人历史信息矛盾,顺带抄到擦边球小广告,用户旅行过于频繁等等。相关细节会在文末附录中详细阐释,回到抄袭账号本身,它们横向的抄袭规模现已掌握, 我们再纵向来看抄袭历史:
可以看出多年以来,马蜂窝抄袭账号们一直在活跃着。那么官方抄袭账号是否有什么黑历史呢?我们通过WebArchive搜索了马蜂窝问答小班长们,得到以下内容:
例如上图点评中出现性别矛盾的官方抄袭账号之一——问答小班长10号,在去年之前还不是官方账号,名曰“Roger”,其用户活动可以追溯回2009年。
研究过程中我们还发现抄袭账号存在点评时间戳出错的问题,一共找到12,947条时间戳错误的点评,绝大多数发生在“0000”与“1970”年,大概是后端数据转储读写的问题。
值得一提的是,时间戳为”0000″年的点评内容发布者除了经典抄袭账号,都是疑似由商家控制的马甲小号,内容很少且专门集中好评那批商户…… 个中细节容后再表,至此我们基本可以推断马蜂窝的巨量抄袭侵权行为与官方账号有极强的关联。
然而比海量抄袭更吊诡的事出现了——我们从马蜂窝官方小组抽取的100余份官方活动获奖名单中发现了612名抄袭账号获奖者和大量僵尸空号幸运儿。它们不仅多次以特、大奖得主的身份拔得头筹,还占据着数量上的优势,在一份含451位获奖用户的名单中就有281名属于抄袭账号。
如上图所示,三年前的“自由杭行”有奖活动问题很大,类似的情况还有“来江苏学一门手艺”、“GO朝阳,购时尚”等等。前者资助四名抄袭账号免费去江苏,后者将五千元现金购物券的年终大奖随机抽给了UID为71745887的空号(曾用名“凯西”,现为“马蜂窝用户”)。
有趣的是,该空号有史以来仅有四名访客:官方账号、空号、抄袭账号,以及唤作“风声”的疑似商业马甲号——其游记抄袭与原创并存,而问答、点评又都指向了免税店和三亚海鲜等频繁在马蜂窝内容中刷脸的商家……
抄袭账号与空号之外,还有很多专从他人点评截取中间段落或拼接不同用户内容以规避审查的非典型智能抄袭账号。只是我们参照官方抄袭习惯制定的筛选条 件过于严格,要求近100%复制整条点评才算“抄袭”,因而并未将此类账号纳入分析,但这并不影响它们也来瓜分丰厚的奖品福利。
账号“火爆辣椒”(UID:90313588,曾用名“野牛狂奔”)就是这样一位智能抄袭者,打开它的马蜂窝主页,最先映入眼帘的数条点评全部节选抄袭自大众点评网。而它却在多达12次有奖活动中均有斩获,其中不乏旅行基金、希尔顿奥运大礼包等大奖。
除了抽奖,马蜂窝还会举办大促抢购活动与各类竞赛。相关受益和获胜者中,竟有马蜂窝内部员工赫然在列…… 而对于真实的用户而言,马蜂窝中奖难,兑奖更难于上青天的情况已经上了新闻(26)。
作为旅游社区,马蜂窝的出类拔萃离不开它的UGC能力,而支撑UGC的根源来自社区氛围。在这里,几百万的旅行达人牢牢聚集在一起并积极制造内容。
社交矩阵堆砌出马蜂窝(6)
类似的增长黑客在问答版块也屡见不鲜。实际上,“问题生成”如今已是知识类社区的常规操作。近日知乎参展谷歌开发者大会时也展示了自动生成站内问题的场景,旨在迅速抢占热点以激发用户创作欲望(7)。然而从马蜂窝抄袭账号在问答中的表现来看,实际效果并不如人意。
团队从约175万个问题中找出了抄袭账号的提问,如上图所示,很多问题按照统一模式创建,又由其它抄袭账号使用公开的酒店简介、地图导航等内容生成回答。这些语义重复严重、同质化泛滥的内容必然难以提供有价值的信息。
以上两幅热力图描绘了马蜂窝非抄袭账号中最活跃的一万五千名用户的活动轨迹,每一行代表一名用户,按注册早晚至上而下排列。横轴从左到右代表 2012年至今的日期。每一行的明暗变化表示了一位用户的答题或点评作息规律——亮色说明该账号在横坐标对应日期有内容发布,暗色意味着该用户当天没有活动。可以看出用户们的发布规律十分统一,甚至产生了黄金分割一般妖异的美感……那么其它非抄袭账号是如何表现的呢?
可以看出,马蜂窝上所有非抄袭账号即“普通用户”发布餐饮点评的作息习惯都与大众点评网网友大相径庭,每天、每周创作周期的高峰和低谷都很不同。那么酒店点评呢?
不得不说,种种差异颇为令人玩味。此外,非抄袭账号中还存在多名用户在同一时间以同样内容评论不同POI的奇异现象,可谓用户内容之量子纠缠:
记者:随着用户量增加和知名度提升,马蜂窝如何保持旅游攻略的真实性和不具商业色彩?
陈罡:随着用户的增加,知名度的增加,能让旅游攻略的真实性和实时性这个优势发挥的更加淋漓尽致,因为我们可选择的信息更多了,信息也不再是一个人或是一个机构主导,所以整个旅游攻略信息体系进入更加良性的循环。
今年是在线旅游的重要分水岭-访马蜂窝CEO陈罡(8)
除了上面提到的现象,马蜂窝还曾被中国网报道在游记攻略中植入广告,尔后官方专门对此发文,并称已付诸法律手段(9)。该事件后续进展不得而知,但我们确实发现了一批商家在马蜂窝大肆洗脑宣传,侵害用户和平台的权益。还记得上面提到过时间戳错误的疑似商业小号吗?如果没猜错,马甲背后就是这批商家。
这批商家通过抄袭、拼接等“做号”、“洗稿”手段批量炮制出含有广告内容的游记、问答、回复(12), 再由大量小号、马甲进行人工置顶,达到以极低成本对平台上亿用户打广告的目的,可谓无本万利的买卖。
实际上,这批商家不仅欺骗误导消费者,还直接侵犯马蜂窝与其用户的知识产权。他们也会选择性的抄袭马蜂窝等平台上的原创游记,并插入广告后发到百度贴吧、天涯论坛、简书等各大平台以最大化潜在经济效益。
它们所生产的利益驱动内容在问答中更为泛滥。乎睿团队从4,944,528条回答中统计出“顶”得最多的回答,排名靠前的不但被顶百十万次,还清一色的都在回答与这些商家相关的问题或者推荐相应目的地的游客去他们店里消费。这些问题也很容易被推送给移动端的用户。
最夸张的还要数今年夏天,团队在收集数据的过程中发现部分相关回答居然达到了每日几万顶的频率,意味着利益团体已经至少控制了数万个马蜂窝马甲,要知道官方账号“马蜂窝问答君”最火的回答也不过才获得了4703次“顶”。
比如说你去到三亚,你通过排名很容易发现哪家海鲜餐厅的口碑最好,评价最多,同时你也可以看到在这些结构化的数据里,哪些酒店它的服务是非常有特色的,当然你也能看得到在真实的点评里对酒店的不足之处,大家的真实的点评。
马蜂窝CEO陈罡:在线旅游格局未定仍有创新空间(15)
除了游记、问答,做号控评商户在点评内容中同样极尽钻营之能事。以三亚为例,如果用户在网页端按目的地浏览美食,不论选哪种排序方式,最先映入眼帘的都是这些心机商家旗下的餐厅,平均点评内容可多达上万条且绝大部分均为5星好评。
此外,涵盖自由行、跟团游、当地游、保险签证等付费项目的旅游产品在马蜂窝旅游商城中由商家直接对用户出售,但只允许匿名评价。我们通过比对头像和残余用户名从23万多条匿名点评中找出了6万多个用户。并且发现这些用户也很喜欢点评有刷好评嫌疑的商家。
旅游业中一直存在的虚假广告、低价游产品等诸多行业痛点,都是信息不对称所导致的。而马蜂窝一直在做的事,就是打破这种信息不对称。用户在外面玩,如果信息不对称,那什么都得听导游的,但马蜂窝通过广大用户的旅行经验来消除这种不对称后,用户就有了完全主动的判断依据和选择权。
马蜂窝联合创始人兼COO吕刚出席博鳌:做共享经济中最顶级架构的事(16)
或许马蜂窝日常经营之余应该对技术研发投入更多精力。且不谈抄袭等问题,访客随意点开马蜂窝资讯页的官方内容,就能看到“比如说”、“售卖通道”、“繁荣昌盛”、“SUV皮卡”、“阿里腾讯”、“创新和产品”等常见短语子字符串被当作POI处理的现象。
其实马蜂窝早在2012年就开始做数据结构化,梳理平台内容中的POI(23),并一直引以为傲(24)。但这些本可通过“命名实体识别”(Named-entity recognition)等成熟方法轻松解决的问题却一直未被妥善处理。
综上所述,马蜂窝尝试树立的正面形象正逐渐被资本的贪婪与利益的诱惑蚕食殆尽,这场博弈中,投资机构盲目追求抬高估值,利益相关商家只顾揽客创收,而马蜂窝面对增长魔咒和市场局限最终没能坚守原则,造成并助长了信息不对称的恶性循环。
其实四年前陈罡还“炮轰”过去哪儿网,举报称其以每条500元的价格购买好评以在马蜂窝游记中植入虚假广告(17)。马蜂窝也曾就百度盗取用户游记与之对质,并坚持维权(18)。可见于法于理,网络平台对其内容真实性和信息质量有不可推卸的监管责任和义务。
抄袭舞弊招致的起诉判罚已不胜枚举,一年前也有了做号控评者因有偿发布信息扰乱市场秩序而入刑的判例(19)。近期通过的《电商法》更明确规定电子商务经营者不得以虚构交易、编造用户评价等方式进行虚假或者引人误解的商业宣传,欺骗、误导消费者(20)。
从商业角度讲,纵容虚假侵权内容不仅直接侵害了消费者权益,还会导致劣币驱逐良币,赶走优质商户,降低用户信任,最终伤及平台市场健康和广告投放价值。一时的放任或许能在短期产生效益,但在长期发展中必将迎来毁灭。
随着百度医疗竞价广受批判、拼多多假货门引发争议,越来越多的人意识到短期效益驱使的功利运作将导致“缺芯少魂”,“增长黑客”与“虚胖”的流量终将迎来“人口红利”用尽之时。创业维艰,当资本热潮退去,裸泳的人会很难看。
附录:
乎睿数据团队在分析考察马蜂窝经典抄袭账号的历史行为时,发现了诸如搬运过程中复制粘贴了谷歌翻译的Bug、用户个人历史信息矛盾、顺带抄到擦边球小广告、点评发布时间戳错误、专职社区运营黑客等有趣的现象。
其中谷歌翻译的Bug多见于马蜂窝海外餐饮翻译自Yelp的点评。当前的英文翻译技术通常依赖于英汉对照的语料库,然而此类数据十分昂贵,因此科学家普遍使用字典词典、宗教经典译本等高质量翻译素材来生成平行语料库。
而经典抄袭账号的信息矛盾则主要体现在主体性别随机转换。这可以通过一些基本的NLP(自然语言处理)手段分析得出。比如提取第一人称所有格形容词 (Possessive Adjectives)以及依存于该代名词的名词词组——如果发现“老婆”、“丈夫”等称谓就可以断定该用户的性别。
规模化的巨量抄袭难以时刻留意技术细节,于是才有了这些令人莞尔的现象。至于抄袭结果八成不会派人专门检查校对,因此不小心拷贝了各类小广告的情况也时有发生。
至于抄袭账号的点评发布时间出错,除了正文中提到可能是后端数据问题等系统性错误导致的以外,还有拼接抄袭中拼错发布时间的情况,具体是因为拼接中出了岔子还是刻意为之,尚不明了。
操作增长黑客的除了抄袭团伙,我们还发现了专职的社区运营账号。乎睿团队凑数的游记发布伊始就收到过一个40级账号(零UGC,只有一条回答)的灌水回复。40级是许多兢兢业业的蜂友都难望项背的高等级,也就是说它仅靠巨量的收藏和回复就升到了这个级别。
引用
蚂蜂窝完成 33 亿美元的 D 轮融资,淡马锡、美国泛大西洋资本集团等投资 https://cn.technode.com/post/2017-12-12/mafengwo/
马蜂窝用户 社交 个性 http://www.mafengwo.cn/travel-news/212607.html
马蜂窝创始人陈罡参加黑马会旅游分会沙龙分享 http://www.mafengwo.cn/travel-news/216354.html
蚂蜂窝完成1.33亿 美元D轮融资,打造全球旅游消费指南https://36kr.com/p/5107529.html
马蜂窝CEO陈罡撰文:如何颠覆酒店预订的用户体验 http://www.mafengwo.cn/travel-news/21635html
社交矩阵砌出马蜂窝 http://www.mafengwo.cn/travel-news/210961.html
谷歌开发者大会杀出技术黑马,知乎AI终于不再隐藏实力了 https://mp.weixin.qq.com/s/C2srh2y1rWhMmoGPRnY3Yw
今年是在线旅游的重要分水岭——访蚂蜂窝CEO陈罡 http://www.mafengwo.cn/travel-news/213154.html
蚂蜂窝游记攻略商业操作遭曝光 内容平台该如何生存?http://www.dotour.cn/article/3054.html
为什么我的游记没人看没人顶? http://www.mafengwo.cn/wenda/detail-11162594.html
网络“爆文”竟是 “洗稿网站”一键生成,几分钟窃取原创者多年心血 https://weibo.com/ttarticle/p/show?id=2309404278747153998751
马蜂窝游记协议 http://www.mafengwo.cn/s/rules.html
马蜂窝游记里这么多假游记为什么他们视而不 https://www.zhihu.com/question/272175083
蚂蜂窝CEO陈罡:在线旅游格局未定 仍有创新空间 http://www.mafengwo.cn/travel-news/214759.html
马蜂窝吕刚出席博鳌:做共享经济中最顶级架构的事 http://www.tbosocial.com/wap/wap.php?action=article&id=271
蚂蜂窝CEO炮轰去哪儿 称其以每条500元“买好评” http://china.cnr.cn/yaowen/201404/t20140425_515371160.shtml
蚂蜂窝已连续接到@百度旅游盗取用户游记的投诉 https://weibo.com/1730714982/DDPE5iOUR?type=comment
刷单者得小心了!“刷单入刑”第一案被判五年九个月 http://tech.sina.com.cn/roll/2017-06-20/doc-ifyhfhrt4948184.shtml
《电商法》就位,天猫、京东、携程们戴上了“紧箍咒” https://mp.weixin.qq.com/s/IlUwDP7Mtb9khmy4fTp6kw
路透:马蜂窝计划最高融资3亿美元 估值或达25亿美元 https://tech.sina.com.cn/i/2018-08-17/doc-ihhvciiw6619067.shtml
专访蚂蜂窝创始人陈罡:无法再复制的“内容 交易”模式,蚂蜂窝的野心究竟是什么? http://www.chuangyejia.vip/article/detail/378312.html
从写游记到卖产品,创业十年的蚂蜂窝今年预计交易额近百亿 https://36kr.com/p/5109618.html
蚂蜂窝 VP 都斌:1.2 亿用户背后的数据驱动 https://zhuanlan.zhihu.com/p/31518333
The Secret Sharer:Measuring Unintended Neural Network Memorization & Extracting Secrets https://arxiv.org/pdf/1802.08232.pdf
在线旅游行业Q3投诉数据 http://news.21cn.com/social/shixiang/a/2018/1019/14/33085873.shtml