近期,诸多网站曝光了头条搜索爬虫对其“流氓抓取”行径,引发业内人士对头条搜索的质疑。微博大V@互联网的那点事爆料称,头条搜索虽然还未正式推出和上线,但是派出的爬虫已让很多网站痛苦不堪。除了给网站带来的“噩梦”之外,更有大V直言:用户隐私恐再遭泄露。
所谓爬虫,即为自动抓取全网内容的一种程序,它会定时把互联网上的内容爬下来,汇总存储到自己的服务器上,以便于用户的每次搜索。大家在搜索江湖里共同遵循着robots协议,譬如说哪些内容可以被爬取,哪些内容不能被爬取,某些涉及用户隐私的会直接禁止爬取等,一旦违背规则暴力爬取,很可能存在中小网站用户隐私泄露的隐患。
根据诸多中小网站的曝光,很显然,头条搜索仗着“财大气粗”,不顾用户隐私泄露风险,完全无视了这一规则。
暴力爬取信息,头条搜索无视用户隐私泄露风险
某网站主描述,头条爬虫Bytespider短短一上午时间就对网站发出了46W次请求,直接耗掉服务器7个多G 的流量。
还有中小网站主抱怨称,Bytespider,每天几十万爬,robots设置禁止,没用,防火墙入站规则封禁IP,还是没用。
从结果上说,头条搜索爬虫的暴力爬取,完全忽视中小网站robots规则,其实存在巨大的隐私窃取隐患。正如大V差评君推测的:没准儿今日搜索的爬虫会爬到一些网站禁止访问的内容,譬如用户隐私信息啥的,这可就是在法律边缘试探了。
而据此前媒体报道,头条在用户隐私数据窃取方面已是惯犯。
今年九月,今日头条刚刚因涉嫌超范围采集用户隐私,登上国家计算机病毒中心发布的违规APP “黑榜”,受到国家四部委联合点名批评。
6月,还曾因涉嫌侵犯通讯录隐私,被用户刘先生告上法庭,要求今日头条停止侵权、赔礼道歉并支付精神赔偿金1元一事在当时引起舆论轩然大波。
最受争议的当属,今日头条竟以“通讯录信息不属于用户的个人隐私信息”自辩。此“流氓”言论一出,舆论一片哗然,网友言辞相当犀利。
不仅国内因窃取用户隐私问题受到争议,出海之路上,恐怕更是其阿克琉斯之踵。今年7月,抖音国际版TikTok接受英国监管部门的调查,调查涉及TikTok如何处理年轻用户个人数据,是否优先考虑了儿童安全问题。2月,美国联邦贸易委员会(FTC)曾对TikTok开下了570万美元的天价罚单,原因是TikTok非法收集个人隐私数据,早前印度、印尼也都曾因类似问题对抖音“封杀”。
爬虫变“蝗虫”,头条搜索暴露内容匮乏隐患
头条“吃相”如此难看,不顾用户隐私数据泄露风险,疯狂抓取中小网站信息为哪般?正如大V差评君猜测的,很可能是因为产品急着上线,需要快速扩充内容库。
早前,就有业内人士就今日头条做搜索事情评论:在搜索领域,优质的、有用的内容是最核心的竞争力,用户使用搜索引擎唯一诉求就是要快速获得有用的信息,技术、算法和排序都是次要的,最主要的还是内容。
而“内容”恰恰是今日头条一道最大的难题。据报道显示,今日头条搜索内容,主要依靠今日头条、抖音、西瓜、火山小视频、懂车帝等多款App的支持,这类“杀时间式”产品即便到现在还未能摆脱低俗、标题党等标签,尤其抖音平台中,低俗之风、假货橱窗、危险动作视频等内容,更是屡被人民日报等权威媒体点名。
今年4月,头条就曾被证实窃取百度搜索结果,被百度索赔9000万,并道歉30日。
而且在中国互联网搜索市场,早已是玩家林立。百度、360、搜狗都在各自夯实自己的内容基础。拿百度来说,不久前与快手联手,将国内头部知识社区知乎招致麾下,同时百家号、小程序、好看视频等,构成了其移动内容的全新生态。错失知乎,恐怕也加深了头条对优质内容匮乏的恐慌。
在字节跳动6-7月CEO面对面内部沟通会上,字节跳动创始人张一鸣曾表示,如果没有搜索场景的拓展和优质内容,今日头条的增长空间可能只剩四千万DAU。
如今移动互联网流量红利接近触顶已成事实,字节跳动仍年定下了2019年实现千亿KPI的目标,高压之下,或许可以解释字节跳动不顾自身劣势和对手压力,急切布局搜索的原因。
但是互联网世界自有其游戏规则,头条搜索爬虫对中小网站的流氓行径,在某种程度上只会与其扩充内容初衷背道而驰,而且对市场规则造成严重冲击。
同时对用户隐私窃取的隐患毫无顾忌的态度,昭示了字节跳动严重缺乏对用户权益的保护意识,究其根本是企业的正确价值观,社会责任感的缺失。这样的字节跳动在搜索赛道还能走多远,我们不得而知。