还记得上半年今日头条野心勃勃要做搜索的消息么?然而,几个月的时间过去了,字节跳动官方尚未宣布今日头条通用搜索正式上线推出,但其派出的“爬虫”ByteSpider却已经成为了众多中小网站的“噩梦”,毫无节制的抓爬网站耗费网站的服务器和带宽资源,部分配置较低的网站已经直接瘫痪。
前两天,微博大V@互联网的那些事爆出,今日头条的抓爬频率每秒几十次甚至高达数百次,严重影响了网站正常访问,爬虫程序直接毫无节制的疯狂抓爬无视网站性能,甚至导致网站瘫痪。
所谓爬虫,就是自动抓取全网内容的一种程序,它会定时把互联网上的内容爬下来,汇总存储到自己的服务器上,以便于用户搜索。Bytespider,就是今日头条的搜索爬虫。按理说,用爬虫爬信息在互联网界已经算得上最常规不过的操作,然而今日头条派出的ByteSpider此次却惹了大祸。
疯狂的ByteSpider,众多网站的噩梦
今日头条的搜索爬虫到底有多可怕?早在今年 6 月开始,就有网站主抱怨了这个 Bytespider。根据网站主的描述,爬虫短短一上午时间就对网站发出了46W次的请求,直接耗掉服务器 7 个多 G 的流量。
可能许多人不清楚这意味着什么,这对平均日活可能都没有过千的小网站来说,已经算得上一次小型的 DDoS 攻击(通过大量互联网流量压倒目标或其周围的基础架构来破坏目标服务器,服务或网络的正常流量)了。
今年 6 月到 10 月,越来越多的人开始在网上爆料自己也遇到了类似的情况。纷纷表示:建议封杀所有的ByteSpider爬虫,太频繁,不杀不行……
而且“流氓”的ByteSpider已经爬到了国外。在国外的编程交流网站上,许多国外的开发者都表示遇到 Bytespider 无视自家网站 robots 协议的情况。
所谓的“robots 协议”,是一种网站附带的文本文件,专门用来告诉爬虫引擎在这个网站上的爬虫规矩。譬如说哪些内容可以被爬取,哪些内容不能被爬取,而某些涉及用户隐私的会直接禁止爬取。
一般情况下,大多数搜索引擎,如谷歌、百度等都会尊重“互联网江湖”上这个约定俗成的规矩。然而,今日头条的 Bytespider则忽略掉了这一规矩,仗着自己财大气粗、服务器,每秒几十次,几百次的抓爬访问频率,成为了小网站的“噩梦”。
头条疯狂拓展内容库,已不顾用户隐私安全
今日头条为什么要这儿做?难道真的是搜索领域的“新兵蛋子”,不懂规矩,没人给“上一课”么?其实不然。有专业人士分析称,因为产品急着上线,需要快速扩充内容库,下了个狠手。
众所周知,缺乏优质内容成为了今日头条进军搜索领域的阿喀琉斯之踵。相比谷歌或者百度,今日头条作为内容领域的“小玩家”面临着内容粗糙,优质内容贫乏的硬伤。在今年的8月12号,搜索界的老大哥“百度”宣布与快手、知乎牵手合作之后,今日头条显得更为的孤立无援。
笔者调查发现,头条搜索目前搜到的很多内容还是今日头条体系内的内容,想要从头条搜索一步到位地成为一家全网搜索平台,这几乎是一个不可能完成的目标。全网搜索从来都不是一件容易的事情,从链接、内容的抓取到后续的搜索算法匹配,这对于头条来说确实是一个新的领域,或许在多次碰壁之后,头条再次“坐不住”了。
今年4月份,今日头条由于窃取百度“TOP1”技术成果,被百度告上法庭,并索赔9000万元。直接抄袭百度搜索结果,甚至把百度的水印及logo都带上,一时间成为互联网业界的笑柄。
此次曝光的ByteSpider跳过“robots 协议”抓爬行为,更是暴露了其“流氓”本质。业内人士表示,在做信息分发等业务时,不能竭泽而渔扰乱互联网生态。也有人对此表示了隐忧:今日搜索的爬虫会爬到一些网站禁止访问的内容,譬如用户隐私信息啥的,这可就是在法律边缘试探了。
今日头条“窃取用户隐私”也不是先例。今年9月15日,国家计算机病毒中心发布了《移动APP违法违规问题及治理举措》,文中就指出包括今日头条(版本7.2.7)等应用就具有涉嫌超范围采集公民个人隐私的问题。
彼时,今日头条作为信息流平台,提出了“只做新闻搬运工”模式,通过“算法推荐”去匹配用户兴趣。可以说,今日头条抓住了用户红利的尾期,以这种粗旷的方式迅速聚集了诸多用户,掌握了巨大的入口流量。然而,在流量红利瓜分殆尽的今天,今日头条一边面临着千亿营收压力,一边是搜索业务的突围困境,日子的确不太好过。然而,无论如何,置中小网站、用户的利益于不顾,甚至屡屡触碰法律红线的行为,或许都会将今日头条推向“全民公敌”的位置。