c爬虫抓取网页数据(头条搜索爬虫暴力抓取网站内容直接瘫痪百度也没有这么折腾)
优采云 发布时间: 2022-01-13 21:25c爬虫抓取网页数据(头条搜索爬虫暴力抓取网站内容直接瘫痪百度也没有这么折腾)
近日,一位站长在网上发帖抱怨字节跳动为了快速发展搜索业务,派出爬虫暴力抓取网站内容。@>业主造成了很大的损失和麻烦,严重影响了网站的正常用户访问。
站长说,今年7月突然发现公司的网站不能频繁打开,网页加载极慢,有时甚至直接瘫痪。经过一系列排查,在服务器日志中发现了bytespider爬虫的踪迹。爬虫的爬取频率每天几百万次,最高的是几千万次。服务器带宽负载飙升至 100%,爬虫在爬取时完全不遵循 网站 robots 协议。
站长顺着爬虫的IP地址查询,确认该爬虫是字节跳动搜索爬虫。
另外,我还从CSDN、V2EX等技术论坛了解到,字节跳动开始搜索后,其实网上一直有站长抱怨头条搜索爬虫爬得太猛,被字节跳动搜索爬虫。这不是个例,很多小网站他们都没有放过。
一些网站小站长抱怨:字节跳动的爬虫“一上午就向网站发出46万个请求”,网站瘫痪了,百度也没有那么麻烦!
最后,站长说,对于像我们这样做SEO的人来说,主要目标是希望自己的首页网站能够在主流搜索引擎的搜索结果中排名靠前。360、收录等搜索引擎的标准爬取很受欢迎,但是今日头条搜索爬虫的疯狂爬取内容网站完全瘫痪,不仅没有给网站带来流量也影响正常用户访问,不是很“特殊”。
但字节跳动对此的回应是,“网络报道不实,目前今日头条搜索有反馈机制。网站由于爬虫受到影响,可以通过邮件反馈直接处理。” 明是不准备正面回应的。
因此,从头条搜索爬虫暴力爬取网站的内容来看,雷哥个人认为字节跳动进军全网搜索,搅动搜索市场是好事,但为了快速崛起,让他的爬虫到处乱爬,刚好有问题,大网站服务器配置高,技术人员多,但是很多小网站受不了字节的折腾- 完全击败搜索爬虫。
搜索引擎的索引数据是一点一点积累的。百度和搜狗.360经历了这么多年的发展和积累,才走到了今天。今日头条搜索疯狂爬取内容。远离!