网站内容抓取(爬虫四处抓取网站内容瘫痪百度也没有这么折腾的!)
近日,有站长在网上发表评论称,字节跳动为了快速发展搜索业务,派出爬虫抓取网站内容,给中小网站站长造成很大损失和困扰,影响网站普通用户访问。
<p>站长说,今年7月,突然发现公司的网站经常打不开,网页加载极慢,有时甚至直接瘫痪。经过一系列调查,在服务器日志中发现了bytespider爬虫的踪迹。这个爬虫每天的爬虫频率达到几百万次,高达几千万次,服务器带宽负载暴涨到100%,完全不遵守网站的robots协议。
要回复文章请先登录或注册
云端的采集更轻松