网页抓取 加密html(利用加密加密网页内容Note:这个方法我没接触过过)

优采云 发布时间: 2022-04-19 05:20

  网页抓取 加密html(利用加密加密网页内容Note:这个方法我没接触过过)

  相同点:

  一种。两者都需要直接抓取网页源代码才能有效工作,

  湾。两者都会在单位时间内多次抓取大量访问过的网站内容;

  C。宏观上来说,两个IP都会发生变化;

  d。两个都迫不及待的想破解你网页的一些加密(验证),比如网页内容是用js文件加密的,比如需要输入验证码才能浏览内容,比如需要登录才能访问内容, ETC。

  不同之处:

  搜索引擎爬虫首先会忽略整个网页的源脚本和样式以及 HTML 标签代码,然后对剩余的文本进行分词、语法分析等一系列复杂的处理。采集器 一般使用 html 标签的特性来捕获需要的数据。制定采集规则时,需要填写目标内容的开始标记和结束标记,以便定位到需要的内容;或者使用针对特定网页制作特定的正则表达式来过滤掉需要的内容。无论你使用开始和结束标记还是正则表达式,都会涉及到html标签(网页结构分析)。

  然后想出一些反采集的方法

  1、限制单位时间内每个IP地址的访问次数

  分析:没有一个普通人可以在一秒钟内访问同一个网站 5次,除非是程序访问,而喜欢这样的人就剩下搜索引擎爬虫和烦人的采集器

  缺点:一刀切,这也会阻止搜索引擎访问 收录 或 网站

  适用于网站:网站不严重依赖搜索引擎的人

  采集器会做什么:减少单位时间的访问次数,降低采集的效率

  2、屏蔽ip

  分析:通过后台计数器,记录访客IP和访问频率,人工分析访客记录,屏蔽可疑IP。

  缺点:好像没有缺点,就是站长忙

  适用于网站:所有网站,站长可以知道是google还是百度机器人

  采集器会做什么:打游击战!使用ip proxy采集改一次,但是会降低采集器的效率和网速(使用代理)。

  3、使用js加密网页内容

  注意:我没有接触过这个方法,只是来自其他来源

  分析:不用分析,搜索引擎爬虫和采集器杀

  对于网站:讨厌搜索引擎的网站和采集器

  采集器 会这样做:你那么好,你要牺牲,他不会来接你

  4、隐藏网站网页中的版权或一些随机的垃圾文字,这些文字样式写在css文件中

  分析:虽然不能阻止采集,但是会让采集后面的内容被你的网站版权声明或者一些垃圾文字填满,因为一般采集器不会采集您的 css 文件,这些文本显示时没有样式。

  适用于 网站:所有 网站

  采集器怎么办:对于版权文本,好办,替换掉。对于随机垃圾文本,没办法,快点。

  5、用户登录访问网站内容

  分析:搜索引擎爬虫不会为每一种此类网站设计登录程序。听说采集器可以为某个网站设计模拟用户登录和提交表单的行为。

  对于网站:网站讨厌搜索引擎,最想屏蔽采集器

  采集器 会做什么:制作一个模块来模拟用户登录和提交表单的行为

  6、使用脚本语言进行分页(隐藏分页)

  分析:还是那句话,搜索引擎爬虫不会分析各种网站的隐藏分页,影响搜索引擎对其收录。但是,采集作者在编写采集规则时,需要分析目标网页的代码,有一定脚本知识的人会知道分页的真实链接地址。

  适用于网站:网站对搜索引擎依赖不高,采集你的人不懂脚本知识

  采集器会做什么:应该说采集这个人会做什么,反正他会分析你的网页代码,顺便分析一下你的分页脚本,不会花太多额外的时间.

  7、反链保护措施

  分析:asp和php可以通过读取请求的HTTP_REFERER属性来判断请求是否来自这个网站,从而限制采集器,同时也限制了搜索引擎爬虫,严重影响了搜索引擎对网站。@网站部分防盗链内容收录。

  适用于网站:网站很少考虑搜索引擎收录

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线