破解网站禁止复制页面内容和图片(网络爬虫(又称为网页蜘蛛)网络机器人怎么办? )

优采云 发布时间: 2021-10-12 00:01

  破解网站禁止复制页面内容和图片(网络爬虫(又称为网页蜘蛛)网络机器人怎么办?

)

  网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常见的是网络追逐者)是按照一定的规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。

  1 起源

  最近在某社交媒体上看到一个韩漫网站,点进去看了几章,感觉还不错,不过前几章是免费的,然后需要付费金币,还有然后搜索*敏*感*词*。结果发现,这样的*敏*感*词*归根结底是盗取了韩国网站一个叫叮咚的资源。

  

  我用F12打开网络,看看有没有什么技巧或者漏洞。无意中发现*敏*感*词*数据是通过接口json格式传输的!

  

  

  这种情况简直是在叫我过来爬我,爬我……

  设计理念是

  1. 首先通过程序爬取网站数据到数据库中

  2. 然后爬取*敏*感*词*图片到本地

  3 最后,开发一个简单的预览网站,方便自己随时浏览

  2 界面分析

  这个api接口的数据最简单,简单方便,直接分析接口就行了。

  

  

  

  

  

  在爬行的过程中,我们适当的延迟了我们的程序,调用了sleep()函数。这样可以降低访问网页的速度,防止程序被看门狗拦截

  3 程序设计

  接下来就是最重要的图片爬取逻辑了...

  考虑后续章节更新添加字段进行扩展

  例如在卡通表中添加mhstatus、lock和finish字段

  

  

  就这样,第一次爬取完成程序用了三天左右。中途,机器休息了一下。一共爬取了320部*敏*感*词*,11702章。

  约40G资源(目前80G)

  

  4 网站 礼物

  *敏*感*词*都是图片目录,看很不方便,所以有必要开发一个简单的网站。这对程序员来说应该不难,因为是自看,所以不需要注册,不需要会员,不需要金币和广告。, 直接在你的家用电脑上运行一个 URL

  所以网站的第一个版本在不到一个小时的时间内就制作完成了。真的很简单很暴力!点击查看!

  

  但这真的很简单吗?在实际体验中发现了很多问题。哪怕只是自己阅读网站,也需要打磨和努力。主要问题是

  于是我继续工作,一一解决了上述问题。

  

  

  

  我来这里是为了了解我读*敏*感*词*有多难!

  思路是在图片上定位两个点,然后计算出两点的高度与图片长度的比值,然后传递给背景。图片在后台进行缩放,直接保存在服务器上。影响

  

  点按两次,点绿线开始,点红线结束,可以分别抓拍该区域的图片

  

  

  采集图库截图和页面截图区域没有太大区别,可以接受

  

  5 部署和运行

  一开始是用家用电脑做的,但在实际使用中,不能一直把电脑当服务器。主要原因是电脑丢失,其次是浪费电!(其实主要是因为它是电,差),所以它需要一个工作。低耗方案,我一开始想到的是树莓派,但是树莓派也需要花钱买!所以我在大学的时候把我坏掉的电脑重新启用了,打开2G内存的浏览器就卡住了。但是这种性能还是可以作为web服务使用的。我们开始做吧!

  6 跟进

  后来为了保证散热,我把笔记本的后壳敲了很大一部分,为了轻便,还拆了屏幕。所有不相关的配件都可以拆卸和移除。最后想说2G内存还是可以跑的。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线