破解网站禁止复制页面内容和图片(网络爬虫(又称为网页蜘蛛)网络机器人怎么办? )
优采云 发布时间: 2021-10-12 00:01破解网站禁止复制页面内容和图片(网络爬虫(又称为网页蜘蛛)网络机器人怎么办?
)
网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常见的是网络追逐者)是按照一定的规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。
1 起源
最近在某社交媒体上看到一个韩漫网站,点进去看了几章,感觉还不错,不过前几章是免费的,然后需要付费金币,还有然后搜索*敏*感*词*。结果发现,这样的*敏*感*词*归根结底是盗取了韩国网站一个叫叮咚的资源。
我用F12打开网络,看看有没有什么技巧或者漏洞。无意中发现*敏*感*词*数据是通过接口json格式传输的!
这种情况简直是在叫我过来爬我,爬我……
设计理念是
1. 首先通过程序爬取网站数据到数据库中
2. 然后爬取*敏*感*词*图片到本地
3 最后,开发一个简单的预览网站,方便自己随时浏览
2 界面分析
这个api接口的数据最简单,简单方便,直接分析接口就行了。
在爬行的过程中,我们适当的延迟了我们的程序,调用了sleep()函数。这样可以降低访问网页的速度,防止程序被看门狗拦截
3 程序设计
接下来就是最重要的图片爬取逻辑了...
考虑后续章节更新添加字段进行扩展
例如在卡通表中添加mhstatus、lock和finish字段
就这样,第一次爬取完成程序用了三天左右。中途,机器休息了一下。一共爬取了320部*敏*感*词*,11702章。
约40G资源(目前80G)
4 网站 礼物
*敏*感*词*都是图片目录,看很不方便,所以有必要开发一个简单的网站。这对程序员来说应该不难,因为是自看,所以不需要注册,不需要会员,不需要金币和广告。, 直接在你的家用电脑上运行一个 URL
所以网站的第一个版本在不到一个小时的时间内就制作完成了。真的很简单很暴力!点击查看!
但这真的很简单吗?在实际体验中发现了很多问题。哪怕只是自己阅读网站,也需要打磨和努力。主要问题是
于是我继续工作,一一解决了上述问题。
我来这里是为了了解我读*敏*感*词*有多难!
思路是在图片上定位两个点,然后计算出两点的高度与图片长度的比值,然后传递给背景。图片在后台进行缩放,直接保存在服务器上。影响
点按两次,点绿线开始,点红线结束,可以分别抓拍该区域的图片
采集图库截图和页面截图区域没有太大区别,可以接受
5 部署和运行
一开始是用家用电脑做的,但在实际使用中,不能一直把电脑当服务器。主要原因是电脑丢失,其次是浪费电!(其实主要是因为它是电,差),所以它需要一个工作。低耗方案,我一开始想到的是树莓派,但是树莓派也需要花钱买!所以我在大学的时候把我坏掉的电脑重新启用了,打开2G内存的浏览器就卡住了。但是这种性能还是可以作为web服务使用的。我们开始做吧!
6 跟进
后来为了保证散热,我把笔记本的后壳敲了很大一部分,为了轻便,还拆了屏幕。所有不相关的配件都可以拆卸和移除。最后想说2G内存还是可以跑的。