破解网站禁止复制页面内容和图片(网络爬虫（又称为网页蜘蛛）网络机器人怎么办？ )

优采云发布时间: 2021-10-12 00:01

　　破解网站禁止复制页面内容和图片(网络爬虫（又称为网页蜘蛛）网络机器人怎么办？

)

　　网络爬虫（也称为网络蜘蛛、网络机器人，在 FOAF 社区中，更常见的是网络追逐者）是按照一定的规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。

　　1 起源

　　最近在某社交媒体上看到一个韩漫网站，点进去看了几章，感觉还不错，不过前几章是免费的，然后需要付费金币，还有然后搜索*敏*感*词*。结果发现，这样的*敏*感*词*归根结底是盗取了韩国网站一个叫叮咚的资源。

　　我用F12打开网络，看看有没有什么技巧或者漏洞。无意中发现*敏*感*词*数据是通过接口json格式传输的！

　　这种情况简直是在叫我过来爬我，爬我……

　　设计理念是

　　1. 首先通过程序爬取网站数据到数据库中

　　2. 然后爬取*敏*感*词*图片到本地

　　3 最后，开发一个简单的预览网站，方便自己随时浏览

　　2 界面分析

　　这个api接口的数据最简单，简单方便，直接分析接口就行了。

　　在爬行的过程中，我们适当的延迟了我们的程序，调用了sleep()函数。这样可以降低访问网页的速度，防止程序被看门狗拦截

　　3 程序设计

　　接下来就是最重要的图片爬取逻辑了...

　　考虑后续章节更新添加字段进行扩展

　　例如在卡通表中添加mhstatus、lock和finish字段

　　就这样，第一次爬取完成程序用了三天左右。中途，机器休息了一下。一共爬取了320部*敏*感*词*，11702章。

　　约40G资源（目前80G）

　　4 网站礼物

　　*敏*感*词*都是图片目录，看很不方便，所以有必要开发一个简单的网站。这对程序员来说应该不难，因为是自看，所以不需要注册，不需要会员，不需要金币和广告。, 直接在你的家用电脑上运行一个 URL

　　所以网站的第一个版本在不到一个小时的时间内就制作完成了。真的很简单很暴力！点击查看！

　　但这真的很简单吗？在实际体验中发现了很多问题。哪怕只是自己阅读网站，也需要打磨和努力。主要问题是

　　于是我继续工作，一一解决了上述问题。

　　我来这里是为了了解我读*敏*感*词*有多难！

　　思路是在图片上定位两个点，然后计算出两点的高度与图片长度的比值，然后传递给背景。图片在后台进行缩放，直接保存在服务器上。影响

　　点按两次，点绿线开始，点红线结束，可以分别抓拍该区域的图片

　　采集图库截图和页面截图区域没有太大区别，可以接受

　　5 部署和运行

　　一开始是用家用电脑做的，但在实际使用中，不能一直把电脑当服务器。主要原因是电脑丢失，其次是浪费电！（其实主要是因为它是电，差），所以它需要一个工作。低耗方案，我一开始想到的是树莓派，但是树莓派也需要花钱买！所以我在大学的时候把我坏掉的电脑重新启用了，打开2G内存的浏览器就卡住了。但是这种性能还是可以作为web服务使用的。我们开始做吧！

　　6 跟进

　　后来为了保证散热，我把笔记本的后壳敲了很大一部分，为了轻便，还拆了屏幕。所有不相关的配件都可以拆卸和移除。最后想说2G内存还是可以跑的。

0

2021-10-12

破解网站禁止复制页面内容和图片

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

破解网站禁止复制页面内容和图片(网络爬虫（又称为网页蜘蛛）网络机器人怎么办？ )

0 个评论

发起人

AI时代内容工厂

破解网站禁止复制页面内容和图片(网络爬虫（又称为网页蜘蛛）网络机器人怎么办？ )

0 个评论

发起人

相关问题