curl抓取网页是通过一些指令操作的主要包括哪些？

优采云发布时间: 2022-09-03 02:01

　　curl抓取网页主要是通过一些指令操作，比如对url部分字符进行加密，对部分字符进行解密等。即使通过有源代码的浏览器，也可以通过抓包工具找到http协议的包。比如我自己的解析页面json协议代码：我通过抓包分析出我的页面内容主要包括：page_name(页名)、page_id(页id)、title(页面内容)、from_ip(向哪台电脑发送请求)、from_time(请求时间)，以及dd(data)和str(s)这两个字符串。

　　然后通过python爬虫利用cookie做一个简单的尝试，由于php语言的数据库问题没办法获取，但通过python抓包尝试爬取一个cookie提供的公开课www.haomao.io获取了结果。所以我理解你的问题是cookie(用户隐私)和浏览器的一些参数不匹配。可以考虑爬取知乎、豆瓣电影，这两个网站的注册都需要验证手机。

　　建议你使用scrapy爬取，该网站是采用异步加载，在你抓包看到的每一个html源代码都会分别放在网站的不同页面，爬取效率会更高。你需要建立爬虫，对每一页进行爬取。只要爬取方法是对的，效率是惊人的，后续只要定期清理出内存，网站就自动释放出大量内存空间。

　　有请参考我的这篇文章：自己写一个好用的图片点选、实时翻译功能-心之c面-博客频道

0

2022-09-03

curl 抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

curl抓取网页是通过一些指令操作的主要包括哪些？

0 个评论

发起人