curl抓取网页是通过一些指令操作的主要包括哪些?

优采云 发布时间: 2022-09-03 02:01

  curl抓取网页是通过一些指令操作的主要包括哪些?

  curl抓取网页主要是通过一些指令操作,比如对url部分字符进行加密,对部分字符进行解密等。即使通过有源代码的浏览器,也可以通过抓包工具找到http协议的包。比如我自己的解析页面json协议代码:我通过抓包分析出我的页面内容主要包括:page_name(页名)、page_id(页id)、title(页面内容)、from_ip(向哪台电脑发送请求)、from_time(请求时间),以及dd(data)和str(s)这两个字符串。

  

  然后通过python爬虫利用cookie做一个简单的尝试,由于php语言的数据库问题没办法获取,但通过python抓包尝试爬取一个cookie提供的公开课www.haomao.io获取了结果。所以我理解你的问题是cookie(用户隐私)和浏览器的一些参数不匹配。可以考虑爬取知乎、豆瓣电影,这两个网站的注册都需要验证手机。

  

  建议你使用scrapy爬取,该网站是采用异步加载,在你抓包看到的每一个html源代码都会分别放在网站的不同页面,爬取效率会更高。你需要建立爬虫,对每一页进行爬取。只要爬取方法是对的,效率是惊人的,后续只要定期清理出内存,网站就自动释放出大量内存空间。

  有请参考我的这篇文章:自己写一个好用的图片点选、实时翻译功能-心之c面-博客频道

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线