python抓取动态网页目前还不太可行。(图)

优采云 发布时间: 2022-07-29 14:04

  python抓取动态网页目前还不太可行。(图)

  

  python抓取动态网页目前还不太可行。动态网页的动态对于同一个网站来说可能是同一个域名下的所有不同网页(图片、视频等等),如果需要抓取的网页多达100+甚至几千,那真是要抓狂了。不如手动切换url,抓取特定网页,然后对url进行解析,来实现对分页内容的爬取。比如你要抓取知乎,那么把知乎网页上所有设置评论的url输入抓取服务器,在本地用python解析,然后去知乎网页里得到结果即可。

  

  又找到一个方法,写爬虫,去一个网站找它有过什么活动。然后去爬。网页就又是动态的了,开始很难抓。因为每个登录的都抓。但是当你发现一个网站某个板块有活动你就可以换一个url去抓了。例如淘宝某个店铺的页面,一大堆商品堆起来这就是它的活动列表了。差不多就这意思。

  关于这个问题。你要知道,我们用浏览器打开一个页面是你的浏览器去主动给页面上的东西进行下载,而这样的一个过程,服务器一定是收到信息的。有的浏览器收到信息,你才能打开。如果这个页面是你从互联网上找到的,而当前浏览器不在线,你只能把服务器的信息丢弃掉。但是,即使当前服务器不在线,你在手机或电脑等地方刷新网页,浏览器响应就会更新,因为在某些情况下(例如网页需要重新加载),一个网页,可能会放到某些网站去,而你只是暂时跳转一下。所以,你关注到的动态网页的话,其实是服务器收到了你的主动刷新的网页,服务器响应给你的东西。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线