如何抓取网页数据(命令：12-》chrome--查看网页源代码xhr)

优采云发布时间: 2021-09-26 13:04

　　如何抓取网页数据一直是一个大问题，本文给大家介绍一个批量抓取网页数据的技巧。本文介绍了以下命令：f12-》chrome-》查看网页源代码xhr。server-》此时可以获取网页源代码xhr。server查看f12的chrome的源代码用于抓取不同的页面get/post首先明确网页的类型，f12是能获取到网页的js/css等一系列源代码的get/post方法具体如下：xhr。

　　serverget('')。get(url,method=‘get’)get/post/1forkfork2。在fork函数中去接收返回的url2。获取对应的js文件3。fork生成新文件，将新的文件挂载到数据库，这个就是fork的内容。get/post。js下载地址：-sqlite-0-desktop。

　　aspx里面的python实现：#coding:utf-8importrequestsfrombs4importbeautifulsoupclassgetfirst(beautifulsoup。fromstring):def__init__(self,url):self。url=urldefget(self,url):self。

　　body=beautifulsoup(self。body,'lxml')。format(url)ifself。body:returnrequests。get(self。body)。textdefpost(self,url):try:self。body=beautifulsoup(self。body,'lxml')。

　　format('')self。body=self。body。textexceptexceptionase:print('此处html不存在,请使用正则匹配')#正则匹配returnself。body#其实抓取js的具体执行也差不多，在此不展开json。dumps(xhr。server,'html2json')。

0

2021-09-26

如何抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何抓取网页数据(命令：12-》chrome--查看网页源代码xhr)

0 个评论

发起人