js 抓取网页内容(#the-web-resource-algorithmwebresourcealgorithm|pythongithub.js抓取网页加速包下载地址)

优采云发布时间: 2021-11-14 07:03

　　js抓取网页内容是经常用到的技术，经常是测试过程中。这次基于github主页上的代码抓取。为了加速，基于github的开源python网站抓取，给加了加速包，以下是加速包下载地址-python-github.html#the-web-resource-algorithmwebresourcealgorithm|pythongithub其实这次代码下载下来也很简单，到了那可以看看效果，如下图。

　　源码下载地址：需要安装这两个库pipinstall-ienvironment-python-cythonimporturllibfromurllib.requestimporturlopenfromurllib.httpimporthttpsheaders={'user-agent':'mozilla/5.0(windowsnt6.1;win64;x64)applewebkit/537.36(khtml,likegecko)chrome/66.0.3643.110safari/537.36'}#把headers当作脚本的headers发给node_modules下的python脚本importrequestspage=urllib.urlopen('')html=page.read()#startwebserverproxy={'host':'','port':53345}hostname=''#hostname就是浏览器访问的地址username=''#username会作为hostname服务器响应时返回的字符串secret=''#密码secret是hostname服务器响应到浏览器端后，对页面做加密的文件地址，设置为127.0.0.1或者.get所以不用设置tlsproxy_mask="^tls-ssl-origin^{}$/"proxy_uri=''/proxy.server.name'proxy_password="proxy.server.password"encrypturl=''#requesturlurl=';host='+hostname+'&port='+portproxy_uri=';host='+hostname+'&port='+port#proxy_password=''cookiefile='proxy.server.cookiefile'#设置request头信息#tokenproxy_headers={'host':'','port':53345}#urlopen方法就是发给浏览器请求网页的headers，浏览器认为请求报文都是https://的包格式，把get请求的头包含hostname和port的部分都包含在里面request=urllib.urlopen("")html=request.read().decode("gbk")print(""%(hostname,port))运行上面代码，输出结果如下：结果显示是响应报文是port:53345响应文件是这个地址，是不是很神奇？爬虫简介爬虫模拟登录到你的浏览器，每当访问一个网站都会执行一次下面的逻辑。

　　为啥需要这个逻辑呢？每个网站的判断抓取的页面都是不一样的，最重要的一个因素是urllib.request.urlopen方法在收到请求。

0

2021-11-14

js 抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js 抓取网页内容(#the-web-resource-algorithmwebresourcealgorithm|pythongithub.js抓取网页加速包下载地址)

0 个评论

发起人

AI时代内容工厂

js 抓取网页内容(#the-web-resource-algorithmwebresourcealgorithm|pythongithub.js抓取网页加速包下载地址)

0 个评论

发起人

相关问题