js 爬虫抓取网页数据(js爬虫抓取网页数据-js获取页面上的所有链接)

优采云 发布时间: 2022-03-15 22:04

  js 爬虫抓取网页数据(js爬虫抓取网页数据-js获取页面上的所有链接)

  js爬虫抓取网页数据。目前在网上看到的第一个教程。js获取页面上所有链接,比如我要爬取某个视频网站截图的信息,会搜索该视频网站视频页面的url,获取url并通过页面代码中的href标签,得到页面所有文字信息。这里用到一个工具:googleanalytics.f12抓取url。url返回json格式。看下代码:{"pagespeed":1,"pageminute":8,"pagespeedtitle":"时刻","pagespeedyear":21}发现url请求参数个数是8,href标签后面会带一个"href"标签,这时候我们需要解析该标签,得到文字信息。

  googleanalytics后台获取的url带有一个对应的cookie值,当用户登录时使用该cookie值登录。so从代码里我们可以很清楚的得到解析url变成:{"pagespeed":1,"pageminute":8,"pagespeedyear":21}通过cookie值,我们可以获取到对应的cookie值了,获取到cookie值有些困难,因为通过该工具可以通过cookie值预览登录的页面。

  我们暂且说下http请求时,常用请求头:cookie_useragent:传递给googleanalytics的username或password,从这个useragent值我们可以知道一个人的真实信息。cookie_mimenegr:用于加密cookie值在网页上的传输,防止被篡改,篡改后网页将无法打开。

  cookie_path:cookie传递的地址,指定文件存放路径。cookie_tmp_path:一次性将cookie存放到tmp文件中,比如说file.js文件也可以一次性写入。cookie_path':设置cookie保存在本地的路径,应该写入的路径是文件名(就是:a.js-目录-/a/b/c/d)a:用户登录名b:浏览器,浏览器登录信息是否加密c:浏览器的登录信息要加密d:参数传递给googleanalytics的参数cookie_text:cookie的内容cookie_name:cookie的名字cookie_type:cookie的类型,默认为aes-256cookie_assignr:加密方式加密方式是eph-key解密:转义后使用即可获取appid,appsecret,appidpassword,appidpasswordpassword,id,idfa,infodiv,httpsstr。

  以及appsecret。property:传递给googleanalytics的值resulturl:传递给googleanalytics的返回值详细代码:/***1.js**@authoranton4*@date2019-3-31*///获取数据获取来源的url请求数据到wx.request.ajax。

  可以在js配置中指定数据来源的urlres=requests.get(url(""),timeout=30)i=i+1print("%c"%res)data={'useragent':'','cookie_useragent':'c#..b。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线