抓取网页数据(抓取网页数据的话比较简单用什么方法传递参数吧)

优采云 发布时间: 2021-12-18 20:16

  抓取网页数据(抓取网页数据的话比较简单用什么方法传递参数吧)

  抓取网页数据的话比较简单用webpy就可以,

  抓取数据ajax框架很多,写起来也不复杂,重点看用什么方法传递参数吧,get的话一般都是headers参数吧。

  有个相对成熟的叫cookie.so,基本上不涉及到后端获取

  如果是抓取某个网站内容的话,可以用抓包工具,然后将你想抓取的内容的地址交给程序就可以抓取了,

  用百度就可以

  get的话是headers中有个参数“useragent”,

  headers传递参数,

  应该是一样的,ajax的基本都是通过加载页面的xml文件。

  webpy可以抓取http请求数据

  可以看看antio/message·github

  用python的webpy就可以了,

  可以通过postman这样的工具来做,

  抓取网页数据可以使用json解析工具,这里推荐一个工具libphones-webpy。网站的话现在主流的网站都有,包括facebook,twitter,hashtag都有。

  json数据的话,有个框架叫webscrap,用它就可以抓取,不过复杂的后端任务还是要交给写爬虫的同学来吧。

  大概看了下回答,大部分都是基于postman。不过估计爬虫的同学没有用这个工具抓取,估计用的是爬虫工具scrapy。那么为什么我们用postman不用cookie呢?我认为要知道数据格式,抓取过程中验证用户是否用户名,密码,那用cookie就很麻烦。再有,我们也想要把用户的注册id发给爬虫,不想让爬虫知道我们的账号信息。

  那怎么办?当然是用户名,密码绑定,把一些像手机号等等不便暴露出来的信息去掉,但是数据还是要下来。我们从json数据格式的话,我们如何爬数据呢?比如百度的话,登录后就自动进去发短信,不过不同于你的发短信,它要求用户给账号服务器发送的信息发送到gmail中。但是有些网站的话,比如新浪看看、腾讯微博,等等,它就要求你在它的服务器上给账号发送短信,当然,对于普通的人来说,还是太麻烦了。

  那么有没有这么简单点,且人家不用发短信,可以直接通过user-agent是透明的方式就能抓取数据的呢?最简单的方法,那就是我自己写个登录程序,或者使用爬虫工具scrapy之类的直接抓取。这时,它的问题就来了,太麻烦了,还会泄露你的账号信息。但是如果是可以像爬虫工具一样抓取,那么我们也可以考虑从其他地方把这个信息传给它,或者知道user-agent码一般的话,可以用自己的账号信息。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线