抓取网页数据(抓取网页数据的话比较简单用什么方法传递参数吧)

优采云发布时间: 2021-12-18 20:16

　　抓取网页数据的话比较简单用webpy就可以，

　　抓取数据ajax框架很多，写起来也不复杂，重点看用什么方法传递参数吧，get的话一般都是headers参数吧。

　　有个相对成熟的叫cookie.so,基本上不涉及到后端获取

　　如果是抓取某个网站内容的话，可以用抓包工具，然后将你想抓取的内容的地址交给程序就可以抓取了，

　　用百度就可以

　　get的话是headers中有个参数“useragent”，

　　headers传递参数，

　　应该是一样的，ajax的基本都是通过加载页面的xml文件。

　　webpy可以抓取http请求数据

　　可以看看antio/message·github

　　用python的webpy就可以了，

　　可以通过postman这样的工具来做，

　　抓取网页数据可以使用json解析工具，这里推荐一个工具libphones-webpy。网站的话现在主流的网站都有，包括facebook，twitter，hashtag都有。

　　json数据的话，有个框架叫webscrap，用它就可以抓取，不过复杂的后端任务还是要交给写爬虫的同学来吧。

　　大概看了下回答，大部分都是基于postman。不过估计爬虫的同学没有用这个工具抓取，估计用的是爬虫工具scrapy。那么为什么我们用postman不用cookie呢？我认为要知道数据格式，抓取过程中验证用户是否用户名，密码，那用cookie就很麻烦。再有，我们也想要把用户的注册id发给爬虫，不想让爬虫知道我们的账号信息。

　　那怎么办？当然是用户名，密码绑定，把一些像手机号等等不便暴露出来的信息去掉，但是数据还是要下来。我们从json数据格式的话，我们如何爬数据呢？比如百度的话，登录后就自动进去发短信，不过不同于你的发短信，它要求用户给账号服务器发送的信息发送到gmail中。但是有些网站的话，比如新浪看看、腾讯微博，等等，它就要求你在它的服务器上给账号发送短信，当然，对于普通的人来说，还是太麻烦了。

　　那么有没有这么简单点，且人家不用发短信，可以直接通过user-agent是透明的方式就能抓取数据的呢？最简单的方法，那就是我自己写个登录程序，或者使用爬虫工具scrapy之类的直接抓取。这时，它的问题就来了，太麻烦了，还会泄露你的账号信息。但是如果是可以像爬虫工具一样抓取，那么我们也可以考虑从其他地方把这个信息传给它，或者知道user-agent码一般的话，可以用自己的账号信息。

0

2021-12-18

抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页数据(抓取网页数据的话比较简单用什么方法传递参数吧)

0 个评论

发起人