ajax抓取网页内容(ajax抓取网页内容的速度与很好的方法-苏州安嘉)

优采云发布时间: 2021-12-31 13:00

　　ajax抓取网页内容。虽然加载的时间很长，但是在服务器可接受的情况下。这速度还是很好的。这应该算是对的起单价。直接使用网页内容，单价贵了很多。

　　对于纯粹的页面抓取scrapy是一个好选择。javascript样式加载，可以选择使用presetplus的preset文件或者sit+dom实现。

　　一楼的意思是只能在浏览器获取，那么：1.爬虫尽量只爬网页的相关结构，请求的文件，解析出来后再提交给后端处理。（做时间规划，把相关的时间分割来完成爬取的过程）2.如果你已经有数据库，直接在数据库取相关数据就行，在请求的时候解析它。3.如果手里没有数据库，那么采用分析对象来抓取（如links，findall，sitemaps等）对象动态变化太多，爬取成本高。

　　把你需要抓取的部分都放在数据库或是lib上，然后用xpath解析数据，

　　既然大家都同意用markdown，那么我就用markdown好了。

　　单纯为了抓取网页内容，单一的ajax抓取已经足够抓取速度快，反正你提交到服务器了，谁有空看你的js,css？我看到的大部分js，css服务器是可以解析的，比如那些网页上foo,bar,goto很多的，百度一下，你就知道。第二个问题是什么时候爬取?是抓取不着的东西吗？那么我的答案是，抓取不着的东西，如果没有时间限制的，在你有时间看的东西，都抓取下来，抓取着不着的东西，尽快丢掉。我并不支持再把什么文件之类的东西备份起来，所以也不存在什么时候发给客户的问题。

0

2021-12-31

ajax抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

ajax抓取网页内容(ajax抓取网页内容的速度与很好的方法-苏州安嘉)

0 个评论

发起人

AI时代内容工厂

ajax抓取网页内容(ajax抓取网页内容的速度与很好的方法-苏州安嘉)

0 个评论

发起人

相关问题