ajax抓取网页内容(ajax抓取网页内容的速度与很好的方法-苏州安嘉)
优采云 发布时间: 2021-12-31 13:00ajax抓取网页内容(ajax抓取网页内容的速度与很好的方法-苏州安嘉)
ajax抓取网页内容。虽然加载的时间很长,但是在服务器可接受的情况下。这速度还是很好的。这应该算是对的起单价。直接使用网页内容,单价贵了很多。
对于纯粹的页面抓取scrapy是一个好选择。javascript样式加载,可以选择使用presetplus的preset文件或者sit+dom实现。
一楼的意思是只能在浏览器获取,那么:1.爬虫尽量只爬网页的相关结构,请求的文件,解析出来后再提交给后端处理。(做时间规划,把相关的时间分割来完成爬取的过程)2.如果你已经有数据库,直接在数据库取相关数据就行,在请求的时候解析它。3.如果手里没有数据库,那么采用分析对象来抓取(如links,findall,sitemaps等)对象动态变化太多,爬取成本高。
把你需要抓取的部分都放在数据库或是lib上,然后用xpath解析数据,
既然大家都同意用markdown,那么我就用markdown好了。
单纯为了抓取网页内容,单一的ajax抓取已经足够抓取速度快,反正你提交到服务器了,谁有空看你的js,css?我看到的大部分js,css服务器是可以解析的,比如那些网页上foo,bar,goto很多的,百度一下,你就知道。第二个问题是什么时候爬取?是抓取不着的东西吗?那么我的答案是,抓取不着的东西,如果没有时间限制的,在你有时间看的东西,都抓取下来,抓取着不着的东西,尽快丢掉。我并不支持再把什么文件之类的东西备份起来,所以也不存在什么时候发给客户的问题。