js 抓取网页内容(js抓取网页内容会先被转换成map格式,怎么处理)

优采云 发布时间: 2022-04-14 12:02

  js 抓取网页内容(js抓取网页内容会先被转换成map格式,怎么处理)

  js抓取网页内容会先被转换成map格式,内容会被简单的整理一下,例如:check</a>echo"check

check

"但是没有url的话会取不到内容,所以建议用urllib2。

  百度。

  可以用scrapy,可以在webscrapy-scrapy或者meganscrapy项目下载到前端返回的html文件,再继续发起后面的连接来接收数据。

  我一直在用这个,然后前端操作挺方便的。

  简单的做法是爬取首页大部分商品。因为大部分商品的商品价格固定,对应的url自然就能设计出来。这样方便用模板写页面css等,标准的url格式对静态页面也是够用的。然后正则,例如首页的url是/abab2be143ebe8235be7106c36841546ed828/beci/goods/这样的dom就可以爬下来。

  一共大概几千行代码不到十分钟搞定。不推荐那种上千字符搜索,因为太多是指向商品页面内容页的,部分网站正则匹配排序算法不一定受得了。如果页面中有宝贝链接的话,可以抓取部分宝贝链接,但不推荐。因为这样做会对页面进行程序化解析,每个商品页面的宝贝链接都会有对应页数,每个页数多少url就是几千字符,需要关联上层链接。

  不能简单拿链接直接输出了。这部分后期可以有后端处理。是有后端的,你不会用后端的话,可以用后端可用的html来接收,然后发起连接。然后拿抓到的数据给商品页面使用。这样就可以得到首页大部分商品的url对应的数据了。其他页面的数据没有抓到,应该有后端工具可以抓取其他页面或内容。在看下这些页面的数据怎么处理。

  肯定不是从外部爬取下来一样就完了。数据处理也是很耗时的。这里推荐一个比较容易的方法。去爬取微博好像有很多爬虫在抓取粉丝数量前几名的,然后把这些url保存在数据库里,那么在某些场景可以不用保存粉丝信息就直接抓取。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线