js 抓取网页内容(js抓取网页内容会先被转换成map格式，怎么处理)

优采云发布时间: 2022-04-14 12:02

　　js抓取网页内容会先被转换成map格式，内容会被简单的整理一下，例如：check</a>echo"check

check

"但是没有url的话会取不到内容，所以建议用urllib2。

　　百度。

　　可以用scrapy，可以在webscrapy-scrapy或者meganscrapy项目下载到前端返回的html文件，再继续发起后面的连接来接收数据。

　　我一直在用这个，然后前端操作挺方便的。

　　简单的做法是爬取首页大部分商品。因为大部分商品的商品价格固定，对应的url自然就能设计出来。这样方便用模板写页面css等，标准的url格式对静态页面也是够用的。然后正则，例如首页的url是/abab2be143ebe8235be7106c36841546ed828/beci/goods/这样的dom就可以爬下来。

　　一共大概几千行代码不到十分钟搞定。不推荐那种上千字符搜索，因为太多是指向商品页面内容页的，部分网站正则匹配排序算法不一定受得了。如果页面中有宝贝链接的话，可以抓取部分宝贝链接，但不推荐。因为这样做会对页面进行程序化解析，每个商品页面的宝贝链接都会有对应页数，每个页数多少url就是几千字符，需要关联上层链接。

　　不能简单拿链接直接输出了。这部分后期可以有后端处理。是有后端的，你不会用后端的话，可以用后端可用的html来接收，然后发起连接。然后拿抓到的数据给商品页面使用。这样就可以得到首页大部分商品的url对应的数据了。其他页面的数据没有抓到，应该有后端工具可以抓取其他页面或内容。在看下这些页面的数据怎么处理。

　　肯定不是从外部爬取下来一样就完了。数据处理也是很耗时的。这里推荐一个比较容易的方法。去爬取微博好像有很多爬虫在抓取粉丝数量前几名的，然后把这些url保存在数据库里，那么在某些场景可以不用保存粉丝信息就直接抓取。

0

2022-04-14

js 抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js 抓取网页内容(js抓取网页内容会先被转换成map格式，怎么处理)

0 个评论

发起人

AI时代内容工厂

js 抓取网页内容(js抓取网页内容会先被转换成map格式，怎么处理)

0 个评论

发起人

相关问题