自动采集编写两个爬虫爬去它应该有的数据
优采云 发布时间: 2022-05-04 22:01自动采集编写两个爬虫爬去它应该有的数据
自动采集编写两个爬虫爬去它应该有的代码里面的数据,然后用headers去请求一个json文件然后对爬虫发送请求,看返回的数据,和数据库对应。就是这么简单。
谢邀!任何一个成熟的中间件都可以做到你说的那样。你自己设计或开发一个也可以。
采集的话。就是简单的事情。
大家讲的都有道理,我讲一下我的理解吧,不一定完全正确,欢迎批评指正:如果是博客的话,可以找到博客所属的网站,根据网站的规范和域名,自己设计采集程序。然后找到对应的网站,利用js这种技术把你想采的目标页面渲染出来。另外为啥要采abc?a,b,c指的是页面里面的内容,abc可以看做整个网站的目录。c下面是d。
这样采了以后,你直接把对应的abc这样的目录文件放到相应的页面中。每次爬都用的是之前设定好的页面文件。
采集指的是爬虫,采站或者采团队成员的站。目前是pc爬虫为主,因为有浏览器分类,但一般采用pc采集。另外采集的模式是利用scrapy/gray/flask/bot等框架,通过python或shell等技术解析采集结果。方案根据你爬的站数量需求会有一些不同。如果爬得多,爬得差可以建立一个scrapy-botfrom这样的组,用python写,然后在你定位的站点中爬爬试试。
你得去找一个可以爬过程的工具,不断的重复一个过程