java爬虫抓取网页数据(java爬虫抓取网页数据“，”如何做数据库开发)

优采云发布时间: 2021-12-30 17:00

　　java爬虫抓取网页数据并保存为xml或json文件，从而导入excel，利用vba将相应数据写入相应数据库。利用xib或xlsx可以轻松处理大量xml文件！所以你的问题中”高效处理xml文件“，”如何做数据库开发“应该是建立在”如何做爬虫爬取xml文件“的这个问题上吧。

　　微信那么多个公众号，如果你是通过他们的文章被推送的，那么他们是自己开发过api接口，不过挺多时候通过找代爬他们的数据就可以解决大部分问题了。

　　这个问题，首先要看你对爬虫爬取的内容定义。

　　1、爬取基本的api接口

　　2、文章页面出现的各种格式的xml、json文件。爬取下来后，用同步机制（self.web.webnavigation）让接口同步，让接口处理后才能让爬虫爬取。把爬取后的xml、json序列化到web文件中，存放在浏览器可以打开的位置。根据你要的接口文件的路径构建数据库。

　　3、是比较高效的，但是如果技术上不够成熟，怕处理不了，那么根据需求（想要爬取什么样的内容）规划数据存放位置和相应的数据结构就是所谓的爬虫工程师。

　　通常是直接用requests,但是爬取api文档页面性能问题不大.3/4号那种基本不现实了

　　微信公众号为什么不用requests?

　　别弄了你，

0

2021-12-30

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册