java爬虫抓取网页数据(爬虫抓取数据后，怎样存储才是最好的方式呢？)

优采云发布时间: 2021-09-30 13:46

　　爬虫抓取数据后，最好的存储方式是什么？我们来看看可以使用的存储方法。

　　以json格式存储在文本文件中，存储在excel中，存储在sqlite中，存储在mysql数据库中，存储在mongodb1、中，存储在json格式的文本文件中

　　这是最简单、最方便、最常用的存储方式。json 格式确保您在打开文件时可以直观地检查存储的数据。一行数据存储在一行中。这种方法适用于爬取数据量比较小的情况。，后续的阅读和分析也很方便。

　　2、保存到excel

　　如果爬取到的数据可以方便的整理成表格，用excel存储是个不错的选择。打开excel后，观察数据更方便。Excel也可以做一些简单的操作。可以用xlwt写excel。有了这个库，你就可以使用xlrd来读取excel了。和方法一一样，excel中存储的数据不要太多。另外，如果是多线程爬取，用多线程写excel是不可能的。这是一个限制。

　　3、存储到sqlite

　　Sqlite不需要安装，它是一个零配置的数据库，比mysql轻很多。语法方面，只要懂mysql，操作sqlite就没有问题。当爬虫数据量大，需要持久化存储，又懒得装mysql的时候，sqlite绝对是最好的选择，不多，不支持多进程读写，所以不适合多进程爬虫。

　　4、存储到mysql数据库

　　MySQL可以远程访问，但sqlite不能。这意味着您可以将数据存储在远程服务器主机上。当数据量非常大的时候，自然应该选择mysql而不是sqlite，但是无论是mysql还是sqlite，都必须先存储数据再存储。需要先建表，根据要抓取的数据结构和内容定义字段。这是一个耐心和精力的问题。

　　5、存储到mongodb

　　我最喜欢no sql数据库的原因之一是不需要像关系数据库那样定义表结构，因为定义表结构很麻烦。判断字段的类型，varchar类型的数据也需要定义长度，你定义的小一点，过长的数据会被截断。

　　Mongodb 以文档的形式存储数据。可以使用pymongo作为库，直接将数据以json格式写入mongodb。即使在同一个集合中，对数据的格式也没有要求，太灵活了。

　　刚刚捕获的数据通常需要进行第二次清理才能使用。如果使用关系型数据库存储数据，第一次需要定义表结构。清洗后，恐怕需要定义一个表结构来恢复清洗后的数据。收纳太麻烦。使用 mongodb 消除了重复定义表结构的过程。

　　6、可以使用redis吗？

　　不推荐使用Redis。不要说它很快。问题是你不需要这么快的存储速度和读取速度。Redis 旨在用作缓存，它没有合适的数据结构来存储您的爬虫抓取的内容。对于下载的数据，强行使用redis只会给你带来麻烦。

　　7、如何存储图片数据

　　图片可以存储在本地文件中，以便您随时查看。如果数据量太大，也可以存储在mongodb中，但是在mongodb中存储太小的图片很浪费空间

　　综上所述，应根据实际情况确定使用哪种存储方式。如果数据量小，有文字，少考虑数据库。如果数据不复杂，考虑关系型数据库，sqlite，mysql，数据复杂，甚至需要第二次。清洗处理后，存入mongodb。

0

2021-09-30

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取网页数据(爬虫抓取数据后，怎样存储才是最好的方式呢？)

0 个评论

发起人