java爬虫抓取网页数据(爬虫抓取数据后,怎样存储才是最好的方式呢?)

优采云 发布时间: 2021-09-30 13:46

  java爬虫抓取网页数据(爬虫抓取数据后,怎样存储才是最好的方式呢?)

  爬虫抓取数据后,最好的存储方式是什么?我们来看看可以使用的存储方法。

  以json格式存储在文本文件中,存储在excel中,存储在sqlite中,存储在mysql数据库中,存储在mongodb1、中,存储在json格式的文本文件中

  这是最简单、最方便、最常用的存储方式。json 格式确保您在打开文件时可以直观地检查存储的数据。一行数据存储在一行中。这种方法适用于爬取数据量比较小的情况。,后续的阅读和分析也很方便。

  2、保存到excel

  如果爬取到的数据可以方便的整理成表格,用excel存储是个不错的选择。打开excel后,观察数据更方便。Excel也可以做一些简单的操作。可以用xlwt写excel。有了这个库,你就可以使用xlrd来读取excel了。和方法一一样,excel中存储的数据不要太多。另外,如果是多线程爬取,用多线程写excel是不可能的。这是一个限制。

  3、存储到sqlite

  Sqlite不需要安装,它是一个零配置的数据库,比mysql轻很多。语法方面,只要懂mysql,操作sqlite就没有问题。当爬虫数据量大,需要持久化存储,又懒得装mysql的时候,sqlite绝对是最好的选择,不多,不支持多进程读写,所以不适合多进程爬虫。

  4、存储到mysql数据库

  MySQL可以远程访问,但sqlite不能。这意味着您可以将数据存储在远程服务器主机上。当数据量非常大的时候,自然应该选择mysql而不是sqlite,但是无论是mysql还是sqlite,都必须先存储数据再存储。需要先建表,根据要抓取的数据结构和内容定义字段。这是一个耐心和精力的问题。

  5、存储到mongodb

  我最喜欢no sql数据库的原因之一是不需要像关系数据库那样定义表结构,因为定义表结构很麻烦。判断字段的类型,varchar类型的数据也需要定义长度,你定义的小一点,过长的数据会被截断。

  Mongodb 以文档的形式存储数据。可以使用pymongo作为库,直接将数据以json格式写入mongodb。即使在同一个集合中,对数据的格式也没有要求,太灵活了。

  刚刚捕获的数据通常需要进行第二次清理才能使用。如果使用关系型数据库存储数据,第一次需要定义表结构。清洗后,恐怕需要定义一个表结构来恢复清洗后的数据。收纳太麻烦。使用 mongodb 消除了重复定义表结构的过程。

  6、 可以使用redis吗?

  不推荐使用Redis。不要说它很快。问题是你不需要这么快的存储速度和读取速度。Redis 旨在用作缓存,它没有合适的数据结构来存储您的爬虫抓取的内容。对于下载的数据,强行使用redis只会给你带来麻烦。

  7、如何存储图片数据

  图片可以存储在本地文件中,以便您随时查看。如果数据量太大,也可以存储在mongodb中,但是在mongodb中存储太小的图片很浪费空间

  综上所述,应根据实际情况确定使​​用哪种存储方式。如果数据量小,有文字,少考虑数据库。如果数据不复杂,考虑关系型数据库,sqlite,mysql,数据复杂,甚至需要第二次。清洗处理后,存入mongodb。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线