【开源】类似百度文库的文库网站系统

优采云 发布时间: 2020-08-26 02:23

  【开源】类似百度文库的文库网站系统

  最近见到一个类似百度文库的开源文库系统。可以拿来搭建营运自己的文库网站。

  虽说现今综合类的文库站点,如百度文库等早已做上去了,如果你准备做综合类的文库站点,还是不现实,因为空间很小了.

  但是,如果你专注于某一个方向的文库站点,比如课后习题答案文库站点、IT行业文库站点、教育类文库站点等,专注于一个行业领域方向,还是有很大成长空间的。就好比图片站点,现在好多搜索引擎都能搜索图片,但是Pinterest、花瓣网等还不是做上去了吗?

  主要技术栈

  后端 :Go语言框架Beego

  前端: 基于Bootstrap的后端框架Flat-UI

  数据库:MySQL,数据储存

  依赖环境:Libreoffice(或Openoffice),用于将office文档转PDF

  pdf2svg,用于将PDF转成svg矢量图片,以供阅读。

  calibre,用于将mobi、chm、epub等文档转成PDF,然后再将pdf转成svg

  阿里云OSS,存储office文档、PDF文档以及svg等文件

  功能特性文档在线阅读

  DocHub文库通过svg矢量图来实现文档阅读体验的,我晓得的文库站点中,新浪爱问是通过png等图片提供文档阅读体验的。

  SVG相比png、jpeg等图片格式有很大的优势,至少放大不会失真,而且与JPEG 和 GIF 图像比上去,svg规格更小,可压缩性更强,DocHub通过gzip,将svg文件压缩,一般情况下,能减低70%的文件大小,比如200kb的svg,gzip压缩后,只有60kb左右的大小。

  使用svg,大大提高了加载速率,优化了内容的阅读体验。

  office文档在线阅读

  这个须要经过两层转化:

  office --> pdf --> svg

  

  PDF文档在线阅读

  将PDF文档通过pdf2svg转化,提供在线阅读

  mobi、epub、chm文档在线阅读

  使用calibre将文档转成PDF,然后pdf再转svg。

  全文搜索

  全文搜索功能,之前是使用coreseek开发实现了这个功能的,但是现今coreseek的官网都早已挂了...打算用elasticsearch重新实现这个功能。

  文档采集功能【TODO】

  建站早期,站点内容的填充,是一个大难点。

  然而,GitBook、ReadTheDoc等站点上,就有一大堆的开源技术文档,提供mobi、pdf、epub离线文档下载。

  初略统计了一下,GitBook有10多万文档,按可用文档为5万计算,每份文档,提供3种格式的下载,光从gitbook采集文档,做成文库,就有15万多的文档了。

  然后,你再利用下搜索引擎,搜索filetype:文档格式 + 搜索关键字,如filetype:pdf 入门教程,你都会发觉惊喜!

  如果再爬其他文档,一年之内,单*敏*感*词*匹马搞个上百万文档的文库站点,应该不是个事儿。

  积分功能

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线