抓取网页生成电子书( 制作技术领域的生成方法及技术分析(一))
优采云 发布时间: 2022-03-25 09:05抓取网页生成电子书(
制作技术领域的生成方法及技术分析(一))
Epub电子书的生成方法
【技术领域】
[0001] 本发明涉及电子书制作技术领域,具体涉及一种EPUB电子书的生成方法。
【背景技术】
[0002] 随着移动互联网时代的到来,电子阅读逐渐成为一种趋势和趋势。越来越多的人用它来获取信息和知识,对电子书的阅读效果也提出了更高的要求。在注重内容的同时,也注重布局合理、布局美观、信息的直观表达和交互,从而获得更加愉悦舒适的阅读体验。
[0003] 目前,很多软件都可以制作成品电子书。他们通常使用以下两种方法:(一)固定版式的电子书。一般采用roF、XPS、CEBX、DPUB等文件格式,将文档的排版结果直接输出到带版面的电子书。这种方法可以保留纸质书的版面和设计,缺点是:阅读端适应性差,当屏幕尺寸不匹配时(如:竖屏布局书籍横屏显示,大屏布局书籍小屏显示等),内容难以自动调整;对*敏*感*词*、声音、视频等交互对象的支持较差,这也限制了信息的表达。(二) 带有流媒体内容的电子书。一般会使用EPUB(ElectronicPublicat1n)、IBOOK等文件格式,将文档内容直接输出成流式电子书。这种方式在阅读器端有较好的适应性,在屏幕大小不匹配时会自动重新排列内容;它对*敏*感*词*、声音、视频等交互对象也有很好的支持。它的缺点是:布局的排版和设计信息被丢弃,适合出版有文学、科技等内容的电子书,并且不适合烹饪、旅行、儿童等发布版面要求。高等电子书。这种方式在阅读器端有较好的适应性,在屏幕大小不匹配时会自动重新排列内容;它对*敏*感*词*、声音、视频等交互对象也有很好的支持。它的缺点是:布局的排版和设计信息被丢弃,适合出版有文学、科技等内容的电子书,并且不适合烹饪、旅行、儿童等发布版面要求。高等电子书。这种方式在阅读器端有较好的适应性,在屏幕大小不匹配时会自动重新排列内容;它对*敏*感*词*、声音、视频等交互对象也有很好的支持。它的缺点是:布局的排版和设计信息被丢弃,适合出版有文学、科技等内容的电子书,并且不适合烹饪、旅行、儿童等发布版面要求。高等电子书。并且适合出版有文学、科技等内容的电子书,不适合出版烹饪、旅游、儿童等版面要求。高等电子书。并且适合出版有文学、科技等内容的电子书,不适合出版烹饪、旅游、儿童等版面要求。高等电子书。
【发明内容】
针对现有技术的不足,本发明提供一种EPUB电子书的生成方法,在EPUB流媒体内容的基础上实现,增加了富媒体元素的应用,使得版面的交互性和动态感更强。强大的。
本发明提供一种EPUB电子书生成方法,包括:
[0006] 构建文档的内容流;
在内容流中插入标签,该标签用于记录与内容流相关的信息;
[0008] 将插入标签后的内容流作为电子版EPUB文件输出。
可选的,所述施工文件的内容流程,包括:
遍历文档中的每一页,构建页面的内容流;
[0011] 将每个页面的内容流连接起来以构建文档的内容流。
[0012] 可选地,标签包括布局标签、导航目标标签和富媒体元素标签。
可选的,所述在所述内容流中插入标签,包括:
[0014] 根据文档的排版,在内容流中插入布局标签,用于记录内容流的布局信息;
[0015] 根据文档页面内容的引用结构,在内容流中插入导航目标标签,用于记录内容流的导航目标信息;
[0016] 根据文档的交互内容,在内容流中插入富媒体元素标签,用于记录内容流的富媒体元素信息。
可选的,根据文档的排版,在内容流中插入布局标签,用于记录内容流的布局信息,包括:
遍历文档中的每一页,在每一页的内容流下插入一个页面布局标签,记录每一页的布局信息;
遍历文档中的每个对象块,在每个对象块下插入布局标签,记录每个对象块的位置和大小信息;
遍历文档中的每个文本块,获取每个文本块的分割位置,在每个文本块的分割位置插入块布局标签,记录每个文本块块信息;
遍历所述文本块中的各个子列,得到所述各个子列的拆分位置,在所述各个子列拆分位置插入子列布局标签,记录所述各个子列的列位置和大小信息;
遍历所述子列的每个文本行,得到所述每个文本行的分行位置,在所述每个文本行的分行位置插入文本行布局标签,记录每个文本行的每个位置和大小信息;
遍历所述文本行中的每个字符,根据所述每个字符的位置和属性,构造收录多个连续字符的文本行中的文本片段,得到所述每个行内文本片段的分割位置,在每个行内文本片段的分割位置插入文本行中文本片段的布局标签,并记录文本片段在每个文本行中的位置和大小信息。
可选的,根据文档页面内容的引用结构,在内容流中插入导航目标标签,用于记录内容流的导航目标信息,包括:
遍历文档中的每一页,在每一页的内容流下插入一个页面导航目标标签,记录每一页的导航目标信息;
[0026] 遍历文档中的每个段落,如果该段落与目录级别匹配,则在该段落下方插入目录导航目标标签,并记录该目录的导航目标信息;
遍历索引中的每个索引项,找出索引项对应的参考点,在参考点下方插入索引导航目标标签,记录每个索引项的导航目标信息;
[0028] 遍历引用结构中的每个引用项,找出该引用项对应的引用点,在该引用点下方插入一个引用导航目标标签,并记录每个引用项的导航目标信息。
可选的,所述记录所述内容流的导航目标信息,包括:
为导航目标指定相应参考结构的类别;
指定导航目标对应参考项的级别;
指定导航目标对应参考项的ID;
[0033] 指定导航目标的相应参考项的标题。
可选的,根据文档的交互内容,在内容流中插入富媒体元素标签,用于记录内容流的富媒体元素信息,包括:
遍历文档中的交互内容;
[0036] 根据交互内容的类别和属性,选择交互内容对应的富媒体元素;
[0037] 在交互内容下方插入与交互内容对应的富媒体元素,并记录富媒体元素的应用信息。
可选地,所述插入标签后的内容流输出为电子版EPUB文件,包括:
遍历文档中每一页的内容流,为每一页的内容流构造一个HTML片段文件;
遍历文档中的各个引用结构,在HTML片段文件中建立引用项与导航目标标签的链接,构建导航片段文件;
[0041] HTML片段文件和导航片段文件被组合并输出到EPUB文件中。
可选地,所述每个页面的内容流构造为HTML片段文件,包括:
[0043] 对每个页面的内容流,构建中间页面结构;
[0044] 对于每个中间页面结构,构造一个HTML片段文件。
由上述技术方案可知,本发明提供了一种EPUB电子书的生成方法,在EPUB流媒体内容的基础上,保留了页面布局、设计等布局信息,增加了富媒体的应用。元素,并使布局更具交互性和动态性,能更好地适应各种移动客户端和阅读器,呈现多种布局效果。
【图纸说明】
图1是本发明实施例提供的一种EPUB电子书生成方法的流程图;
图2为本发明实施例提供的横屏儿童电子书的页面布局*敏*感*词*;
图3为本发明实施例提供的儿童电子书横屏呈现效果*敏*感*词*。
[0049] 图。图4为本发明实施例提供的竖屏儿童电子书的效果*敏*感*词*。
【详细说明】
[0050] 下面结合附图对本发明的【具体实施例】作进一步说明。以下实施例仅用于更清楚地说明本发明的技术方案,并不用于限制本发明的保护范围。
图1为本实施例提供的一种EPUB电子书生成方法的流程图,如图1所示,该方法包括以下步骤:
[0052] 101、构建文档的内容流。
例如,上述步骤包括图1中未示出的子步骤:
[0054] 1011、遍历文档中的各个页面,构造页面的内容流;
[0055] 1012、连接每个页面的内容流以构造文档的内容流。
[0056] 102、在内容流中插入标签,该标签用于记录与内容流相关的信息。
[0057] 例如,上述标签包括布局标签、导航目标标签和富媒体元素标签。
具体的,上述步骤102还包括图1中未示出的子步骤:
[0059] 1021、根据文档的排版,在内容流中插入布局标签,记录内容流的布局信息;
[0060]