抓取网页生成电子书的几种比较传统的解决方法

优采云发布时间: 2022-09-04 11:04

　　抓取网页生成电子书的几种比较传统的解决方法有：

　　1、分词查询电子书，

　　2、图书分类统计：按书名、作者、书籍名等相关要素分类比如分工、专业、科目的统计

　　3、提取pdf、epub电子书每一页的内容作为键值对输入，

　　4、利用机器学习算法对用户输入的电子书内容进行语义分析，生成多个匹配度很高的关键词对，

　　5、加载完整的电子书，从客户端打开电子书查看。使用python的web服务端，用户输入电子书内容到web服务端，web服务端根据url提取重要信息并返回给用户。

　　一、电子书生成原理基于libreoffice(可以以用户指定格式输出电子书)，pdf(基于pdf)，或者xml的编码。使用python或cpython生成下载过程基于python的web服务端提取电子书和pdf关键字的匹配度，再利用机器学习算法提取相关词汇后，获取电子书列表。

　　二、提取电子书列表和搜索词对使用collections.listlist()获取电子书列表，使用collections.defaultlist()从已有列表获取。利用requests.get(url)，beautifulsoup()或selenium将要提取的request和web服务端匹配提取。使用selenium或openxml2对其进行加载：。

　　三、获取电子书列表打开一个ajax的https()标签，利用requests.get(url)返回url对应的html文档，利用listlist()获取相关的html列表：使用fiddler，python中使用“控制台”来获取浏览器的地址栏地址，提取相关的关键字：以上只是简单的处理，使用简单的方法就可以完成打印出电子书列表。

　　比如网页上有网页的排版链接，下载后根据原排版进行排版；根据书名、作者、书籍名等相关要素分词得到相关关键字：。

　　四、获取搜索词通过爬虫网页的ajax技术，对网页的每一页都进行匹配，

　　五、通过一些方法进行进一步的搜索百度、维基、豆瓣、清华、北大网站后台api（明朝）可以获取关键字的完整查询结果，可以解决电子书提取标题、书名、作者、书籍名等组成要素。

0

2022-09-04

抓取网页生成电子书

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页生成电子书的几种比较传统的解决方法

0 个评论

发起人