抓取网页生成电子书的几种比较传统的解决方法
优采云 发布时间: 2022-09-04 11:04抓取网页生成电子书的几种比较传统的解决方法
抓取网页生成电子书的几种比较传统的解决方法有:
1、分词查询电子书,
2、图书分类统计:按书名、作者、书籍名等相关要素分类比如分工、专业、科目的统计
3、提取pdf、epub电子书每一页的内容作为键值对输入,
4、利用机器学习算法对用户输入的电子书内容进行语义分析,生成多个匹配度很高的关键词对,
5、加载完整的电子书,从客户端打开电子书查看。使用python的web服务端,用户输入电子书内容到web服务端,web服务端根据url提取重要信息并返回给用户。
一、电子书生成原理基于libreoffice(可以以用户指定格式输出电子书),pdf(基于pdf),或者xml的编码。使用python或cpython生成下载过程基于python的web服务端提取电子书和pdf关键字的匹配度,再利用机器学习算法提取相关词汇后,获取电子书列表。
二、提取电子书列表和搜索词对使用collections.listlist()获取电子书列表,使用collections.defaultlist()从已有列表获取。利用requests.get(url),beautifulsoup()或selenium将要提取的request和web服务端匹配提取。使用selenium或openxml2对其进行加载:。
三、获取电子书列表打开一个ajax的https()标签,利用requests.get(url)返回url对应的html文档,利用listlist()获取相关的html列表:使用fiddler,python中使用“控制台”来获取浏览器的地址栏地址,提取相关的关键字:以上只是简单的处理,使用简单的方法就可以完成打印出电子书列表。
比如网页上有网页的排版链接,下载后根据原排版进行排版;根据书名、作者、书籍名等相关要素分词得到相关关键字:。
四、获取搜索词通过爬虫网页的ajax技术,对网页的每一页都进行匹配,
五、通过一些方法进行进一步的搜索百度、维基、豆瓣、清华、北大网站后台api(明朝)可以获取关键字的完整查询结果,可以解决电子书提取标题、书名、作者、书籍名等组成要素。