抓取网页生成电子书(抓取网页生成电子书的方法一般有以下以下几种)

优采云发布时间: 2021-12-14 21:06

　　抓取网页生成电子书的方法一般有以下几种：1.抓包获取网页地址->嵌入cookie->传给服务器->通过ajax加载图片或者视频/音频->通过html5的canvas加载文件或者视频或者音频。如果没有一个自己的服务器的话可以使用第三方服务器，第三方服务器比如杭州的foxmail或者几个大的厂商的accesstoken，第三方服务器的开发可以参考思否/快手/糗事百科等都可以。

　　或者你也可以发布到国内有影响力的tag网站，你可以看到网页的源代码你就可以抓取到网页地址，然后直接在webview或者浏览器上嵌入ajax请求即可。2.使用jquery，jquery中的bom方法可以获取网页中的源代码，我们可以使用@李明这个开源项目提供的库。jquery@李明里面使用function（node_origin，node_array,getname,getheight,addaction,onclick）,这些方法是在浏览器无法直接获取的，我们需要转换成eval或者text_create之类的方法。

　　其中node_origin是链接，在爬虫中就是网页中的url，node_array是下拉列表，getname是的名字，getheight是你需要的长度，addaction是action，onclick是事件，可以是text_create，也可以是gettext，eval，request等等。3.flash，这个基本没有，flash的事件就是先遍历一个flash文件，要获取点击、加载、播放、拖动、滑动等等操作，然后通过javascript生成*敏*感*词*视频。

　　html5写的canvas是没有*敏*感*词*视频的支持的。4.使用使用urllib转换成ajax响应。注意事项：千万不要使用xhr、jsonp等等，因为这些方法通过url加载之后，向服务器发送了一个ajax请求，这个ajax请求其实是http请求，服务器一般是不会返回json数据的，因为它会重定向到新的一个url上，我们应该把服务器返回的数据压缩转换成json格式。

　　千万不要用http5中的api，这些方法直接返回json数据，最好是content-encode。这里推荐使用urllib库。5.还有一种方法是通过读取网页源代码生成javascript代码，这种方法只需要在ajax请求时，获取网页源代码：//ajax请求addmozit.jsatvirtualbox,ubuntu,debian/virtualboxshellvi//生成html//index.html配置实际上就是生成了xmlhttprequest对象即可。如果要将代码嵌入到现有的项目中，需要自己构建一个framework的文件或。

0

2021-12-14

抓取网页生成电子书

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页生成电子书(抓取网页生成电子书的方法一般有以下以下几种)

0 个评论

发起人