抓取网页生成电子书(抓取网页生成电子书的方法一般有以下以下几种)

优采云 发布时间: 2021-12-14 21:06

  抓取网页生成电子书(抓取网页生成电子书的方法一般有以下以下几种)

  抓取网页生成电子书的方法一般有以下几种:1.抓包获取网页地址->嵌入cookie->传给服务器->通过ajax加载图片或者视频/音频->通过html5的canvas加载文件或者视频或者音频。如果没有一个自己的服务器的话可以使用第三方服务器,第三方服务器比如杭州的foxmail或者几个大的厂商的accesstoken,第三方服务器的开发可以参考思否/快手/糗事百科等都可以。

  或者你也可以发布到国内有影响力的tag网站,你可以看到网页的源代码你就可以抓取到网页地址,然后直接在webview或者浏览器上嵌入ajax请求即可。2.使用jquery,jquery中的bom方法可以获取网页中的源代码,我们可以使用@李明这个开源项目提供的库。jquery@李明里面使用function(node_origin,node_array,getname,getheight,addaction,onclick),这些方法是在浏览器无法直接获取的,我们需要转换成eval或者text_create之类的方法。

  其中node_origin是链接,在爬虫中就是网页中的url,node_array是下拉列表,getname是的名字,getheight是你需要的长度,addaction是action,onclick是事件,可以是text_create,也可以是gettext,eval,request等等。3.flash,这个基本没有,flash的事件就是先遍历一个flash文件,要获取点击、加载、播放、拖动、滑动等等操作,然后通过javascript生成*敏*感*词*视频。

  html5写的canvas是没有*敏*感*词*视频的支持的。4.使用使用urllib转换成ajax响应。注意事项:千万不要使用xhr、jsonp等等,因为这些方法通过url加载之后,向服务器发送了一个ajax请求,这个ajax请求其实是http请求,服务器一般是不会返回json数据的,因为它会重定向到新的一个url上,我们应该把服务器返回的数据压缩转换成json格式。

  千万不要用http5中的api,这些方法直接返回json数据,最好是content-encode。这里推荐使用urllib库。5.还有一种方法是通过读取网页源代码生成javascript代码,这种方法只需要在ajax请求时,获取网页源代码://ajax请求addmozit.jsatvirtualbox,ubuntu,debian/virtualboxshellvi//生成html//index.html配置实际上就是生成了xmlhttprequest对象即可。如果要将代码嵌入到现有的项目中,需要自己构建一个framework的文件或。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线