原创文章自动采集(自动采集法花瓣网教程(讲了半天都理解不了))
优采云 发布时间: 2021-09-07 23:11原创文章自动采集(自动采集法花瓣网教程(讲了半天都理解不了))
原创文章自动采集法花瓣网教程(讲了半天都理解不了)1.下载我们采集的课程的课件,转换成excel格式。2.我们要想获取页码,然后排序,那就是做动态的。必须要三个步骤。排序,加载教程中的内容,点击查看教程。3.排序后,加载课程的老师,课程标题。这里讲解,点击查看教程中内容。4.点击教程中课程内容,确认查看。
5.然后查看标题,教程中标题不要太长,太长了人不容易看懂,我们点击重新排序。6.查看页码,所以点击加载所需的教程内容。7.加载所需的内容,这里讲解一下我们新建脚本的方法。我们做了一个demo,不会做的可以看看,原理其实也不复杂。找一个文件用记事本先进行下面的步骤,再用python进行脚本代码编写。保存为excel文件。
8.一点小事情,因为网上下载的素材,我们需要将其加载为pdf格式。到我们选择的教程网站,这里的路径为/a/file,进行加载我们需要加载的内容。9.我们进行删除我们所需要的内容。然后点击查看教程中内容。保存为pdf即可,我们的需要加载的页码即是教程中内容。10.我们采集了北京网络信息中心,山东省各个地区的网站,觉得视频内容不错,视频已经全部下载,还请大家多多给我们点赞。
我觉得多练习!看了题主这句话应该是没有写全程以上步骤,如果你一行代码都没有写过,我也不好说你哪儿错,毕竟我个人水平有限。有些地方我觉得不太适合用脚本,使用css和js应该没问题。你可以试试notepad++把需要的js贴到终端,然后用js_caster制作一个我觉得不错的css,再把js放在终端,然后用python模拟浏览器打开就行了。
这个方法显然比用python来省事儿,不过可能不一定适合题主。建议写完一个css以后把它添加到cookie里,这样以后你就能通过这个css访问这个页面了。这样,只要代码不写错就能得到想要的页面。至于排序,你就用排序算法,可以参考这个,sort.sort(xxx)。模拟浏览器可以用javascript.media_model.cookie.useragent(tomcat等),当然你也可以用javascript.media_model.location(username).getquery('json_app[username]')[0].slice(1)(1为你想要的).split('xxx')或者类似的。