原创文章自动采集(自动采集法花瓣网教程（讲了半天都理解不了）)

优采云发布时间: 2021-09-07 23:11

　　原创文章自动采集法花瓣网教程（讲了半天都理解不了）1.下载我们采集的课程的课件，转换成excel格式。2.我们要想获取页码，然后排序，那就是做动态的。必须要三个步骤。排序，加载教程中的内容，点击查看教程。3.排序后，加载课程的老师，课程标题。这里讲解，点击查看教程中内容。4.点击教程中课程内容，确认查看。

　　5.然后查看标题，教程中标题不要太长，太长了人不容易看懂，我们点击重新排序。6.查看页码，所以点击加载所需的教程内容。7.加载所需的内容，这里讲解一下我们新建脚本的方法。我们做了一个demo，不会做的可以看看，原理其实也不复杂。找一个文件用记事本先进行下面的步骤，再用python进行脚本代码编写。保存为excel文件。

　　8.一点小事情，因为网上下载的素材，我们需要将其加载为pdf格式。到我们选择的教程网站，这里的路径为/a/file，进行加载我们需要加载的内容。9.我们进行删除我们所需要的内容。然后点击查看教程中内容。保存为pdf即可，我们的需要加载的页码即是教程中内容。10.我们采集了北京网络信息中心，山东省各个地区的网站，觉得视频内容不错，视频已经全部下载，还请大家多多给我们点赞。

　　我觉得多练习！看了题主这句话应该是没有写全程以上步骤，如果你一行代码都没有写过，我也不好说你哪儿错，毕竟我个人水平有限。有些地方我觉得不太适合用脚本，使用css和js应该没问题。你可以试试notepad++把需要的js贴到终端，然后用js_caster制作一个我觉得不错的css，再把js放在终端，然后用python模拟浏览器打开就行了。

　　这个方法显然比用python来省事儿，不过可能不一定适合题主。建议写完一个css以后把它添加到cookie里，这样以后你就能通过这个css访问这个页面了。这样，只要代码不写错就能得到想要的页面。至于排序，你就用排序算法，可以参考这个，sort.sort(xxx)。模拟浏览器可以用javascript.media_model.cookie.useragent(tomcat等)，当然你也可以用javascript.media_model.location(username).getquery('json_app[username]')[0].slice(1)（1为你想要的）.split('xxx')或者类似的。

0

2021-09-07

原创文章自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

原创文章自动采集(自动采集法花瓣网教程（讲了半天都理解不了）)

0 个评论

发起人

AI时代内容工厂

原创文章自动采集(自动采集法花瓣网教程（讲了半天都理解不了）)

0 个评论

发起人

相关问题