文章采集发布(腾讯广州新闻为例,文章采集和发布,包括图片的下载及上传 )
优采云 发布时间: 2021-09-22 19:14文章采集发布(腾讯广州新闻为例,文章采集和发布,包括图片的下载及上传
)
以腾讯广州新闻为例,我们来谈谈采集和文章的发布,包括下载和上传图片。网站,让我们一步一步地来谈
1.新站点
2.在此站点上创建新任务
3.URL规则,检查源代码,发现这些URL代码在一个区域中。我们可以这样写规则
测试一下。对的是时候选择下面的内容了
4.content规则生成。例如,让我们先找到一个页面并进行测试
看了看,里面有我们需要的东西,这表明优采云我们可以选择它。以下是采集规则的具体内容
如何获得冠军?只需使用默认值并过滤“腾讯万象社交新闻”。如果您不理解代码,可以使用这种方法,内容也可以这样做。对于一般简单的采集来说,没有什么大问题。然而,对于一些相对复杂的网页采集,我们仍然需要仔细分析源代码和网页结构。下面我们做一个具体的分析。分析工具ie可以使用ie开发者工具栏,Firefox可以使用插件firebug(请在工具“附件-组件浏览-加载项”中查看并安装),Google可以右键单击“查看元素”。以萤火虫为例:
经过分析,我们可以知道内容位于ID为cntmain的区域,标题ID为articletit
涉嫌手机爆炸死亡的店员继续说:现场发现9发*敏*感*词*
因此,我们可以这样写标题。请注意,截取的代码应符合源代码中的格式
内容部分是articlecnt,我们以artplink结束。那是采集it
让我们测试一下。我们可以采集所有的内容,但里面有广告和其他乱七八糟的代码。我们需要把它过滤掉。我看到顶部的分析代码和广告代码。建议阅读。ID正在读取,所以我们按如下方式过滤它
。看一看,没有,但有一件事需要注意的是,之前有一份关于这方面的报告。请看这个图,大部分是不同的,比如一些相关的报告,一些事件回放,一些只是链接
这样,过滤就有点复杂了。它只能单独过滤。我将在这里过滤链接。其他的可以自己处理。让我们来看一看。在文章尾部有一个链接文章,我们不需要它。过滤掉它。再次筛选,然后再找到几个页面进行测试并查找问题。最终结果如图所示
5.发布设置。我们使用web在线发布数据并将数据发送给dedecms 5.1进去。我们选择publish,然后单击define online post to网站global settings。将弹出web online configuration manager
此时,我们选择add来添加web发布配置。让我们先看一下说明书。有关详细信息,请参阅对web在线发布模块文章的修改,然后启动配置:
我们发布到local网站dede@k45.3所以模块选择了相应的版本,网站management directory为,按照说明填写,然后选择代码。我们网站gbk是的,所以选择GBK。然后登录网站并使用优采云内置浏览器登录,如图所示
然后,您可以在成功登录后关闭优采云浏览器。接下来,让我们刷新列表,该列表用于指定文章将发布到哪个列,如图所示
您可以看到该列已成功获取,然后我们测试配置
我们可以看到它已经成功发布,网站并且在后台检查也成功。现在,您可以保存配置名称并在发布时使用它。该示例另存为dedegbk53.
现在,我们右键单击任务发布设置
,选择dedegbk53,然后单击“选择类别”,指定此任务中的文章将发布到网站. 我们可以添加多个配置。当然,一个配置也可以添加到多个任务中
这样,web发布配置就完成了。现在,让我们讨论如何下载图像,如图所示
上图分别显示了运行时线程设置。如果您的网络很差,请将其扩大。在文件下载设置部分,您可以为本地文件保存文件夹选择任何目录,然后程序将在该目录中生成图片、flash和其他文件的保存地址。文件链接地址前缀是网站上显示的路径,如上图所示,本地保存的图像文件的最终地址将是a+1+/文件名,网站上对应的地址是B+1+/文件名。如果通过FTP上传,B和C的路径应该对应
标签中指定了下载的特定设置,还可以指定下载文件的命名方法
现在我们所有的配置都准备好了,我们可以启动采集并直接发布。保存任务后,选择任务并单击开始
需要注意的是,您不能同时选择网站、内容和内容。内容可以分几次分发。我们的演示一次性完成。点击开始,我们可以看到操作进度
让我们去网站后台看看效果
找到任何文章都是正常的,图片也是正常的。如果不直接保存到网站目录,请使用FTP工具上传。一个完整的采集发布过程已经结束