采集文章内容(网页文章正文采集方法,以及微信文章采集为例(组图))
优采云 发布时间: 2022-01-10 08:03采集文章内容(网页文章正文采集方法,以及微信文章采集为例(组图))
网页文章文字采集方法,以微信文章采集为例
当我们想保存今日头条新闻和搜狗微信文章文字的内容时,我们应该怎么做?一张一张复制粘贴?选择一个通用的网络数据 采集器 将使这项工作变得容易得多。
优采云是一个通用的网页数据采集器,可以是互联网上的采集公共数据。用户可以设置从哪个网站爬取数据、爬取哪个数据、爬取什么范围的数据、何时爬取数据、如何保存爬取的数据等。
言归正传,本文将以搜狗微信的文章文本采集为例,讲解优采云采集网页文章文本的使用方法。文章文字采集,主要有两种情况:一、采集文章文字中的文字,不包括图片;二、采集文章正文中的文本和图像 URL。
示例网站:
使用功能点:
Xpath
分析条件
分页列表信息采集
AJAX 滚动教程
AJAX点击和翻页
采集文章正文中的文本,不包括图像
具体步骤:
第 1 步:创建一个 采集 任务
1)进入主界面,选择“自定义模式”
网页文章文字采集第一步
2)把你要采集的网址的网址复制粘贴到网站的输入框中,点击“保存网址”
网页文章文字采集第二步
第 2 步:创建翻页循环
在页面的右上角,打开“流程”以显示“流程设计器”和“自定义当前操作”部分。打开网页时,默认显示“热门”文章。向下滚动页面,找到并点击“加载更多内容”按钮,在动作提示框中,选择“更多动作”
网页文章文字采集第三步
选择“循环单击单个元素”以创建翻页循环
网页文章文字采集第四步
由于这个网页涉及到 Ajax 技术,我们需要设置一些高级选项。选择“点击元素”这一步,打开“高级选项”,勾选“Ajax加载数据”,时间设置为“2秒”
网页文章文字采集第五步
注意:AJAX 是一种延迟加载和异步更新的脚本技术。通过在后台与服务器交换少量数据,可以在不重新加载整个网页的情况下更新网页的某一部分。详情请看
AJAX点击翻页教程:
观察网页,我们发现点击“加载更多内容”5次后,页面加载到底部,一共显示了100篇文章文章。因此,我们将整个“循环页面”步骤设置为执行 5 次。选择“循环页面”步骤,打开“高级选项”,打开“满足以下条件时退出循环”,设置循环次数等于“5次”,点击“确定”
网页文章文字采集第6步
第 3 步:创建列表循环并提取数据
移动鼠标以选择页面上的第一个 文章 链接。系统会自动识别相似链接。在操作提示框中,选择“全选”
网页文章文字采集第7步
选择“循环遍历每个链接”
网页文章文字采集第8步
系统会自动进入文章详情页面。点击需要采集的字段(这里先点击文章标题),在操作提示框中选择“采集该元素的文本”。文章发布时间和文章源字段采集的方法是一样的
网页文章文字采集第9步
接下来开始 采集文章 文本。首先点击文章文字的第一段,系统会自动识别页面中的相似元素,并选择“全选”
网页文章文字采集第十步
5)您可以看到所有正文段落都被选中并变为绿色。选择“采集以下元素文本”
网页文章文字采集第11步
注意:在字段表中,可以自定义修改字段
网页文章文字采集第12步
6)经过上面的操作,所有的文字都会往下采集(默认情况下,每段文字都是一个单元格)。一般来说,我们希望 采集 的主体被合并到同一个单元格中。点击“自定义数据字段”按钮,选择“自定义数据合并方式”,勾选“同一字段多次提取并合并为一行,即追加到同一字段,如文本页面合并”,然后点击“确定”