智能采集发布器(大多数智能抽取结果如下图详解()(组图))

优采云 发布时间: 2021-11-14 13:13

  智能采集发布器(大多数智能抽取结果如下图详解()(组图))

  一个小概念:

  大多数 网站 以列表页面和详细信息页面的层次结构组织。比如我们进入新浪新闻频道,有很多标题链接,可以认为是列表页。单击标题链接后,您将进入详细信息页面。

  使用数据采集工具的一般目的是在详情页获取大量特定内容的数据,并利用这些数据进行各种分析,发布自己的网站等。

  列表页:指栏目或目录页,一般收录多个标题链接。例如:网站首页或栏目页为列表页。主要功能:可以通过列表页面获取多个详情页面的链接。

  详情页:收录特定内容的页面,如网页文章,收录:标题、作者、发布日期、正文内容、标签等。

  首先,请登录“优采云控制面板”:

  详细使用步骤:

  第一步:创建采集任务

  点击左侧菜单按钮“创建采集任务”,输入采集任务名称和采集“列表页”网址,如:(这里首页为列表页:内容收录多个详情页即可),详情页链接可以留空,系统会自动识别。

  如下所示:

  

  输入后点击“下一步”。

  第二步:改进列表页的智能提取结果(可选)

  系统会先通过智能算法获取需要采集的详情页链接(多个)。用户可以双击打开支票。如果不需要数据,可以点击“List Extractor”手动指定,只需在可视化界面中用鼠标点击即可。

  智能采集结果如下:

  

  另外:在上述结果中,系统还智能发现了翻页规则,用户可以设置采集多少页。您也可以稍后在任务“基本信息和门户网址”--“根据规则生成网址”项中进行配置。

  列表提取器打开如下:

  

  第三步:完善详情页智能提取结果(可选)

  上一步获取多个详情页链接后,继续下一步。系统会使用其中一个详情页链接智能提取详情页数据(如:标题、作者、发布日期、内容、标签等)

  详情页智能提取结果如下:

  

  如果智能提取的内容不是您想要的,您可以打开“详细信息提取器”进行修改。

  如下所示:

  

  您可以修改、添加或删除左侧的字段。

  您还可以对每个字段进行详细设置或数据处理(双击该字段):替换、提取、过滤、设置默认值等,

  如下所示:

  

  第 4 步:启动并运行

  完成后,即可启动运行,进行数据采集了:

  

  采集 数据出结果后,在采集任务“Result Data & Publish”中,可以在这里修改数据或者直接导出excel或者发布你的网站(WordPress、织梦@ >DEDE、HTTP 接口、数据库等)。

  

  完了,数据采集就是这么简单!!!

  其他操作,如发布数据到网站,数据SEO处理等,请参考其他章节。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线