Excel教程Excel函数Excel表格制作Excel2010Excel实用技巧Excel视频教程

优采云 发布时间: 2021-03-22 06:38

  Excel教程Excel函数Excel表格制作Excel2010Excel实用技巧Excel视频教程

  •采集内容:新闻链接,标题,摘要,时间

  在下面输入详细的分步说明。

  1.定义一级任务:设置操作

  1. 1打开网页

  打开采集器数据管理器,进入《人民日报在线》的搜索网站,然后加载该页面。单击浏览器左上角的“ +”,然后进入定义任务的状态。

  

  1. 2随机将内容标记为采集

  尽管第一级任务并未执行实际的爬网工作,但为了使爬网程序正常工作,该任务中至少需要一个爬网内容。我们在网页上使用“新闻”一词作为爬网内容。

  双击“ News”,然后输入字段名称和表名称,如下图所示。 (有关视觉注释的详细操作,请参阅“ 采集网页数据”)

  

  1. 3设置动作

  这里将重点介绍第一个“输入”操作,而第二个操作则简短地“单击”。

  1. 3. 1第一个动作:输入动作

  在工作台上单击“ 4”以输入“设置动作”,然后单击“新建”按钮以创建新动作。

  

  执行后执行:目标任务是第二级任务。在此示例中,第二级任务的名称为:Tutorial_People's Network Search_Grab

  动作类型:第一个动作是输入,因此请选择输入

  动作名称:为动作命名,以便以后检查,例如:输入

  互动位置:这是操作上的困难。找出动作位置的xpath并将其复制到此处。这样,爬虫便知道要移动到哪里。如何找到动作的xpath?

  我们现在要做的是输入操作。交互式位置是搜索输入框,然后在网页上单击它,并且下面的DOM窗口对应于一个节点。

  操作如下所示,单击“生成xpath”,因为此节点具有非常特殊的id属性,所以请选择“部分id”。

  

  生成xpath后,单击xpath后面的搜索按钮以查看该xpath对应多少个节点。在此示例中,它是1/1,这意味着它仅与一个节点相对应,这是唯一的,可用于确定动作位置。 (如果为1/2,则表示它对应于两个节点,当前节点是其中之一,但是在此示例中,只有一个位置需要输入操作,表明此xpath不适合并且需要单独选择)。确认xpath后,将其复制到操作设置。

  

  输入单词:输入要搜索的关键词,例如,输入:virus ;;。种族,首先是采集病毒新闻,然后是采集种族新闻。

  延迟:考虑到网页加载需要花费时间,因此最好设置一些延迟时间。该网页加载速度更快,可以设置为5秒。

  设置输入动作后的第一个动作,工作台如下所示:

  

  1. 3. 2设置第二个操作:单击操作

  单击“新建”以设置第二个操作:单击操作

  

  如何找到搜索点击操作的xpath?

  

  设置点击动作后,工作台如下所示:

  

  通过这种方式,我们完成了两个动作的设置并完成了第一级任务。

  1. 3. 3一级任务测试,保存下来

  下面的图片不是本示例的图片,但是按钮的位置相同。

  

  点击“保存”按钮以保存已完成的第一级任务

  现在,仅保存第一级任务,不启动采集,因为我们尚未完成第二级任务。

  2.退出一级任务定义状态

  在定义第二级任务之前,必须首先退出第一级任务定义状态。

  

  3。定义第二级任务

  3. 1加载网页并进入定义的任务状态

  在网页上输入关键词,搜索结果出来后,再次单击“ +”进入任务定义模式。

  输入任务名称,该名称是在填入第一级任务的动作设置中的动作之后要执行的任务:Tutorial_People's Network Search_Grab。

  

  3. 2对网页执行采集个任务

  此页面上的每则新闻都是一个示例。在每个样本中,要成为采集的信息包括:标题,内容摘要,链接,时间。由于篇幅所限,我这里不再赘述。您可以参考教程“ 采集列表数据”。每个新闻项都相当于本教程中的一个产品。如果需要翻页,请参考教程“翻页设置”。如果您想走得更远,请参考教程[Deep 采集],以获取采集新闻的详细信息。

  第二级任务完成后,进行测试并保存。

  4.开始采集

  对于连续动作任务采集,只需启动第一级任务,抓取工具就会自动调用第二级任务。

  首先,转到任务管理页面。

  

  在任务管理页面上,选择一级任务,单击开始,线索数为1(因为在此示例中,一级任务中只有1条线索),以便结束采集尽快获得采集,限制页面翻转,仅采集 5页的结果。

  

  

  在上图中单击“确定”后,爬网程序将弹出采集窗口并启动采集数据。可以看到,在采集窗口中,将自动加载搜索词并单击以进行搜索,自动加载搜索结果页面,并且该页面上的数据为采集。

  采集完成后,按照提示单击以导出excel数据,然后转到第二级任务的数据管理以下载数据。

  

  

  因此,该过程是启动第一级任务,然后转到第二级任务以下载数据。

  下图是采集中数据的屏幕截图。默认情况下,搜索到的关键词记录在第二级任务结果数据的actionvalue字段中。

  

  第一部分文章:“ Jishouke网络抓取工具的核心条款”第二部分文章:“自动点击京东商品规格采集价格数据”

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线