Excel教程Excel函数Excel透视表Excel电子表格Excel基础入门到精通

优采云 发布时间: 2021-04-25 02:15

  

Excel教程Excel函数Excel透视表Excel电子表格Excel基础入门到精通

    我们在使用网站抓取精灵​做采集时,往往需要先从网页的初始网址开始获取内容页网址,那么火车采集器进入列表页后,如何进一步获取内容网址呢,下面就请新手们一起来看看内容页网址采集规则如何制作。

      在火车采集器V9中,内容网址获取有常规模式和高级模式两种。

      1.常规模式:该模式默认抓取一级地址,即从起始页源代码中获取到内容页A链接。它有两种方式:a.自动获取地址链接 b.手动设置规则获取。

      2.高级模式:该模式对0级,多级,POST类型网址的抓取有效。即起始网址就是内容页网址;或者需要对多级列表网址采集才能得到最终内容页链接;或者是post网址类型抓取等情况下使用高级模式。

      这里详细说明下常规模式中a和b两种方式采集的具体操作,高级模式待后续讲解。

  [常规模式]a.自动获取地址链接

       自动获取地址链接:自动获取该级列表页中所有的标签内的URL链接。如新浪内地新闻:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

  获得的结果如图所示:

  

  根据统计数据,我们可以找到总共81个第一级URL,但是我们需要抓取的实际第一级URL为每页40个,这表明有一些我们不需要的链接,因此我们可以使用区域设置和链接过滤来过滤并获取所需的链接。单击浏览器以查看网页的源代码并分析源代码。所需的链接应满足以下条件:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线