采集网站内容( Excel教程Excel函数Excel透视表Excel电子表格Excel基础入门到精通)

优采云 发布时间: 2021-09-05 09:01

  采集网站内容(

Excel教程Excel函数Excel透视表Excel电子表格Excel基础入门到精通)

    我们在使用网站抓取精灵​做采集时,往往需要先从网页的初始网址开始获取内容页网址,那么火车采集器进入列表页后,如何进一步获取内容网址呢,下面就请新手们一起来看看内容页网址采集规则如何制作。

      在火车采集器V9中,内容网址获取有常规模式和高级模式两种。

      1.常规模式:该模式默认抓取一级地址,即从起始页源代码中获取到内容页A链接。它有两种方式:a.自动获取地址链接 b.手动设置规则获取。

      2.高级模式:该模式对0级,多级,POST类型网址的抓取有效。即起始网址就是内容页网址;或者需要对多级列表网址采集才能得到最终内容页链接;或者是post网址类型抓取等情况下使用高级模式。

      这里详细说明下常规模式中a和b两种方式采集的具体操作,高级模式待后续讲解。

  [常规模式]a.自动获取地址链接

       自动获取地址链接:自动获取该级列表页中所有的标签内的URL链接。如新浪内地新闻:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

  得到的结果如图:

  

  根据统计我们可以看到一共81个一级网址,但是我们实际需要抓取的一级网址是每页40个,说明有不需要的链接,所以我们可以通过区域设置和链接过滤,来过滤获取我们需要的链接。点击浏览器查看网页源码,分析源码。所需链接应满足以下条件:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线