文章采集链接(本次采集网站数据的一个重要的步骤，你知道吗？)

优采云发布时间: 2021-09-13 06:10

　　自从来到Front Sniff，编辑从爬虫成长为采集各种网站各种数据。当然，踩坑在成长过程中绝对是少不了的（很多网站都有防爬措施）。为了让用户更熟练的使用爬虫软件，小编决定定期写一些配置爬虫的经验和技巧，以及遇到坑的解决办法。

　　本案例使用大众点评网，需提取如下翻页链接。

　　第一步是看每个页面的链接地址是否有规律。

　　可以看出，只有每个页面的链接地址的最后一个数字不同，即对应的页码数。我们可以通过拼接得到翻页的所有链接地址。拼接第二页链接地址的脚本如下：

　　图中的六行代码是提取链接必不可少的部分。这简单的六行是一个完整的链接提取脚本。下面是每一行的解释：

　　第一行代码：定义一个url类的变量u。

　　第二行代码：u.urlname 是网页的链接地址，并为其赋值。

　　第三行代码：u.tmplid是本次链接提取要关联的模板id，这里是翻页，所以关联到自己的模板。

　　第四行代码：此链接提取对应的频道id。

　　第五行代码：u.title 是链接标题，被赋值。

　　第六行代码：将拼接后的链接添加到最终结果中。

　　上面的代码只得到了第二页的链接，下面给大家展示一下完整的内容：

　　通过FindClass从源码中获取总页数，然后使用for循环拼接每个页面的链接。只用了12行（包括两行注释）就得到了我想要的链接。

　　链接提取是*敏*感*词*采集网站数据的重要步骤。下一期，小编计划在本案例的基础上增加数据提取，使其成为一个完整的爬虫采集模板。采集数据可以正常。有需要的朋友可以点击上面的公众号，里面一定有你需要的内容。

0

2021-09-13

文章采集链接

0 个评论

要回复文章请先登录或注册