excel抓取多页网页数据( 新媒体运营来说的爬虫工具——webscraper的特点)

优采云 发布时间: 2022-04-18 20:21

  excel抓取多页网页数据(

新媒体运营来说的爬虫工具——webscraper的特点)

  

  对于新媒体运营来说,数据分析是必不可少的能力之一。在工作中,有很多情况需要进行数据采集。这时候如果使用手动采集,不仅效率极低,而且耗时且容易出错。

  刚开始了解新媒体运营的时候,有一次采集了一个知乎大v的文章,想分析研究一下他的话题,晚上复制粘贴到表格里。一路走了整整一个小时。完成工作后,我的手发抖,眼睛抽筋。我觉得很累,不喜欢,也不想再做这种工作了。想偷懒,上网一搜,终于找到了这个傻瓜式爬虫工具——网络爬虫。

  网络爬虫最大的特点就是对小白新手非常友好。它非常简单易学。它不需要太复杂的编程代码知识。只需几个简单的步骤即可抓取您需要的内容,一个小时即可轻松掌握。.

  

  注意.jpg

  一、网络爬虫下载安装

  Web scraper 是一款 chrome 插件软件,您可以在 chrome 应用商店中选择下载安装。如果无法进入应用商店,可以在评论区留言领取网络爬虫的安装包并手动安装,只需将压缩包拖到工具中的扩展中即可。

  

  扩展工具.png

  二、打开网络爬虫

  打开要抓取的网页内容,然后右键单击以检查以找到 webscraper 工具。或者选择按Ctrl+Shift+I打开或者直接按F12。

  

  打开网页刮刀.png

  三、创建一个新的站点地图

  在创建新站点地图下有两个命令,创建站点地图和导入站点地图。前者是新建站点地图,后者是通过导入之前创建的代码来执行抓取命令。由于我们开始,我们选择创建站点地图。

  

  新站点地图.png

  输入站点地图名称:您可以在此处输入您所在网页的名称。如果是豆瓣页面,可以进入豆瓣

  Enter start url(初始网页链接):输入你所在的网页链接即可

  四、参数设置

  网络爬虫实际上是模拟人类操作来实现数据抓取。如果要爬取二级页面,必须先爬取一级页面的内容。

  比如你想分析竞品,研究某知乎创作者写的文章,想捕捉标题的内容,点赞数,评论数,那么您必须首先捕获内容。取整个文章,可以进一步获取标题、点赞数、评论数。

  创建站点地图后,有一个添加新选择器(创建选择器)参数。

  

  参数设置.png

  id:这里可以填写你要选择的内容名称,比较随意,方便自己识别。比如我想捕捉知乎的创作者经营的小东西的文章,我就在这里填写yunyingdexiaoshi。

  类型:您要抓取的内容类型。这里的下拉选项有text(文本)、link(链接)、image(图片)、table(表格)等。这次我们必须抓住整个 文章 并选择元素选项。

  选择器:单击以选择选择。然后将鼠标移到要抓取的内容上,直到整个 文章 被选中。先点击选中第一篇文章,再点击选中第二篇文章,后面的文章会自动识别抓取。然后点击完成选择。

  

  完成选择.png

  多个:如果要抓取多个元素,请单击多个前面的小框。如果是单个元素,则无需点击。

  保存选择:保存选择参数时点击保存选择。

  这样一级页面文章已经被选中,接下来就是设置文章页面下的审批数等二级选中。进入标题等元素的文章整体选择时,root/后面的部分就是你刚刚抓取的一级选择内容的名称。

  

  进入二级页面.png

  下一步是设置二级选择操作。类似于一级页面的操作。它只是 Type 类型。这应该根据您要捕获的内容类型进行选择。如果要捕获点赞数或点赞数,则必须选择Text下拉选项,而要捕获标题和链接时,选择链接下拉选项。.

  五、爬取数据

  点击scrape开始抓取数据,会出现两个参数:请求间隔和页面加载延迟。默认值为 2000。此值与网络速度有关。一般2000就可以了。如果网速慢,加载会比较慢,可能会导致爬取空白内容。在这种情况下,您可以将这两个值设置为更大的值,比如 3000 甚至更大。

  爬取时页面无法关闭,关闭时容易出错。最后,还没有刮取数据的页面。出现,表示爬取完成。单击刷新以预览捕获的内容。

  最后,如果要导出表格文件,可以点击export data as CSV(csv是一种支持excel的文件格式),然后立即下载。

  六、 使用网络爬虫抓取多个页面

  以上操作可以抓取你所在页面的单页内容。如果你要抓取的网页是数字分页的形式,可以通过修改URL来达到抓取多个页面的目的。

  一般来说,数字分页等多页链接都有一定的规则。

  文章 诸如操作之类的小事

  第一页的链接:

  第二页链接:

  第三页链接:

  ...

  检查您要抓取的第一页和最后一页的数量,并找出差异。比如上面几页的差是1。(不一定所有的差都是1,一定要先观察)。然后将常规链接的页数n改为[首页-末页:差异]。当差值为 1 时,可以忽略没有差值和冒号的部分。

  如果要抓取操作小东西的第1-4页的文章,在设置URL的时候,可以先复制第一页的链接,把最后一个数字1改成[1-4 ], [1- 4],填写起始 URL。

  

  多页抓取.png

  这个傻瓜爬虫工具你有没有,快来实践一下吧!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线