excel抓取多页网页数据( 新媒体运营来说的爬虫工具——webscraper的特点 )

优采云 发布时间: 2022-04-14 19:13

  excel抓取多页网页数据(

新媒体运营来说的爬虫工具——webscraper的特点

)

  

  对于新媒体运营来说,数据分析是必不可少的能力之一。在工作中,有很多情况需要采集数据。这时候如果使用手动采集,不仅效率极低,而且耗时且容易出错。

  刚开始了解新媒体运营的时候,有一次采集了一个知乎大v的文章,想分析研究一下他的话题,晚上复制粘贴到表格里。一路走了整整一个小时。完成工作后,我的手发抖,眼睛抽筋。我觉得很累,不喜欢,也不想再做这种工作了。

  想偷懒,上网一搜,终于找到了这个傻瓜式爬虫工具——网络爬虫。

  网络爬虫最大的特点就是对小白新手非常友好。它非常简单易学。它不需要太复杂的编程代码知识。只需几个简单的步骤即可抓取您需要的内容,一个小时即可轻松掌握。.

  

  01

  网络爬虫下载安装

  Web scraper 是一款 chrome 插件软件。您可以选择在 chrome 应用商店下载安装。如果无法进入应用商店,可以在评论区留言领取网络爬虫的安装包并手动安装,只需将压缩包拖到工具中的扩展中即可。

  

  02

  打开网页刮板

  打开要抓取的网页内容,然后右键单击以检查以找到 webscraper 工具。或者选择按Ctrl+Shift+I打开或者直接按F12。

  

  03

  创建一个新的站点地图

  下面有两个命令创建新站点地图,创建站点地图和导入站点地图。前者是新建站点地图,后者是通过导入之前创建的代码来执行抓取命令。由于我们开始,我们选择创建站点地图。

  

  输入站点地图名称:您可以在此处输入您所在网页的名称。如果是豆瓣页面,可以进入豆瓣,输入起始网址(初始网页链接):输入你所在网页的链接即可。

  04

  参数设置

  网络爬虫实际上是模拟人类操作来实现数据爬取。如果要刮二级页面,必须先刮一级页面的内容。

  比如你想分析竞品,研究某知乎创作者写的文章,想捕捉标题的内容,点赞数,评论数,那么您必须首先捕获内容。取整个文章,可以进一步获取标题、点赞数、评论数。

  创建站点地图后,有一个添加新选择器(创建一个选择器)。

  

  id:这里可以填写你要选择的内容名称,比较随意,方便自己识别。比如我想捕捉知乎的创作者经营的小东西的文章,我就在这里填写yunyingdexiaoshi。类型:您要抓取的内容类型。这里的下拉选项有text(文本)、link(链接)、image(图片)、table(表格)等。这次我们必须抓住整个 文章 并选择元素选项。选择器:单击以选择选择。然后将鼠标移到要抓取的内容上,直到整个 文章 被选中。先点击选中第一篇文章,再点击选中第二篇文章,后面的文章会自动识别抓取。然后点击完成选择。

  

  多个:如果要抓取多个元素,请单击多个前面的小框。如果是单个元素,则无需点击。

  保存选择:保存选择参数时点击保存选择。

  这样,第一级页面文章就被选中了。下一步是设置二级选择,例如一级页面下的批准数。进入标题等元素的文章整体选择时,root/后面的部分就是你刚刚抓取的一级选择内容的名称。

  

  下一步是设置二级选择操作。类似于一级页面的操作。根据您要抓取的内容类型,只应选择 Type 类型。如果要抓取点赞数或点赞数,需要选择Text的下拉选项,而要抓取标题和链接时,选择链接的下拉选项。这是我在选择标题时所做的。

  05

  抓取数据

  点击scrape开始抓取数据,会出现两个参数:请求间隔和页面加载延迟。默认值为 2000。此值与网络速度有关。一般2000就可以了。

  如果网速慢,加载会比较慢,可能会导致爬取空白内容。这种情况下,可以将这两个值设置的更大一些,比如30000甚至更大。

  爬取时页面无法关闭,关闭时容易出错。最后,还没有刮取数据的页面。出现,表示爬取完成。单击刷新以预览捕获的内容。

  最后,如果要导出表格文件,可以点击export data as CSV(csv是一种支持excel的文件格式),然后立即下载。

  06

  使用网络刮刀抓取多个页面

  以上操作可以抓取你所在页面的单页内容。如果你要抓取的网页是数字分页的形式,可以通过修改URL来达到抓取多个页面的目的。

  一般来说,数字分页等多页链接有一定的规则。

  文章 诸如操作之类的小事

  ...

  检查您要抓取的第一页和最后一页的数量,并找出差异。比如上面几页的差是1。(不一定所有的差都是1,一定要先观察)。然后将常规链接的页数n改为[首页-末页:差异]。当差值为 1 时,可以忽略没有差值和冒号的部分。

  如果要抓取操作小东西的第1-4页的文章,在设置URL的时候,可以先复制第一页的链接,把最后一个数字1改成[1-4 ], [1-4 ],填写起始地址。

  

  这个傻瓜爬虫工具你有没有,快来实践一下吧!

  

  

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线