excel抓取多页网页数据( 新媒体运营来说的爬虫工具——webscraper的特点)

优采云发布时间: 2022-04-18 20:21

　　excel抓取多页网页数据(

新媒体运营来说的爬虫工具——webscraper的特点)

　　对于新媒体运营来说，数据分析是必不可少的能力之一。在工作中，有很多情况需要进行数据采集。这时候如果使用手动采集，不仅效率极低，而且耗时且容易出错。

　　刚开始了解新媒体运营的时候，有一次采集了一个知乎大v的文章，想分析研究一下他的话题，晚上复制粘贴到表格里。一路走了整整一个小时。完成工作后，我的手发抖，眼睛抽筋。我觉得很累，不喜欢，也不想再做这种工作了。想偷懒，上网一搜，终于找到了这个傻瓜式爬虫工具——网络爬虫。

　　网络爬虫最大的特点就是对小白新手非常友好。它非常简单易学。它不需要太复杂的编程代码知识。只需几个简单的步骤即可抓取您需要的内容，一个小时即可轻松掌握。.

　　注意.jpg

　　一、网络爬虫下载安装

　　Web scraper 是一款 chrome 插件软件，您可以在 chrome 应用商店中选择下载安装。如果无法进入应用商店，可以在评论区留言领取网络爬虫的安装包并手动安装，只需将压缩包拖到工具中的扩展中即可。

　　扩展工具.png

　　二、打开网络爬虫

　　打开要抓取的网页内容，然后右键单击以检查以找到 webscraper 工具。或者选择按Ctrl+Shift+I打开或者直接按F12。

　　打开网页刮刀.png

　　三、创建一个新的站点地图

　　在创建新站点地图下有两个命令，创建站点地图和导入站点地图。前者是新建站点地图，后者是通过导入之前创建的代码来执行抓取命令。由于我们开始，我们选择创建站点地图。

　　新站点地图.png

　　输入站点地图名称：您可以在此处输入您所在网页的名称。如果是豆瓣页面，可以进入豆瓣

　　Enter start url（初始网页链接）：输入你所在的网页链接即可

　　四、参数设置

　　网络爬虫实际上是模拟人类操作来实现数据抓取。如果要爬取二级页面，必须先爬取一级页面的内容。

　　比如你想分析竞品，研究某知乎创作者写的文章，想捕捉标题的内容，点赞数，评论数，那么您必须首先捕获内容。取整个文章，可以进一步获取标题、点赞数、评论数。

　　创建站点地图后，有一个添加新选择器（创建选择器）参数。

　　参数设置.png

　　id：这里可以填写你要选择的内容名称，比较随意，方便自己识别。比如我想捕捉知乎的创作者经营的小东西的文章，我就在这里填写yunyingdexiaoshi。

　　类型：您要抓取的内容类型。这里的下拉选项有text（文本）、link（链接）、image（图片）、table（表格）等。这次我们必须抓住整个文章并选择元素选项。

　　选择器：单击以选择选择。然后将鼠标移到要抓取的内容上，直到整个文章被选中。先点击选中第一篇文章，再点击选中第二篇文章，后面的文章会自动识别抓取。然后点击完成选择。

　　完成选择.png

　　多个：如果要抓取多个元素，请单击多个前面的小框。如果是单个元素，则无需点击。

　　保存选择：保存选择参数时点击保存选择。

　　这样一级页面文章已经被选中，接下来就是设置文章页面下的审批数等二级选中。进入标题等元素的文章整体选择时，root/后面的部分就是你刚刚抓取的一级选择内容的名称。

　　进入二级页面.png

　　下一步是设置二级选择操作。类似于一级页面的操作。它只是 Type 类型。这应该根据您要捕获的内容类型进行选择。如果要捕获点赞数或点赞数，则必须选择Text下拉选项，而要捕获标题和链接时，选择链接下拉选项。.

　　五、爬取数据

　　点击scrape开始抓取数据，会出现两个参数：请求间隔和页面加载延迟。默认值为 2000。此值与网络速度有关。一般2000就可以了。如果网速慢，加载会比较慢，可能会导致爬取空白内容。在这种情况下，您可以将这两个值设置为更大的值，比如 3000 甚至更大。

　　爬取时页面无法关闭，关闭时容易出错。最后，还没有刮取数据的页面。出现，表示爬取完成。单击刷新以预览捕获的内容。

　　最后，如果要导出表格文件，可以点击export data as CSV（csv是一种支持excel的文件格式），然后立即下载。

　　六、使用网络爬虫抓取多个页面

　　以上操作可以抓取你所在页面的单页内容。如果你要抓取的网页是数字分页的形式，可以通过修改URL来达到抓取多个页面的目的。

　　一般来说，数字分页等多页链接都有一定的规则。

　　文章诸如操作之类的小事

　　第一页的链接：

　　第二页链接：

　　第三页链接：

　　...

　　检查您要抓取的第一页和最后一页的数量，并找出差异。比如上面几页的差是1。（不一定所有的差都是1，一定要先观察）。然后将常规链接的页数n改为[首页-末页：差异]。当差值为 1 时，可以忽略没有差值和冒号的部分。

　　如果要抓取操作小东西的第1-4页的文章，在设置URL的时候，可以先复制第一页的链接，把最后一个数字1改成[1-4 ], [1- 4]，填写起始 URL。

　　多页抓取.png

　　这个傻瓜爬虫工具你有没有，快来实践一下吧！

0

2022-04-18

excel抓取多页网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

excel抓取多页网页数据( 新媒体运营来说的爬虫工具——webscraper的特点)

0 个评论

发起人