咪蒙文章数据分析：她都写些什么内容？如何刺激转发痛点？

优采云发布时间: 2021-05-16 05:16

　　快速学习信息和数据采集非常必要，因为它可以大大提高工作效率。在学习python和优采云之前，网络抓取工具是我最常用的采集工具。设置简单，效率很高。采集米梦文章头衔仅需2分钟，采集 58个租金在同一个城市中该信息仅需5分钟。

　　我还使用网络抓取工具进行相关的采集分析，例如文章“米萌文章数据分析：她写了什么？如何激发前进的痛点？”，是基于以下分析采集米萌文章和微博全部用了不到5分钟的时间。

　　Web scraper是Google强大的插件库中非常强大的data 采集插件。它具有强大的防爬网功能。您只需要简单地在插件上进行设置，就可以快速抓取知乎，建树，豆瓣，大众，58等大型，中型和小型网站的90％以上，大中小网站，包括文本，图片，表格和其他内容，最后快速导出csv格式的文件。 Google针对网络抓取工具给出的正式描述是：

　　使用我们的扩展程序，您可以创建计划（站点地图），如何遍历网站以及应提取什么内容。使用这些站点地图，网络抓取工具将相应地导航该站点并提取所有数据。您可以稍后将剪切的数据导出到CSV。

　　本系列是有关Web刮板的介绍的，它将使用知乎，短书等内容完整介绍该过程，以网站为例，介绍如何采集文本，表格，多元素抓取，不规则的分页爬网，辅助页面爬网，动态网站爬网以及某些反爬网技术等。

　　好，现在我们将介绍Web刮板的安装以及完整的爬网过程。稍后，我们将介绍多页爬网，反爬网，图片，链接和表爬网。

　　一、网络抓取器安装

　　Web scraper是Google浏览器的扩展插件，其安装与其他插件的安装相同。

　　如果您无法下载网络爬虫，则可以通过微信或官方帐户与我联系。

　　二、以知乎为例介绍网络抓取工具的完整抓取过程

　　1、打开目标网站，这里以采集知乎第一大v张家伟的追随者为例，需要检索的是知乎的名称，答案数和发布的关注者文章的数量，关注数量。

　　2、右键单击网页，选择检查选项，或使用快捷键Ctrl + Shift + I / F12打开Web Scraper。

　　3、打开后，单击“创建站点地图”，然后选择“创建站点地图”以创建站点地图。

　　点击创建站点地图后，您将获得如图所示的页面。您需要填写站点地图名称，即站点的名称。只要您能理解它，就可以随便写。您还需要填写起始网址，即指向页面的链接。填写后，单击创建站点地图以完成站点地图的创建。

　　详细信息如下：

　　4、设置第一级选择器：选择采集范围

　　下一个是最高优先级。这是Web爬虫的爬网逻辑的简介：您需要设置一个第一级选择器（选择器）来设置需要爬网的范围；在第一级选择器下创建一个第二级选择器（选择器），并将其设置为要爬网的元素和内容。

　　以抓住张家卫的追随者为例。我们的范围是张家卫关注的目标。然后，我们需要为此范围创建一个选择器。选择者的内容，以及张家卫关注的粉丝数量，文章的数量等是次要的。具体步骤如下：

　　（[1）添加新的选择器以创建一级选择器选择器：

　　点击后，您将获得以下页面，并在此页面上设置了要抓取的内容。

　　l id：只需命名选择器，出于同样的原因，只要您自己能理解选择器，这里就叫jiawei-scrap。

　　l类型：它是要捕获的内容的类型，例如元素元素/文本/链接链接/图片图像/元素在动态加载中向下滚动等。在此，如果有多个元素，请选择元素。

　　l选择器：指选择要抓取的内容。单击选择以选择页面上的内容。这部分将在下面详细描述。

　　l选中“多个”：选中“多个”前面的小方框，因为要选择多个元素而不是单个元素。选中后，采集器插件将识别出页面下具有相同属性的内容；

　　（2）在此步骤中，您需要设置选定的内容，在选择选项下单击“选择”以获取以下图片：

　　然后，将鼠标移到需要选择的内容上，所需的内容将变为绿色，表明已被选中。在这里，您需要提醒您，如果您需要的内容是多元素，则需要更改元素。选择两者。例如，如下图所示，绿色表示所选内容在绿色范围内。

　　当一个内容变成红色时，我们可以选择下一个内容。单击后，Web采集器将自动识别您想要的内容，并且具有相同元素的内容将全部变为红色。如下图所示：

　　在确认我们在此页面上需要的所有内容都变成红色后，您可以单击“完成”选择选项，然后得到以下图片：

　　单击保存选择器以保存设置。此后，将创建第一级选择器。

　　5、设置辅助选择器：选择需要采集的元素内容。

　　（[1）点击下图中红色框中的内容，进入第一级选择器jiawei-scrap：

　　5、设置辅助选择器：选择需要采集的元素内容。

　　（[1）点击下面的图片

　　红色框的内容将进入第一级选择器jiawei-scrap：

　　（[2）点击添加新选择器以创建用于选择特定内容的辅助选择器。

　　获取以下图片，该图片与第一级选择器的内容相同，但是设置不同。

　　Øid：表示要提取哪个字段。您可以选择该领域的英语。例如，如果要选择“作者”，请写“作家”；

　　Ø类型：在此处选择“文本”选项，因为您要获取的是文本内容；

　　Ø多个：不要选中“多个”前面的小方框，因为这是一个要捕获的元素；

　　Ø保留设置：其余未提及的部分保留默认设置。

　　（[3）单击选择选项后，将鼠标移至特定元素，该元素将变为*敏*感*词*，如下图所示：

　　单击特定元素后，该元素将变为红色，这表示已选择内容。

　　（[4）单击“完成选择”以完成选择，然后单击“保存选择器”以完成对目标知乎名称的选择。

　　重复上述操作，直到选择了要爬升的田地为止。

　　（[5）点击红色框以查看采集的内容。

　　数据预览可以查看采集的内容，而编辑可以修改设置。

　　6、抓取数据

　　（[1）只需要设置所有选择器，然后您就可以开始抓取数据，单击“抓取”图，

　　选择刮擦；：

　　（2）单击它后，将跳至时间设置页面，如下图所示。由于采集的数量不大，您可以保存默认值。单击开始抓取，然后将会弹出一个窗口，并且正式的采集向上。

　　（[3）稍等片刻即可获得采集的效果，如下所示：

　　（[4）在站点地图下选择将数据导出为csv选项，以表格形式导出采集的结果。

0

2021-05-16

文章采集完

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

咪蒙文章数据分析：她都写些什么内容？如何刺激转发痛点？

0 个评论

发起人

AI时代内容工厂

咪蒙文章数据分析：她都写些什么内容？如何刺激转发痛点？

0 个评论

发起人

相关问题