在10分钟内不会在58.com的微博，微信，搜狐上采集任何代码，数据和信息

优采云发布时间: 2020-08-08 03:51

　　有必要学习信息并快速采集数据，因为它可以大大提高工作效率. 在学习python和优采云之前，web scraper是我最常用的采集工具. 设置简单，效率很高. 采集Mimeng文章的标题仅需2分钟，而采集58个相同城市中的5000个租借信息仅需5分钟.

　　Web scraper是Google强大的插件库中非常强大的数据采集插件. 它具有强大的防爬网功能. 您只需要简单地在插件上进行设置，就可以快速抓取知乎，jianshu，douban和public 58等大型，中小型网站，包括文本，图片，表格和其他内容，最后快速导出csv格式文件. 网络上的Google官方

　　scraper给出的描述是:

　　使用我们的扩展程序，您可以创建计划（站点地图），如何遍历网站以及应提取什么内容. 使用这些站点地图，网络抓取工具将相应地导航该站点并提取所有数据. 您可以稍后将剪辑数据导出到CSV.

　　Webscraperk课程将以知乎，Jianshu和其他网站为例，对该过程进行完整的介绍，以介绍如何采集文本，表格，多元素爬网，不规则页面爬网，辅助页面爬网和动态网站爬网. ，以及一些反爬行技术和所有内容.

　　安装网络抓取器

　　Web scraper是Google浏览器的扩展插件，其安装与其他插件相同.

　　以知乎为例，介绍完整的Webscraper爬网过程

　　1. 打开目标网站. 这里以芝湖一号诉张家卫案的下列对象为例. 需要抓取的是关注者的姓名，答案数量，发表的文章数量以及关注者数量.

　　2. 右键单击网页上的鼠标，选择检查选项，或使用快捷键Ctrl + Shift + I / F12打开Web Scraper.

　　3. 打开后，单击创建站点地图，然后选择创建站点地图以创建站点地图.

　　点击创建站点地图后，您将获得如图所示的页面. 您需要填写站点地图名称，即站点的名称. 只要您能理解它，就可以随便写. 您还需要填写starturl，即指向页面的链接. 填写后，单击创建站点地图以完成站点地图的创建.

　　4. 设置第一级选择器: 选择采集范围

　　下一个是最高优先级. 这是对Web爬虫的爬网逻辑的介绍: 您需要设置一个第一级选择器（选择器）来设置需要爬网的范围. 在第一级选择器下创建一个第二级选择器（选择器），并将其设置为获取元素和内容.

　　以张家卫的关注为例. 我们的范围是张家卫关注的目标. 然后，我们需要为此范围创建一个选择器. 次要选择者是张家卫关注的目标对象的粉丝数和文章数. 内容. 具体步骤如下:

　　（1）添加新的选择器以创建一级选择器选择器:

　　单击后，您将获得以下页面，并在此页面上设置了要抓取的内容.

　　[if！supportLists] l [endif] id: 只需命名选择器，出于相同的原因，只要您能自己理解它，这里就叫jiawei-scrap.

　　[if！supportLists] l [endif] Type: 它是要捕获的内容的类型，例如元素元素/文本/链接链接/图片图像/元素在动态加载中向下滚动等，这里有多个元素选择元素.

　　[if！supportLists] l [endif] Selector: 是指要获取的内容的选择. 单击选择以选择页面上的内容. 这部分将在下面详细描述.

　　[if！supportLists] l [endif]选中多个: 选中“ Multiple”前面的小框，因为要选择多个元素而不是单个元素. 选中后，采集器插件将识别出存在相同属性的内容；

　　（2）在此步骤中，需要设置选定的内容，在选择选项下单击“选择”以获取以下图片:

　　将鼠标移到需要选择的内容上，此时需要选择的内容将变为绿色，表示已选择该内容. 在这里您需要提醒您，如果您需要的内容是多元素，则需要更改元素. 选择两者. 例如，如下图所示，绿色表示所选内容在绿色范围内.

　　选择内容范围后，单击鼠标，所选内容范围将变为红色，如下图所示:

　　当内容变成红色时，我们可以选择下一个内容. 单击后，Web采集器将自动识别您想要的内容，并且具有相同元素的内容将全部变为红色. 如下图所示:

　　在确认我们在此页面上需要的所有内容都变成红色后，可以单击“完成”选择选项，然后得到以下图片:

　　单击“保存选择器”以保存设置. 此后，将创建第一级选择器.

　　5. 设置辅助选择器: 选择要采集的元素内容.

　　（1）单击下图红色框中的内容，进入第一级选择器jiawei-scrap:

　　（2）单击添加新选择器以创建用于选择特定内容的辅助选择器.

　　获取以下图片，该图片与第一级选择器的内容相同，但是设置不同.

　　[if！supportLists]Ø[endif] id: 表示捕获哪个字段. 您可以选择该领域的英语. 例如，如果要选择“作者”，请写“作者”；

　　[if！supportLists]Ø[endif]类型: 在此处选择“文本”选项，因为您要获取文本内容；

　　[if！supportLists]Ø[endif] Multiple: 请勿在Multiple前面的小方框中打勾，因为这是要捕获的单个元素；

　　[如果！supportLists]Ø[endif]保留设置: 保留未提及的其他部分的默认设置.

　　（3）单击选择选项后，将鼠标移至特定元素，该元素将变为*敏*感*词*，如下图所示:

　　在单击特定元素后，该元素将变为红色，这表示已选择内容.

　　（4）单击“完成选择”完成选择，然后单击“保存选择器”完成对关注者名称的选择.

　　重复上述操作，直到选择了要爬坡的田地为止.

　　（5）单击红色框以查看采集的内容.

　　6. 抓取数据

　　（1）您只需要设置所有选择器，就可以开始爬网数据，单击“刮擦”图，选择刮擦；:

　　（2）单击后，将跳至时间设置页面，如下图所示. 由于集合的数量不大，因此您可以默认保存它. 点击开始抓取，然后会弹出一个窗口，然后开始正式采集.

　　（3）过一会儿，您可以获得采集效果，如下图所示:

　　（4）选择站点地图下的export data as csv选项，以表格形式导出采集的结果.

　　表格效果（部分数据）:

　　此外，我们还使用网络抓取工具采集了58个城市的租赁信息，公众评论食物信息，微信公众号密蒙文章，京东小米手机评论等.

　　作者: 学者Wan Yau

　　博客:

　　·END·

0

2020-08-08

不用采集规则就可以采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

在10分钟内不会在58.com的微博，微信，搜狐上采集任何代码，数据和信息

0 个评论

发起人

AI时代内容工厂

在10分钟内不会在58.com的微博，微信，搜狐上采集任何代码，数据和信息

0 个评论

发起人

相关问题