技巧:优采云采集器快速入门-鼠标点选采集内容，可无需手写采集代码

优采云发布时间: 2022-12-10 15:43

　　【优采云采集器】是新一代网页数据采集器，完全在线配置和云端采集（无需挂机），功能强大，操作非常简单，速度快和高效的配置。

　　优采云采集器不仅提供了网页文章自动采集、定时采集、定时自动导出等基本功能，还创新性地实现了智能识别和鼠标可视化点生成采集规则（无需手写规则）、书签采集等特性功能，大大提高了采集配置效率，大大节省了电脑资源和成本。

　　采集术语定义：

　　大多数网站都是以列表页面和详细信息页面的层次结构组织的。比如我们进入大部分新闻频道的时候，都有很多标题链接，可以认为是列表页。点击标题链接后，会进入详情页。

　　使用数据采集工具的一般目的是大量获取详情页的具体内容数据。

　　列表页：指栏目或目录页，一般收录多个标题链接。例如：网站首页或栏目页为列表页。主要功能：可通过列表页获取多个详情页的链接。

　　详情页：收录特定内容的页面，如网页文章，其中收录：标题、作者、日期、文字内容、标签等。

　　您可以先登录“优采云控制台”：

　　具体采集详细步骤：第1步：创建采集任务

　　点击左侧菜单按钮“创建采集任务”，输入采集任务名称和采集“列表页”的URL，如：域名.com/（此处首页作为列表页：内容收录多个详情页），详情页链接可以留空，系统会自动识别。

　　如下所示：

　　进入后点击“下一步”。

　　第二步：完善列表页智能提取结果（可选）

　　系统会先通过智能算法获取需要采集的详情页链接（多个），用户可以双击打开勾选。如果数据不是想要的数据，可以点击“List Extractor”手动指定。用鼠标点击界面。

　　智能采集结果如下：

　　列表提取器打开如下所示：

　　第三步：完善详情页智能提取结果（可选）

　　上一步获取多个详情页链接后，继续下一步，系统会使用其中一个详情页链接，智能提取详情页数据（如：标题、作者、日期、内容、标签等）。 )

　　详情页智能抽取结果如下：

　　如果智能提取的内容不是您想要的，可以打开“详情提取器”进行修改。

　　如下所示：

　　您可以修改或添加或删除左侧的每个字段。

　　第 4 步：启动并运行

　　完成后，即可启动运行，进行数据采集了：

　　采集后的数据结果，可以在采集任务的“结果数据&导出发送”中导出发送数据。

　　大功告成，使用优采云采集器就是这么简单方便，无论您是高手还是新手，都可以使用优采云采集器来提高效率，节省成本！

　　技巧:*敏*感*词*教你如何用Python爬取网站文本信息

　　接下来，让我们分享一个非常简单的例子。我们想爬取豆瓣电影《时空同居》的导演和演员信息。

　　首先我们找到电影的网址：

　　右键查看网页的源代码查看页面源码（也可以进入开发者模式（inspect））：

　　接下来，我们将进入网页的源代码。我们要采集的信息都在源码里，输入关键字就可以查看。比如这里我们输入‘雷佳音’来定位我们要查找的位置：

　　接下来我们需要分析TML的格式，比如我们要找出所有的主角：

　　可以看到有一个通用的规则：star名称对应的节点名称为a，属性为rel="v:starring"，这样我们就可以方便的使用xpath语法来定位节点拥有这个元素。节点，然后找出所有的结果。

　　同理，导演名字对应的节点名字是a，属性是rel="v:directedBy"。我们也可以通过这个位置找到对应的文字：

　　具体代码如下：

　　import requests

from lxml import etree

url='https://movie.douban.com/subject/27133303/?from=showing' #输入我们的url

get = requests.get(url).text # get(url) 得到我们的网页, text将源网页转化为字符串

<p>

selector = etree.HTML(get) # 将源码转换为xpath可以识别的TML格式

info = {} #字典用于储存信息

info['电影'] = selector.xpath('//title/text()')[0].strip() # 定位电影名字

info['导演']=selector.xpath('//a[@rel="v:directedBy"]/text()') # 定位导演名字

info['演员']=selector.xpath('//a[@rel="v:starring"]/text()') # 定位演员名字

print(info)

</p>

　　最后我们得到一个字典集合的结果：

　　{'电影': '超时空同居 (豆瓣)', '导演': ['苏伦'], '演员': ['雷佳音', '佟丽娅', '张衣', '于和伟', '王正佳', '陶虹', '李念', '李光洁', '杨玏', '范明', '徐峥', '杨迪', '方龄', '陈昊']}

　　实例分享2——爬取json格式的豆瓣电影信息

　　首先，json是一种轻量级的数据交换格式。其简洁明了的层次结构使JSON成为一种理想的数据交换语言，便于人类读写，也便于机器解析生成，有效提高网络传输效率。

　　在我们爬取的过程中，有时候可以在开发者模式返回的网页中找到json格式的完整数据。这时候我们就可以使用requests包中的json函数，将爬取到的原文转化为某种格式，从而方便我们提取内容。我们以豆瓣电影为例：

　　这是我们点击类别后看到的电影信息。如果我们要爬取这些电影的信息，可以右键进入开发者模式（inspector）。

　　开启开发者模式后一定要记得刷新一次，否则之前接收到的页面信息将无法显示。然后我们选择右边标签上的网络，点击下面的XHR选项，我们会看到一个返回的网页，双击它。

　　上图是打开的json文件。因为我的电脑下载了json插件，所以格式应该比较清楚（使用Chrome浏览器的同学可以去Chrome商店下载Juan Ramón JSON Beautifier Chrome插件）。Json文件其实可以理解为一个大字典，里面收录了很多层小字典和列表。我们找到json网页后，只需要使用requests将其转换成json格式就可以方便的提取信息了。

　　代码如下：

　　import requests

url='https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start=0'

get = requests.get(url).json() #用json()函数得到网页源码

get = get['data']

info = {}

for i in range(len(get)):

info[get[i]['title']] = [get[i]['directors'], get[i]['rate'] ] #提取每部电影的导演和评分

print(info)

0

2022-12-10

网页文章自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

技巧:优采云采集器快速入门-鼠标点选采集内容，可无需手写采集代码

0 个评论

发起人

AI时代内容工厂

技巧:优采云采集器快速入门-鼠标点选采集内容，可无需手写采集代码

0 个评论

发起人

相关问题