优采云采集器将这些数据保存下来,你知道吗?
优采云 发布时间: 2021-05-17 01:06优采云采集器将这些数据保存下来,你知道吗?
优采云 采集器是一个非常有用的网页信息采集工具。该软件具有内置的浏览器,可以以视觉方式帮助用户采集各种Web内容。它方便且易于操作,不需要掌握。任何专业的网络知识都可以通过单击鼠标轻松创建采集任务。 优采云 采集器可以自定义采集到所需网页上的所有信息,并可以自动识别网页列表,采集字段和分页等,输入采集 URL,单击鼠标以轻松选择所需的捕获内容; 优采云 采集器可视化采集器,采集就像构建基块,功能模块可以随意组合,以可视方式提取或操作网页元素,自动登录,自动发布,自动识别验证码,在在浏览器中,您可以快速创建自动化脚本,甚至生成独立的应用程序;用户可以使用优采云 采集器至采集网页上的某些数据内容,并且这些数据内容可以分别保存,以便用户在浏览Web时需要采集资料时,可以通过以下方式保存数据:此采集器并使用它。如果您有兴趣,请下载它!
功能介绍
1、操作很简单,您可以通过单击鼠标轻松选择要抓取的内容
2、支持三种高速引擎:浏览器引擎,HTTP引擎,JSON引擎,内置优化的Firefox浏览器以及原创内存优化,因此浏览器采集也可以高速运行,甚至可以快速转换。要运行HTTP,可以享受更高的采集速度,并且在获取JSON数据时,还可以使用浏览器可视化方法来用鼠标单击要获取的内容,而无需分析JSON数据结构。允许非网页专业设计师轻松获取所需数据
3、无需分析网页请求和源代码,但支持更多网页采集
4、先进的智能算法,只需单击一下即可生成目标元素XPATH,自动识别页面列表,并自动识别分页中的下一页按钮
5、支持丰富的数据导出方法,可以将其导出到txt文件,html文件,csv文件,excel文件,还可以导出到现有数据库,例如sqlite数据库,access数据库,sqlserver数据库,mysql数据库,只需通过向导即可映射字段,即可轻松导出到目标网站数据库
软件功能
1、可视化向导:所有采集个元素,自动生成采集个数据
2、计划任务:灵活定义运行时间,全自动运行
3、多引擎支持:支持多个采集引擎,内置的高速浏览器内核,HTTP引擎和JSON引擎
4、智能识别:它可以自动识别网页列表,采集字段和分页等。
5、阻止请求:自定义阻止域名,以方便过滤异地广告并提高采集速度
6、各种数据导出:可以导出到Txt,Excel,MySQL,SQLServer,SQlite,Access,网站等。
优采云 采集器使用方法
一、设置开始网址
要采集 a 网站数据,首先我们需要设置输入采集的URL,例如,如果要采集 a 网站国内新闻,则需要设置采集 a 网站国内新闻。起始URL作为国内新闻部分列表的URL,通常不将网站主页设置为起始URL,因为主页通常收录很多列表,例如最新的文章,流行的文章,建议使用文章和其他列表块,并且这些列表块中显示的内容也非常有限。 采集这些列表通常不可用。 采集完整的信息
下面我们以采集新浪新闻为例,从新浪首页中查找国内新闻,但是此部分首页上的内容仍然比较混乱,并且又细分了三个子部分
让我们通过进入其中一个子列来了解《内地新闻》
此列页面收录分页的内容列表。通过切换页面,我们可以将采集切换至此列下的所有文章,因此这种列表页面非常适合我们的采集开始起始网址
现在,我们将在任务编辑框的第一步中将列表URL复制到文本框中
如果您要在一个任务中同时采集个国内新闻中的其他子列,还可以复制其他两个子列列表的地址,因为这些子列列表的格式类似,但为了便于导出或发布分类数据。通常不建议将多列的内容混合在一起
对于起始URL,我们也可以批量添加或从txt文件导入。例如,如果我们要采集前5页,我们也可以通过这种方式自定义5个起始页。
应该注意,如果在此处自定义多个分页列表,请不要在以下采集配置中启用分页。通常,当我们要在某个列下全部采集 文章时,全部您只需将列的第一页定义为起始URL,并在以下采集配置中启用分页,您可以采集到每个页面列表的数据
二、自动生成列表和字段
进入第二步后,对于某些网页,优采云 采集器将智能分析页面列表,并自动突出显示网页列表并生成列表数据,例如
然后我们将整理数据,例如删除一些不必要的字段
单击图标中的三角形符号,将弹出字段采集的详细配置,单击上方的删除按钮删除该字段,其余参数将在以下各章中分别介绍
如果某些网页自动生成的列表数据不是我们想要的数据,则可以单击“清除字段”以清除所有生成的字段
如果自动分析的突出显示列表不是我们想要的列表采集,则我们手动选择列表。如果要取消突出显示的列表框,可以单击“查找列表”,列出XPATH,然后将xpath放入其中。清空后确认
三、手动生成列表
点击搜索列表按钮,然后选择手动选择列表
根据提示,用鼠标左键单击网页列表中的第一行数据
点击第一行之后,点击第二行或其他类似的提示行
单击列表中的任何两行之后,将突出显示整个列表,并且还将生成列表中的字段。如果生成的字段不正确,请单击“清除字段”以清除下面的所有字段,下一章将介绍手动选择字段
四、手动生成字段
点击添加字段按钮
在列表的任何行中单击要提取的元素,例如,要提取标题和链接地址,请用鼠标左键单击标题。
单击Web链接时,系统会提示您是否使用链接地址
如果要同时提取链接标题和链接地址,请单击“是”,如果只需要提取标题文本,请单击“否”,这里我们单击“是”。
系统将自动生成标题和链接地址字段,并在字段列表中显示提取的字段内容。当您点击表格底部的字段标题时,匹配的内容将在网页上以*敏*感*词*背景突出显示
如何标记列表中的其他字段,单击新字段,重复上述操作。
五、分页设置
列表具有分页功能后,启用分页功能后,您可以采集访问所有分页列表数据
页面分页有两种类型
普通分页:有一个分页栏,并显示下一页按钮。单击后,您可以进入下一页,例如新浪新闻列表中的上一页。
瀑布分页:当网页的滚动条到达底部时,下一页内容将自动加载
如果是正常分页,我们选择尝试自动设置还是手动设置
1、自动设置分页
默认情况下,创建新任务时不启用分页。单击不启用分页,然后会弹出一个菜单以选择自动识别分页。如果识别成功,将弹出一个对话框,指示已成功识别和设置分页元素,然后将显示下一页。页面按钮上出现一个红色虚线框,到目前为止,自动分页已成功启用
如果自动识别,则会出现以下绿色提示框
2、手动设置分页
在菜单中选择手动分页
然后找到分页按钮将自动出现,单击弹出菜单,选择标记分页