优采云采集器将这些数据保存下来,你知道吗?

优采云 发布时间: 2021-05-17 01:06

  优采云采集器将这些数据保存下来,你知道吗?

  优采云 采集器是一个非常有用的网页信息采集工具。该软件具有内置的浏览器,可以以视觉方式帮助用户采集各种Web内容。它方便且易于操作,不需要掌握。任何专业的网络知识都可以通过单击鼠标轻松创建采集任务。 优采云 采集器可以自定义采集到所需网页上的所有信息,并可以自动识别网页列表,采集字段和分页等,输入采集 URL,单击鼠标以轻松选择所需的捕获内容; 优采云 采集器可视化采集器,采集就像构建基块,功能模块可以随意组合,以可视方式提取或操作网页元素,自动登录,自动发布,自动识别验证码,在在浏览器中,您可以快速创建自动化脚本,甚至生成独立的应用程序;用户可以使用优采云 采集器至采集网页上的某些数据内容,并且这些数据内容可以分别保存,以便用户在浏览Web时需要采集资料时,可以通过以下方式保存数据:此采集器并使用它。如果您有兴趣,请下载它!

  

  功能介绍

  1、操作很简单,您可以通过单击鼠标轻松选择要抓取的内容

  2、支持三种高速引擎:浏览器引擎,HTTP引擎,JSON引擎,内置优化的Firefox浏览器以及原创内存优化,因此浏览器采集也可以高速运行,甚至可以快速转换。要运行HTTP,可以享受更高的采集速度,并且在获取JSON数据时,还可以使用浏览器可视化方法来用鼠标单击要获取的内容,而无需分析JSON数据结构。允许非网页专业设计师轻松获取所需数据

  3、无需分析网页请求和源代码,但支持更多网页采集

  4、先进的智能算法,只需单击一下即可生成目标元素XPATH,自动识别页面列表,并自动识别分页中的下一页按钮

  5、支持丰富的数据导出方法,可以将其导出到txt文件,html文件,csv文件,excel文件,还可以导出到现有数据库,例如sqlite数据库,access数据库,sqlserver数据库,mysql数据库,只需通过向导即可映射字段,即可轻松导出到目标网站数据库

  软件功能

  1、可视化向导:所有采集个元素,自动生成采集个数据

  2、计划任务:灵活定义运行时间,全自动运行

  3、多引擎支持:支持多个采集引擎,内置的高速浏览器内核,HTTP引擎和JSON引擎

  4、智能识别:它可以自动识别网页列表,采集字段和分页等。

  5、阻止请求:自定义阻止域名,以方便过滤异地广告并提高采集速度

  6、各种数据导出:可以导出到Txt,Excel,MySQL,SQLServer,SQlite,Access,网站等。

  优采云 采集器使用方法

  一、设置开始网址

  要采集 a 网站数据,首先我们需要设置输入采集的URL,例如,如果要采集 a 网站国内新闻,则需要设置采集 a 网站国内新闻。起始URL作为国内新闻部分列表的URL,通常不将网站主页设置为起始URL,因为主页通常收录很多列表,例如最新的文章,流行的文章,建议使用文章和其他列表块,并且这些列表块中显示的内容也非常有限。 采集这些列表通常不可用。 采集完整的信息

  下面我们以采集新浪新闻为例,从新浪首页中查找国内新闻,但是此部分首页上的内容仍然比较混乱,并且又细分了三个子部分

  

  让我们通过进入其中一个子列来了解《内地新闻》

  

  此列页面收录分页的内容列表。通过切换页面,我们可以将采集切换至此列下的所有文章,因此这种列表页面非常适合我们的采集开始起始网址

  现在,我们将在任务编辑框的第一步中将列表URL复制到文本框中

  

  如果您要在一个任务中同时采集个国内新闻中的其他子列,还可以复制其他两个子列列表的地址,因为这些子列列表的格式类似,但为了便于导出或发布分类数据。通常不建议将多列的内容混合在一起

  对于起始URL,我们也可以批量添加或从txt文件导入。例如,如果我们要采集前5页,我们也可以通过这种方式自定义5个起始页。

  

  应该注意,如果在此处自定义多个分页列表,请不要在以下采集配置中启用分页。通常,当我们要在某个列下全部采集 文章时,全部您只需将列的第一页定义为起始URL,并在以下采集配置中启用分页,您可以采集到每个页面列表的数据

  二、自动生成列表和字段

  进入第二步后,对于某些网页,优采云 采集器将智能分析页面列表,并自动突出显示网页列表并生成列表数据,例如

  

  然后我们将整理数据,例如删除一些不必要的字段

  

  单击图标中的三角形符号,将弹出字段采集的详细配置,单击上方的删除按钮删除该字段,其余参数将在以下各章中分别介绍

  如果某些网页自动生成的列表数据不是我们想要的数据,则可以单击“清除字段”以清除所有生成的字段

  

  如果自动分析的突出显示列表不是我们想要的列表采集,则我们手动选择列表。如果要取消突出显示的列表框,可以单击“查找列表”,列出XPATH,然后将xpath放入其中。清空后确认

  三、手动生成列表

  点击搜索列表按钮,然后选择手动选择列表

  

  

  根据提示,用鼠标左键单击网页列表中的第一行数据

  点击第一行之后,点击第二行或其他类似的提示行

  

  单击列表中的任何两行之后,将突出显示整个列表,并且还将生成列表中的字段。如果生成的字段不正确,请单击“清除字段”以清除下面的所有字段,下一章将介绍手动选择字段

  

  四、手动生成字段

  点击添加字段按钮

  

  在列表的任何行中单击要提取的元素,例如,要提取标题和链接地址,请用鼠标左键单击标题。

  

  单击Web链接时,系统会提示您是否使用链接地址

  

  如果要同时提取链接标题和链接地址,请单击“是”,如果只需要提取标题文本,请单击“否”,这里我们单击“是”。

  

  系统将自动生成标题和链接地址字段,并在字段列表中显示提取的字段内容。当您点击表格底部的字段标题时,匹配的内容将在网页上以*敏*感*词*背景突出显示

  如何标记列表中的其他字段,单击新字段,重复上述操作。

  五、分页设置

  列表具有分页功能后,启用分页功能后,您可以采集访问所有分页列表数据

  页面分页有两种类型

  普通分页:有一个分页栏,并显示下一页按钮。单击后,您可以进入下一页,例如新浪新闻列表中的上一页。

  瀑布分页:当网页的滚动条到达底部时,下一页内容将自动加载

  如果是正常分页,我们选择尝试自动设置还是手动设置

  1、自动设置分页

  

  默认情况下,创建新任务时不启用分页。单击不启用分页,然后会弹出一个菜单以选择自动识别分页。如果识别成功,将弹出一个对话框,指示已成功识别和设置分页元素,然后将显示下一页。页面按钮上出现一个红色虚线框,到目前为止,自动分页已成功启用

  

  如果自动识别,则会出现以下绿色提示框

  

  2、手动设置分页

  在菜单中选择手动分页

  

  然后找到分页按钮将自动出现,单击弹出菜单,选择标记分页

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线