优采云采集器是一款非常简单的的网页数据采集工具

优采云 发布时间: 2021-02-25 11:00

  优采云采集器是一款非常简单的的网页数据采集工具

  优采云 采集器是非常简单的网页数据采集工具,它具有可视化的工作界面,用户可以通过鼠标完成网页数据采集,使用该程序的门槛非常低,任何用户都可以轻松地将其用于数据采集,而无需用户具备编写采集器的能力;通过此软件,用户可以在大多数网站中采集数据,包括一些单页应用程序Ajax加载动态网站以获取用户所需的数据信息;该软件具有内置的高速浏览器引擎,用户可以在多种浏览模式之间自由切换,从而使用户能够以直观的方式轻松执行网站网页。 采集;该程序安全,无毒,易于使用,欢迎有需要的朋友下载和使用。

  

  软件功能

  1、可视化向导:自动为所有集合元素生成集合数据。

  2、计划任务:灵活定义运行时间并自动运行。

  3、多引擎支持:支持多个采集引擎,内置的高速浏览器内核,HTTP引擎,JSON引擎。

  4、智能识别:它可以自动识别网页列表,采集字段,页面等。

  5、阻止请求:自定义被阻止的域名,以方便过滤异地广告并提高采集速度。

  6、各种数据导出:可以导出到TXT,Excel,mysql,SQL Server,SQLite,access,网站等。

  软件功能

  零阈值

  即使没有网络爬网技术,您也可以轻松浏览Internet 网站并采集网站数据。该软件操作简单,单击鼠标即可轻松选择要爬网的内容。

  多引擎,高速,稳定

  内置在高速浏览器引擎中,您也可以切换到HTTP引擎模式以更有效地采集数据。它还具有一个内置的JSON引擎,该引擎无需分析JSON数据结构并直观地选择JSON内容。

  高级智能算法

  高级智能算法可以生成目标元素XPath,自动识别网页列表,并自动识别分页中的下一页按钮。它不需要分析Web请求和源代码,但支持更多的Web页面采集。

  适用于各种网站

  它可以采集99%的Internet站点,包括动态类型,例如单页应用程序Ajax加载。

  使用方法

  第1步:设置起始网址

  要采集网站数据,首先,我们需要设置URL进入采集。例如,如果要采集网站的国内新闻,则应将起始URL设置为国内新闻栏列表的URL,但通常网站的主页未设置为起始地址,因为主页通常收录许多列表。例如,最新的文章,流行的文章和推荐的文章章以及其他列表块,这些列表块中显示的内容也非常有限。通常,采集这些列表时不可能采集完整的信息。

  接下来,让我们以新浪新闻库为例,从新浪首页查找国内新闻。但是,此列首页上的内容仍然混乱,并分为三个子列

  

  让我们看一下《内地新闻》的分栏报道

  

  此页面列收录页面内容列表。通过切换分页,我们可以采集此列下的所有文章,因此此列表页面非常适合我们采集起始URL。

  现在,我们将在任务编辑框的步骤1中将列表URL复制到文本框中。

  

  如果要在一项任务中同时采集其他国内新闻子列,则还可以复制其他两个子列的列表地址,因为这些子列具有相似的格式。但是,为了便于导出或发布分类数据,通常不建议将多个列的内容混合在一起。

  对于起始URL,我们还可以从txt文件中批量添加或导入。例如,如果我们要采集前五个页面,我们还可以通过这种方式自定义五个起始页面

  

  应注意,如果您在此处自定义多个分页列表,则在后续集合配置中将不会启用分页。通常,当我们要采集列下的所有文章时,我们仅需要将列的第一页定义为起始URL。如果在后续的采集配置中启用了分页,则可以采集每个分页列表的数据。

  步骤2:①自动生成列表和字段

  进入第二步后,对于某些网页,惰性采集器将智能分析页面列表,自动突出显示页面列表并生成列表数据,例如

  

  然后我们可以修剪数据,例如删除一些不必要的字段

  

  单击图中的三角形符号以弹出该字段的详细采集配置。点击上方的删除按钮以删除该字段。其余参数将在以下章节中介绍。

  如果某些网页自动生成的列表数据不是我们想要的,则可以单击“清除字段”以清除所有生成的字段。

  

  如果未手动选择我们的列表,它将自动列出。如果要取消突出显示的列表框,可以单击“查找列表-列表XPath”,清除XPath,然后确认。

  ②手动生成列表

  点击“搜索列表”按钮,然后选择“手动选择列表”

  

  按照提示进行操作,然后用鼠标左键单击网页列表中的第一行数据

  单击第一行,然后根据提示单击第二行或其他类似的行

  

  单击列表中的任意两行后,将突出显示整个列表。同时,列表中的字段也将生成。如果生成的字段不正确,请单击“清除字段”以清除下面的所有字段。下一章将说明如何手动选择字段。

  

  ③手动生成字段

  点击“添加字段”按钮

  

  在列表的任何行中单击要提取的元素,例如标题和链接地址,然后用鼠标左键单击标题

  

  单击Web链接时,系统将提示您是否获取链接地址

  

  如果要提取链接的标题和地址,请单击“是”。如果只想提取标题文本,请单击“否”。在这里,我们单击“是”。

  

  系统将自动生成标题和链接地址字段,并在字段列表中显示提取的字段内容。当您单击底部表格中的字段标题时,匹配的内容将在网页上以*敏*感*词*背景突出显示。

  如果标签列表中还有其他字段,请单击“添加字段”,然后重复上述操作。

  ④分页设置

  列表有分页时,可以在启用分页后采集所有分页列表数据。

  页面分页有两种类型

  常规分页:有一个分页栏,并显示“下一页”按钮。单击后,您可以转到下一页,例如“新浪新闻”列表中的上一页

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线