优采云采集器是一款非常简单的的网页数据采集工具
优采云 发布时间: 2021-02-25 11:00优采云采集器是一款非常简单的的网页数据采集工具
优采云 采集器是非常简单的网页数据采集工具,它具有可视化的工作界面,用户可以通过鼠标完成网页数据采集,使用该程序的门槛非常低,任何用户都可以轻松地将其用于数据采集,而无需用户具备编写采集器的能力;通过此软件,用户可以在大多数网站中采集数据,包括一些单页应用程序Ajax加载动态网站以获取用户所需的数据信息;该软件具有内置的高速浏览器引擎,用户可以在多种浏览模式之间自由切换,从而使用户能够以直观的方式轻松执行网站网页。 采集;该程序安全,无毒,易于使用,欢迎有需要的朋友下载和使用。
软件功能
1、可视化向导:自动为所有集合元素生成集合数据。
2、计划任务:灵活定义运行时间并自动运行。
3、多引擎支持:支持多个采集引擎,内置的高速浏览器内核,HTTP引擎,JSON引擎。
4、智能识别:它可以自动识别网页列表,采集字段,页面等。
5、阻止请求:自定义被阻止的域名,以方便过滤异地广告并提高采集速度。
6、各种数据导出:可以导出到TXT,Excel,mysql,SQL Server,SQLite,access,网站等。
软件功能
零阈值
即使没有网络爬网技术,您也可以轻松浏览Internet 网站并采集网站数据。该软件操作简单,单击鼠标即可轻松选择要爬网的内容。
多引擎,高速,稳定
内置在高速浏览器引擎中,您也可以切换到HTTP引擎模式以更有效地采集数据。它还具有一个内置的JSON引擎,该引擎无需分析JSON数据结构并直观地选择JSON内容。
高级智能算法
高级智能算法可以生成目标元素XPath,自动识别网页列表,并自动识别分页中的下一页按钮。它不需要分析Web请求和源代码,但支持更多的Web页面采集。
适用于各种网站
它可以采集99%的Internet站点,包括动态类型,例如单页应用程序Ajax加载。
使用方法
第1步:设置起始网址
要采集网站数据,首先,我们需要设置URL进入采集。例如,如果要采集网站的国内新闻,则应将起始URL设置为国内新闻栏列表的URL,但通常网站的主页未设置为起始地址,因为主页通常收录许多列表。例如,最新的文章,流行的文章和推荐的文章章以及其他列表块,这些列表块中显示的内容也非常有限。通常,采集这些列表时不可能采集完整的信息。
接下来,让我们以新浪新闻库为例,从新浪首页查找国内新闻。但是,此列首页上的内容仍然混乱,并分为三个子列
让我们看一下《内地新闻》的分栏报道
此页面列收录页面内容列表。通过切换分页,我们可以采集此列下的所有文章,因此此列表页面非常适合我们采集起始URL。
现在,我们将在任务编辑框的步骤1中将列表URL复制到文本框中。
如果要在一项任务中同时采集其他国内新闻子列,则还可以复制其他两个子列的列表地址,因为这些子列具有相似的格式。但是,为了便于导出或发布分类数据,通常不建议将多个列的内容混合在一起。
对于起始URL,我们还可以从txt文件中批量添加或导入。例如,如果我们要采集前五个页面,我们还可以通过这种方式自定义五个起始页面
应注意,如果您在此处自定义多个分页列表,则在后续集合配置中将不会启用分页。通常,当我们要采集列下的所有文章时,我们仅需要将列的第一页定义为起始URL。如果在后续的采集配置中启用了分页,则可以采集每个分页列表的数据。
步骤2:①自动生成列表和字段
进入第二步后,对于某些网页,惰性采集器将智能分析页面列表,自动突出显示页面列表并生成列表数据,例如
然后我们可以修剪数据,例如删除一些不必要的字段
单击图中的三角形符号以弹出该字段的详细采集配置。点击上方的删除按钮以删除该字段。其余参数将在以下章节中介绍。
如果某些网页自动生成的列表数据不是我们想要的,则可以单击“清除字段”以清除所有生成的字段。
如果未手动选择我们的列表,它将自动列出。如果要取消突出显示的列表框,可以单击“查找列表-列表XPath”,清除XPath,然后确认。
②手动生成列表
点击“搜索列表”按钮,然后选择“手动选择列表”
按照提示进行操作,然后用鼠标左键单击网页列表中的第一行数据
单击第一行,然后根据提示单击第二行或其他类似的行
单击列表中的任意两行后,将突出显示整个列表。同时,列表中的字段也将生成。如果生成的字段不正确,请单击“清除字段”以清除下面的所有字段。下一章将说明如何手动选择字段。
③手动生成字段
点击“添加字段”按钮
在列表的任何行中单击要提取的元素,例如标题和链接地址,然后用鼠标左键单击标题
单击Web链接时,系统将提示您是否获取链接地址
如果要提取链接的标题和地址,请单击“是”。如果只想提取标题文本,请单击“否”。在这里,我们单击“是”。
系统将自动生成标题和链接地址字段,并在字段列表中显示提取的字段内容。当您单击底部表格中的字段标题时,匹配的内容将在网页上以*敏*感*词*背景突出显示。
如果标签列表中还有其他字段,请单击“添加字段”,然后重复上述操作。
④分页设置
列表有分页时,可以在启用分页后采集所有分页列表数据。
页面分页有两种类型
常规分页:有一个分页栏,并显示“下一页”按钮。单击后,您可以转到下一页,例如“新浪新闻”列表中的上一页