软件特色简单好用简单易学，易搜网页数据采集器

优采云发布时间: 2021-01-17 08:02

　　Easy Search Web Data采集器是一款非常有用的Web data采集软件，它为用户提供了非常方便的data采集方法，即使用户没有任何操作，其操作方法也简单便捷。专业知识您还可以轻松地快速开始和操作采集网页数据。轻松搜索网络数据采集器免费版不需要输入任何代码，只需输入URL地址，它可以自动帮助用户采集网络数据。

　　Easy Search Web Data采集器的正式版本具有非常强的系统兼容性，并支持在各种版本的操作系统上运行。有需要的用户可以访问此站点来下载此软件。

　　软件功能

　　简单易用

　　简单易学，可以通过可视界面，鼠标单击和向导模式访问采集数据。用户不需要任何技术基础，只需输入网址即可一键提取数据。小白守则福音。

　　大型采集模板

　　内置大量网站采集模板，涵盖多个行业，单击模板，即可加载数据，只需简单的配置，即可快速，准确地获取数据以满足各种采集的需求

　　自行开发的智能算法

　　通过自主研发的智能识别算法，可以自动识别列表数据并识别分页，准确率达到95％，可以深入采集多级页面快速准确地获取数据

　　自动导出数据

　　数据可以自动导出和发布，支持多种导出格式，例如TXT，CSV，Excel，Access，MySQL，SQLServer，SQLite，以及发布到网站界面（Api）等。

　　软件亮点

　　智能采集

　　智能分析和提取列表/表数据，并可以自动识别分页符。一键式免配置采集各种网站，包括分页，滚动加载，登录采集，AJAX等。

　　多平台支持

　　轻松搜索Web数据采集软件支持Windows操作系统的所有版本，并且可以在服务器上稳定运行。无论是个人采集还是团队/企业使用，它都可以满足您的各种需求。

　　多个数据导出

　　一键导出采集的所有数据。支持CSV，EXCEL和HTML等，还支持将数据导出到数据库，并且可以发布到Dedecms，Discuz，Wordpress，phpcms 网站。

　　数据本地存储

　　采集任务会自动保存到本地计算机，因此您不必担心丢失它们。登录该软件，您可以随时随地创建和修改采集个任务。

　　轻松搜索网络数据采集器教程

　　第一步，选择起始网址

　　当需要采集和网站数据时，首先需要找到一个地址以显示数据列表。这一步非常重要。起始网址确定采集数据的数量和类型。

　　以新浪新闻为例。我们想要捕获当前城市中各种本地新闻的新闻标题，发布时间和详细信息页面信息。

　　通过浏览网站，我们找到了所有新闻信息列表的地址

　　然后在轻松搜索网页数据采集器->步骤1->输入网页地址中创建一个新任务

　　然后单击下一步。

　　第二步，获取数据

　　进入第二步后，Blue Whale Visualization采集软件将智能地分析网页并从中提取列表数据。如下图所示：

　　这时，我们组织和修改分析的数据，例如删除无用的字段。

　　点击该列的下拉按钮，然后选择删除字段。

　　当然，还有其他操作，例如名称修改，数据处理等。

　　整理出修改后的字段后，我们来到采集处理分页。

　　选择分页设置->自动识别分页符，程序将自动找到下一个页面元素。

　　接下来，我们进入数据采集的列表页面，单击链接字段并单击以进入列表页面采集数据，如下所示：

　　第三步，高级设置

　　这包括浏览器的配置，例如禁用图像，禁用JS，禁用Flash，阻止广告等。通过这些配置，可以提高浏览器的加载速度。

　　配置计划任务，通过计划任务，您可以将任务设置为定期自动运行。

　　单击“完成”以保存任务。

　　完成，运行任务

　　创建任务后，我们选择新创建的任务，然后单击任务栏以开始。

　　如何从Easysearch网页数据中导出数据采集器

　　有2种导出方式：

　　通过右键单击任务->导出任务或导出视图数据来手动导出。

　　自动导出，请在编辑任务的第三步中设置导出。

　　数据导出后，将被标记为已导出，并且在下一次导出中将不再再次导出。如果要导出所有数据而不区分导出的内容，则可以选择“在查看数据中全部导出”。

　　导出为Excel，CSV，TXT

　　可以将数据导出到Excel，CSV，TXT文件，每次导出都会生成一个新文件。该软件支持为导出的文件名设置变量。根据任务名称和日期格式，当前有两种格式变量。

　　导出到网站界面（API）

　　支持主流cms网站系统，例如Discuz，Empirecms，Wordpress，DEDEcms，PHPcms，并且官方可以提供接口文件（API）。

　　对于开发人员，您可以自己定义网站API。轻松搜索网络数据采集器通过HTTP POST请求将数据发送到指定的API，只需设置相应的POST参数和编码类型即可。

　　导出到数据库

　　当前，轻松搜索Web数据采集器支持导出到四个数据库：MySQL，SQLServer，SQLite和Access。设置数据库的连接配置，并指定要导出的目标表的名称。

　　同时，您可以设置本地任务字段和目标数据库字段之间的映射关系（对应）

　　轻松搜索网络数据采集器值属性设置方法

　　首先，该字段通过XPath定位Html元素，然后我们需要通过value属性确定Html元素的哪一部分是字段值。

　　在通常情况下，采集器默认情况下使用InnerText属性（当前节点及其子节点的文本）

　　除了InnerText，还有其他一些内置属性：

　　文本，代表当前节点的文本

　　InnerHtml，它表示当前节点（不包括当前节点）内的HTML语句

　　OuterHtml，代表当前节点的HTML语句

　　除了内置属性外，用户还可以手动填写HTML属性。常见的HTML属性，例如A标签的href和IMG标签的src。代表数据的Data-*。

　　特殊提示

　　在这里，即使没有下拉选项，也可以手动输入属性名称。例如常见的onclick，值，类。

0

2021-01-17

采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

软件特色简单好用简单易学，易搜网页数据采集器

0 个评论

发起人