官方发布:优采云采集器官方版2.0.3 最新版
优采云 发布时间: 2022-11-15 20:40官方发布:优采云采集器官方版2.0.3 最新版
优采云采集器正式版是一款功能强大的网页采集器,该软件由谷歌原技术团队打造,旨在打造一款可视化、免费且极速的产品,让用户免费使用,放心使用。
优采云采集器简介
优采云采集器是一个免费的网页数据采集,具有可视化点击和一键式采集网页数据的特点。可用的网络数据 采集器。优采云采集器导出数据没有限制。数据可以导出到本地文件,发布到网站和数据库等,非常方便。需要的话赶快下载吧。
优采云采集器 教程
如何自定义采集百度搜索结果数据
第 1 步:创建一个 采集 任务
1)启动优采云采集器,进入主界面,选择自定义采集,点击创建任务按钮,创建一个“自定义采集任务”
2)输入百度搜索的网址,包括三种方式
1、手动输入:直接在输入框中输入网址。当多个 URL 需要用换行符分隔时
2.点击从文件中读取:用户选择一个存储URL的文件。文件中可以有多个URL地址,地址之间需要换行分隔。
3、批量添加方式:通过添加和调整地址参数生成多个常规地址
第 2 步:自定义 采集 流程
1)点击创建后,会自动打开第一个网址,进入自定义设置页面。默认情况下,已经创建了开始、打开网页和结束的流程块。底部模板区域用于拖放到画布中生成新的流程块;在打开的网页中点击属性按钮修改打开的URL
2)添加输入文本流块:将底部模板区域的输入文本块拖到打开的网页块附近,出现阴影区域时松开鼠标,此时会自动连接,添加已经完成
3)生成一个完整的流程图:添加一个新的块,方法和上面添加输入文本流程块的拖拽过程一样:如下图:
关键步骤块设置介绍
Step 2:定时等待用于等待之前打开的网页完成
第三步:点击输入框的XPath属性按钮,点击属性菜单中的图标点击网页中的输入框,点击输入文本属性按钮,在菜单中输入要查找的文本。
第四步:用于设置点击启动搜索按钮,点击元素的xpath属性按钮,点击菜单中的点击图标,然后点击网页中的百度按钮。
第五步:用于设置循环加载下一个列表页面。在循环块内部的循环条件块中设置详细的条件,点击这里的操作按钮,选择单个元素,然后在属性菜单中点击该元素的xpath属性按钮,如上在网页中点击下一页按钮. 循环次数属性按钮可以默认为0,即不限制下一页的点击次数。
第六步:用于设置列表页数据循环抽取。在循环块内部的循环条件块中设置详细的条件,点击这里的操作按钮,选择不固定元素列表,然后在属性菜单中点击该元素的xpath属性按钮,然后连续点击两次,提取出第一个块和第二个块元素。循环数属性按钮可以默认设置为0,即列表中采集的字段数没有限制。
第七步:执行点击下一页按钮的操作,点击元素xpath属性按钮,选择使用当前循环元素的xpath选项。
第八步:同样用于设置网页加载等待时间。
Step 9:设置列表页提取的字段规则,点击属性按钮中的Use elements in loop按钮,选择Use elements in loop选项。点击元素模板属性按钮,在字段表中点击加号和减号可以添加和删除字段,使用点击操作添加字段,即点击加号,将鼠标移到网页元素上点击选择.
4) 点击开始采集开始采集
第 3 步:数据 采集 和导出
1) 采集 任务运行
2)采集完成后,选择“导出数据”,将所有数据导出到本地文件
3) 选择“导出方式”导出采集好的数据,这里导出格式可以选择excel
4) 采集 数据导出后如下图
优采云采集器软件功能
1.可视化自定义采集流程
全程问答引导,可视化操作,自定义采集流程
自动记录和模拟网页操作顺序
更多 采集 需求的高级设置
2.点击提取网页数据
鼠标点击选择要抓取的网页内容,操作简单
可选择提取文本、链接、属性、html 标签等。
3.运行批量采集数据
软件根据采集流程和提取规则自动批量采集
快速稳定,实时显示采集速度和进程
软件可以切换到后台运行,不影响前台工作
4.导出并发布采集数据
采集的数据自动制表,字段可自由配置
支持数据导出到Excel等本地文件
并一键发布到cms网站/数据库/微信公众号等媒体
技巧:优采云采集v9教程-0基础专属教程3分钟学会就实操
4.Access、Mysql、Sqlserver、Sqlite、Oracle、Mongo数据库的使用
5.代理服务器、FTP服务器相关知识
6.常用SQL语句
7、插件需要PHP或C#编程能力的支持
8. Apache 或 IIS 服务器设置,网站 安装
在网络上发布
① 打开Web发布配置
② 选择发布模块
③ 发布模块的编辑、创建、删除、导入、导出操作
④网页代码:与要发布的网站代码一致
⑤全局变量:可以在发布模块的所有位置使用,方便设置和修改一些参数。
⑥网站地址:一般指网站域名。实际运行时,根据release模块中的地址进行实际调整。
需要和模块中的地址组合成一个完整的绝对地址
⑦ 登录方式:有内置浏览器登录、数据包登录、不登录三种。
内置浏览器登录:获取浏览器ID和用户信息。
数据包登录:填写用户名、密码和获取的验证码后登录。
该方法需要release模块中的`网站Auto Login`有相应的设置。
免登录:一般情况下对接不需要登录,或者不用登录也可以使用发布接口。
⑧获取列表:可以刷新列ID和列名。需要获取release模块中的column列表才能有相应的设置
⑨Web发布配置列表:管理所有Web发布配置
具体发布模块*敏*感*词*请参考后续视频教程
其他
分析查看源码,分析得到:
主题内容的起始字符串为id="postmessage_649823"> 因为不同的帖子有不同的ID,
所以我们将数字 649823 设置为 (*) 通配符。
也就是说,开始的字符串是 id="postmessage_(*)">
结束字符串是
然后勾选下图循环匹配,实现主题内容,回复采集。