解决方案:关于优采云 采集器的使用的问题,看这个就够了
优采云 发布时间: 2022-11-28 12:16解决方案:关于优采云
采集器的使用的问题,看这个就够了
可能有的朋友不知道优采云
grabber,我再介绍一下:优采云
grabber是一款Google插件,可以轻松抓取网页上的内容:文本、链接、图片、表格等。 , 并且无需编写一行代码。
优采云
采集器具有以下优点——
自由的
不受操作系统限制,只要安装Chrome浏览器或Chrome内核浏览器即可运行,如360浏览器、QQ浏览器
操作简单易用。(很多没有技术背景的同学也能很快学会)
功能强大:不仅可以抓取静态网页,还可以轻松抓取js动态加载的数据
自动识别:可以自动识别网站页面的大部分主要内容
根据测试过的经验,可以抓取以下类型的网站——
优采云
、京东、美团、链家、赶集等。
微信公众号、简书、国美、知乎、博客等。
淘宝、阿里巴巴、苏宁易购、网易严选等。
浏览器能看到的数据基本都能爬取。
一、常见问题
1、我已经下载了优采云
采集器插件安装包,但是无法安装怎么办?
如果你没有接触过插件的使用和安装,没关系,你可以从链接下的插件安装教程中查看各种浏览器的安装:/zh-cn/advanced/framework .html?id=title-Introi 方法。
比如谷歌下载后,将插件安装包拖到chrome://extensions/页面,根据提示安装即可。
2、优采云
采集器安装后,如何使用?
有的同学,优采云
采集器安装成功,然后会在浏览器右侧看到安装好的优采云
采集器图标,然后鼠标左键->点击登录-> > 跳转到登录界面,登录后可以在首页输入你要采集的URL,点击优采云
采集按钮配置你要采集的URL。如下所示:
" />
3、打开配置页面后,没有自动识别我要采集
的信息怎么办?
比如我想采集
支教网的招聘信息,但是点击优采云
采集
后出现的配置页面自动识别了各大分部,如下图:
此时需要清空该字段,然后将页面类型由自动采集改为手动识别列表,然后点击页面元素,
暗示:!!每次再次手动识别列表,都需要重新选择下一页类型:手动识别列表;另一种使用方式是在页面中点击列表下两个不同单元的元素来识别列表;
4、数据页很多,但实际上为什么只抓取到第一页?
配置完成后可能会忘记查看分页类型的状态栏是否识别成功。每次配置后一定要检查下一页是否识别成功。正常识别成功后,“下一页”按钮会变色,分页类型栏会显示自动识别分页
5、采集到的网站出现滚动条怎么办?
很简单,将配置页的分类类型配置改为滚动加载即可:
6、采集的网站不仅滚动,而且点击加载怎么办?
同学们,这个时候我们需要采集
和配置神器来解决我们的问题。比如我在采集
简书的时候就遇到了类似的问题。简书首页的特点是滚动几次到达底部后点击Button加载类。解决这类问题的过程是:
点击Pre-operation->点击Scroll Page->设置滚动次数、滚动间隔(根据具体次数调试设置)
->修改分页类型为:滚动加载(点击)-->点击页面‘阅读更多’按钮
" />
这样就可以正常采集了,操作过程如下:
7. 需要用户登录的网站怎么办?优采云
集合在哪里配置?
这是 优采云
采集
器优于其他采集
器的地方。优采云
采集
器不需要以模拟用户身份登录。它是一个代替用户的机器人。优采云
采集器不会记录您需要登录网站,您只需像平时浏览网站一样在浏览器上登录即可。
8、验证码反了怎么办?
优采云
集合本身就是代替用户做重复性的工作,所以是一个真实的浏览器环境。我们测试了很多网站,出现验证码的几率很小。即使发出了验证码,优采云
采集器也会智能识别,暂停采集任务,然后以弹窗的形式提示你。手动敲代码后,点击任务运行监控页面,再次启动采集任务。
9、页面上要采集一个字段怎么办?
很简单,你只需要点击你要采集的位置,然后就会给出信息,比如点击选择电影,会出现一个提示框,如果你想采集整个栏目,然后选择提取列表的按钮;如果要提取text,class,href所有信息,可以选择提取所有信息,也可以一项一项选择,把光标放在
图标还可以查看已识别的内容。
10. 在哪里可以看到下载的数据?
优采云
采集
器在采集
过程中会有日志输出。点击查看详细信息,会看到正在采集
的日志信息和数据信息
您也可以单击左侧任务栏上的查看
解决方案:小蜜蜂采集器V1.928的功能介绍
1.支持文章内容分页;
2.支持论坛采集
3、支持UTF-8转GB2312,可采集内容字符格式为UTF-8的对象;
4.支持将文章内容保存到本地;
5.支持站点+栏目管理方式,让采集
管理一目了然;
6、支持链接替换,分页链接替换,破解部分JS/后台程序设置的反挖矿功能;
7.支持采集器设置无限过滤功能;
8.支持图片采集保存到本地,自动替换文件名避免重复;
" />
9、支持FLASH文件采集并保存到本地,自动替换文件名避免重复;
10、支持限制PHP FOPEN和FSOCKET功能的虚拟主机;
11、支持人工筛选采集结果,提供“空标题、空内容”的快速筛选和删除;
12、支持采集
Flash专业站,专门采集
flash游戏,可以完美采集
缩略图和游戏介绍;
13、支持所有站点配置规则的导入导出;
14.支持栏目配置规则导入导出,提供规则复制功能,简化设置;
15.提供导库规则导入导出;
16.支持自定义采集间隔时间,避免被误认为是DDOS攻击而拒绝响应,可以采集已经设置防止DDOS攻击的网站;
" />
17、支持自定义存储区间,避免虚拟主机并发数限制;
18.支持编写自定义内容,用户可以任意设置内容(比如自己的链接、广告代码),对采集的内容进行写入:前面、后面、或者随意写;导入库的时候会自动带上需要的内容 写好的内容不需要修改你WEB系统的模板。
19.支持采集
内容的替换功能,用户可以设置替换规则随意替换;
20、支持html标签过滤,让采集的内容只保留必要的html标签甚至是不带任何html标签的纯文本;
21、支持多种CMS指南库如:PHPCMS V2/V3、DedeCms(Dreamweaving)V2/V3、PHP168 CMS、mephpcms、Mambo CMS、Joomla CMS、多迅CMS、SupeSite、Cmsware、帝国ECMS、新鱼动网(XYDW)CMS 、动易CMS、风寻CMS系统指南库;用户也可以自行设计适合自己系统的向导库功能。
22、支持PHPWIND、Discuz论坛引导库,程序包内含2大论坛引导库规则和操作引导说明;
23、自带数据库优化工具,减少频繁采集
数据碎片,降低数据库性能。