集搜客网页抓取软件(集搜客GooSeeker网页抓取软件与在线打码平台对接需要配置 )
优采云 发布时间: 2022-03-20 10:07集搜客网页抓取软件(集搜客GooSeeker网页抓取软件与在线打码平台对接需要配置
)
Jisouke GooSeeker 网页抓取软件可以连接在线编码平台。如果捕获到的网站需要验证码,那么验证码会被转发到在线编码平台,GooSeeker会从编码平台返回验证码。结果会自动输入到网页上以完成编码过程。GooSeeker V5.1.0 版本支持以下功能
注意:crontab.xml 文件是 DS 打印机用于定期自动调度多个爬虫窗口的指令文件。详情请参考 GooSeeker 对该文件的说明。下面将详细讲解自动登录和对接编码平台需要配置的参数
内容
1、自动登录和自动编码所需参数
请注意:此版本的 GooSeeker 不会在登录过程中自动识别是否需要编码。如果使用以下配置参数,登录过程中必须要编码。如果您只想自动登录,请使用专用登录 crontab 命令。
下面是 crontab.xml 文件中相关指令的示例 crontab login directive.zip(点击下载示例):
2.参数说明
其他通用参数请参考《如何通过crontab程序实现周期性增量采集数据》,下面主要讲解几个特殊参数。
比如去哪里的登录页面,就可以看到如上所示的界面。此参数是 URL %3A%2F%2F%2F
就是上图中需要输入的账户名
就是上图中需要输入的密码
这是一个标准的xpath,可以用MS找个数,打开内容定位功能,在浏览器中点击账号输入框,可以在“网页结构”窗口中定位到这个输入框,点击“显示XPath "按钮,可以看到定位输入框的XPath表达式,如下
/html/body/div[position()=2]/div[position()=3]/div[position()=2]/div[position()=1]/form/div[position()=2]/div[position()=1]/input
为了能够准确定位,可以在网页中使用定位标志,即@class和@id。对于去哪里的网站,使用定位标志后的xpath会是:
//div[@class='field-login']/div[contains(@class, 'username-field')]/input
可以看出它的时间短了很多,适应性也提高了很多。
类似账号输入框定位xpath
使用类似的东西,你可以得到 xpath 表达式: //div[@id='captcha']//p/img[@id='vcodeImg']
如果手动输入验证码,在这个输入框中输入你看到的字母数字,这个参数也是一个xpath
登录页面通常会显示一个突出的“登录”按钮,而这个 xpath 是用来定位该按钮的。不一定非得是网页上的按钮,也许是div,只要是用来点击的就可以。
通常,如果登录成功,会显示一个网页,上面写着“欢迎xxx”,这串文本可以作为登录成功的标志。
请自行在网站上开户充值,并在这两个参数中配置账号和密码。
3.完成爬虫调度
上面的crontab.xml只有一步登录。通常,网站登录后,只要不关闭浏览器,打开其他网页,就不需要登录。所以,使用自动登录时,有两种选择
如果您已经登录,DS 将根据 loginmark 标志直接跳过登录过程。
4. 处理记录和滥用申诉
找到爬取结果文件夹,通常在 DataScraperWorks 目录中。该目录的上级目录可以在DS计算机的菜单“文件”->“存储路径”中找到。爬网结果按主题名称存储。上面的例子主题名称是testcase_autologin_step,那么就可以找到这个文件夹了。打开后,可以看到一个子目录验证码。完整的目录结构如下
1660287210文件夹是在某个时间进行的编码对接的记录。进入该文件夹,可以看到原创验证码图片和编码平台返回的结果。如果编码平台的错误率很高,您可以使用这个记录信息联系编码平台,要求对方提高服务质量。
5、信息安全保障
如前所述,此配置文件存储在用户本地计算机上,而不是存储在 GooSeeker 云服务器上,因此上述帐号和密码不会泄露。
如有疑问,您可以或