网页数据抓取软件(集搜客GooSeekerV5.1.0版本支持如下功能与联众打码平台对接 )
优采云 发布时间: 2022-04-08 18:20网页数据抓取软件(集搜客GooSeekerV5.1.0版本支持如下功能与联众打码平台对接
)
Jisouke GooSeeker 网页抓取软件可以连接在线编码平台。如果捕获到的网站需要验证码,那么验证码会被转发到在线编码平台,GooSeeker会从编码平台返回验证码。结果会自动输入到网页上以完成编码过程。Jisouke GooSeeker V5.1.0版本支持以下功能连接联众编码平台,请自行在联众编码平台开户充值
该代码仅用于登录过程。如果在抓取过程中出现验证码,请联系我们。
如需连接其他编码平台,请联系我们。
登录流程和对接编码平台所需的参数只能通过crontab.xml进行设置。手动激活的DS打印机无法自动登录并连接打码平台
注意:crontab.xml 文件是 DS 打印机用于定期自动调度多个爬虫窗口的指令文件。详情请参考 GooSeeker 对该文件的说明。下面将详细讲解自动登录和对接编码平台需要配置的参数
目录 1 自动登录和自动编码所需的参数
2 参数说明
3 完成爬虫调度
4 处理记录和滥用申诉
5 信息安全保障
1、自动登录和自动编码所需参数
请注意:此版本的 GooSeeker 不会在登录过程中自动识别是否需要编码。如果使用以下配置参数,登录过程中必须要编码。如果您只想自动登录,请使用专用登录 crontab 命令。
下面是 crontab.xml 文件中相关指令的示例 crontab login directive.zip(点击下载示例):
2、参数说明登录页面URL loginpage
登录帐号登录帐号
就是上图中需要输入的账户名,登录密码loginpassword
就是在上图中需要输入的密码账号输入框中找到xpath accountinput
这是一个标准的xpath,可以用MS找个数,打开内容定位功能,在浏览器中点击账号输入框,可以在“网页结构”窗口中定位到这个输入框,点击“显示XPath "按钮,可以看到定位这个输入框的XPath表达式,如下/html/body/div[position()=2]/div[position()=3]/div[position()=2]/div [位置()=1]/form/div[位置()=2]/div[位置()=1]/输入
为了能够准确定位,可以在网页中使用定位标志,即@class和@id。对于网站去哪里,使用定位标志后的xpath会是://div[@class='field-login']/div[contains(@class, 'username-field')]/输入
可以看出它的时间短了很多,适应性也提高了很多。密码输入框的定位 XPath passwordinput
类似账号输入框定位xpath验证码地图定位xpath captchaimg
使用类似的方法,可以得到xpath表达式: //div[@id='captcha']//p/img[@id='vcodeImg'] 验证码输入框xpath captchainput的定位
如果您手动输入验证码,请输入您在此输入框中看到的字母数字。这个参数也是一个xpath登录按钮的位置xpath submitinput
登录页面通常会显示一个突出的“登录”按钮,而这个 xpath 是用来定位该按钮的。不一定非得是网页上的按钮,也许是div,只要是用来点击的就可以。如果登录成功,可以看到logo xpath loginmark的位置
通常,如果登录成功,会显示一个网页,上面写着“欢迎xxx”,这串文本可以作为登录成功的标志。联众编码平台登录账号olcaptchaaccount
联众编码平台登录密码olcaptchapassword
请自行在网站上开户充值,并在这两个参数中配置账号和密码。
3.完成爬虫调度
上面的crontab.xml只有一步登录。通常,网站登录后,只要不关闭浏览器,打开其他网页,就不需要登录。因此,在使用自动登录时,有两个选项可以专门为登录;
也可以放在线程开头,先登录,再抓取。
如果您已经登录,DS 将根据 loginmark 标志直接跳过登录过程。
4. 处理记录和滥用申诉
找到爬取结果文件夹,通常在 DataScraperWorks 目录中。该目录的上级目录可以在DS计算机的菜单“文件”->“存储路径”中找到。爬网结果按主题名称存储。上面的例子主题名称是testcase_autologin_step,那么就可以找到这个文件夹了。打开后,可以看到一个子目录验证码。完整的目录结构如下
1660287210文件夹是在某个时间进行的编码对接的记录。进入该文件夹,可以看到原创验证码图片和编码平台返回的结果。如果编码平台的错误率很高,您可以使用这个记录信息联系编码平台,要求对方提高服务质量。
5、信息安全保障
正如 GooSeeker 强调的——隐私保护,这个配置文件存储在用户的本地计算机上,而不是存储在 GooSeeker 云服务器上,所以上述帐号和密码不会被泄露。
如有疑问,您可以或