网页数据抓取软件(集搜客GooSeekerV5.1.0版本支持如下功能与联众打码平台对接 )

优采云 发布时间: 2022-04-08 18:20

  网页数据抓取软件(集搜客GooSeekerV5.1.0版本支持如下功能与联众打码平台对接

)

  Jisouke GooSeeker 网页抓取软件可以连接在线编码平台。如果捕获到的网站需要验证码,那么验证码会被转发到在线编码平台,GooSeeker会从编码平台返回验证码。结果会自动输入到网页上以完成编码过程。Jisouke GooSeeker V5.1.0版本支持以下功能连接联众编码平台,请自行在联众编码平台开户充值

  该代码仅用于登录过程。如果在抓取过程中出现验证码,请联系我们。

  如需连接其他编码平台,请联系我们。

  登录流程和对接编码平台所需的参数只能通过crontab.xml进行设置。手动激活的DS打印机无法自动登录并连接打码平台

  注意:crontab.xml 文件是 DS 打印机用于定期自动调度多个爬虫窗口的指令文件。详情请参考 GooSeeker 对该文件的说明。下面将详细讲解自动登录和对接编码平台需要配置的参数

  目录 1 自动登录和自动编码所需的参数

  2 参数说明

  3 完成爬虫调度

  4 处理记录和滥用申诉

  5 信息安全保障

  1、自动登录和自动编码所需参数

  请注意:此版本的 GooSeeker 不会在登录过程中自动识别是否需要编码。如果使用以下配置参数,登录过程中必须要编码。如果您只想自动登录,请使用专用登录 crontab 命令。

  下面是 crontab.xml 文件中相关指令的示例 crontab login directive.zip(点击下载示例):

  

  2、参数说明登录页面URL loginpage

  

  登录帐号登录帐号

  就是上图中需要输入的账户名,登录密码loginpassword

  就是在上图中需要输入的密码账号输入框中找到xpath accountinput

  这是一个标准的xpath,可以用MS找个数,打开内容定位功能,在浏览器中点击账号输入框,可以在“网页结构”窗口中定位到这个输入框,点击“显示XPath "按钮,可以看到定位这个输入框的XPath表达式,如下/html/body/div[position()=2]/div[position()=3]/div[position()=2]/div [位置()=1]/form/div[位置()=2]/div[位置()=1]/输入

  为了能够准确定位,可以在网页中使用定位标志,即@class和@id。对于网站去哪里,使用定位标志后的xpath会是://div[@class='field-login']/div[contains(@class, 'username-field')]/输入

  可以看出它的时间短了很多,适应性也提高了很多。密码输入框的定位 XPath passwordinput

  类似账号输入框定位xpath验证码地图定位xpath captchaimg

  使用类似的方法,可以得到xpath表达式: //div[@id='captcha']//p/img[@id='vcodeImg'] 验证码输入框xpath captchainput的定位

  如果您手动输入验证码,请输入您在此输入框中看到的字母数字。这个参数也是一个xpath登录按钮的位置xpath submitinput

  登录页面通常会显示一个突出的“登录”按钮,而这个 xpath 是用来定位该按钮的。不一定非得是网页上的按钮,也许是div,只要是用来点击的就可以。如果登录成功,可以看到logo xpath loginmark的位置

  通常,如果登录成功,会显示一个网页,上面写着“欢迎xxx”,这串文本可以作为登录成功的标志。联众编码平台登录账号olcaptchaaccount

  联众编码平台登录密码olcaptchapassword

  请自行在网站上开户充值,并在这两个参数中配置账号和密码。

  3.完成爬虫调度

  上面的crontab.xml只有一步登录。通常,网站登录后,只要不关闭浏览器,打开其他网页,就不需要登录。因此,在使用自动登录时,有两个选项可以专门为登录;

  也可以放在线程开头,先登录,再抓取。

  如果您已经登录,DS 将根据 loginmark 标志直接跳过登录过程。

  4. 处理记录和滥用申诉

  找到爬取结果文件夹,通常在 DataScraperWorks 目录中。该目录的上级目录可以在DS计算机的菜单“文件”->“存储路径”中找到。爬网结果按主题名称存储。上面的例子主题名称是testcase_autologin_step,那么就可以找到这个文件夹了。打开后,可以看到一个子目录验证码。完整的目录结构如下

  

  1660287210文件夹是在某个时间进行的编码对接的记录。进入该文件夹,可以看到原创验证码图片和编码平台返回的结果。如果编码平台的错误率很高,您可以使用这个记录信息联系编码平台,要求对方提高服务质量。

  5、信息安全保障

  正如 GooSeeker 强调的——隐私保护,这个配置文件存储在用户的本地计算机上,而不是存储在 GooSeeker 云服务器上,所以上述帐号和密码不会被泄露。

  如有疑问,您可以或

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线