自动抓取网页数据(打开网页的几种方法和设置方法,你知道吗?)

优采云 发布时间: 2022-04-10 01:14

  自动抓取网页数据(打开网页的几种方法和设置方法,你知道吗?)

  1、打开网页

  这一步根据设置的URL打开网页,一般是网页采集流程的第一步,用于打开指定的网站或网页。如果需要打开多个相似的 URL 来执行同一个 采集 进程,则应将它们放在循环内,勾选使用循环,并将其用作第一个子步骤。

  

  1)页面网址

  页面URL,一般可以从网页浏览器的地址栏复制过来,如:

  2)操作名

  自定义动作名称

  3)超时

  在页面完成加载之前等待的最长时间。如果网页打开很慢,或者长时间无法打开,则进程等待到超时指定的时间,然后无论网页是否加载,都直接执行下一步。应避免设置太长的超时,因为这会影响 采集 速度

  4)阻止弹出窗口

  它用于阻止网页上的弹出广告。如果打开的网页偶尔会变成另一个广告页面,您可以使用此选项来防止广告页面弹出。

  5)使用循环

  它与循环步骤结合使用,重复打开多个相似的网页,然后执行同一组流程。在循环中打开页面时,应该是循环步骤的第一个子步骤。如果勾选该选项,则无需手动设置网页地址,网页地址会自动显示loop-set URL列表的当前循环项。

  6)滚动页面

  部分网页打开网页后没有显示全部数据,导致采集异常停止或数据不完整。因此,您需要滚动鼠标滚轮或将页面滚动条拖到底部以加载未显示的数据。加载页面后使用此选项向下滚动。滚动方式有两种:向下滚动一屏和直接滚动到底部。一般来说,滚动一屏,页面加载效果会比直接滚动到底部要好,但是比较耗时。时间间隔和滚动次数应根据所需数据的显示次数合理设置。

  7)清除缓存

  在优采云中,如果需要切换账号,可以使用清除浏览器缓存,重置其他账号

  8)自定义cookies

  cookie 是指存储在用户本地终端上的一些数据(通常是加密的),用于识别用户身份和跟踪会话。在优采云中可以通过预登录获取页面cookie,并通过勾选打开网页时使用指定cookie获取登录cookie来记住登录状态。获取当前页面cookie,可以点击查看cookie。此外,您还可以自定义cookies,请参考

  9)再试一次

  如果网页没有成功打开预期的页面,例如显示服务器错误(500)、访问频率太快等,或者跳转到其他不应该正常打开的页面,可以使用该选项进行重试,但必须使用以下重试参数执行,请注意以下判断如果出现其中任何一个都会重试。

  ① 当前网页的 URL/text/XPath,包括/不包括

  如果当前页面 URL/text/XPath 总是出现/不出现特殊内容,使用该选项判断是否打开了预期的页面,需要重试

  ② 最大重试次数

  为了避免无限制的重复尝试,请使用此选项限制重复尝试的最大次数。如果重试次数达到最大允许次数仍然失败,则进程停止重试,继续下一步

  ③ 时间间隔

  两次重试之间的等待时间。一般来说,当打开网页出现错误时,很有可能会立即重试同样的错误。如果等待正确,您可能会成功打开预期的网页,但应尽量避免设置过长的等待时间。时间,因为这会影响 采集速度

  在重试过程中,还可以配合切换代理IP和浏览器版本,避免网站对采集的阻塞。在某些情况下重试和切换 IP 将比设置固定时间切换 IP 消耗更少的代理 IP。详情请参阅:

  2、点击元素

  此步骤对网页上的指定元素执行左键单击动作,例如单击按钮、单击超链接等。

  

  1)操作名

  自定义动作名称

  2)执行前等待

  将此步骤设置为等待再执行,即等待设置的时间再继续执行此步骤

  3) 或元素出现

  或者出现一个元素,与执行前等待配合使用。输入元素的 XPath 可以在元素出现时结束执行前的等待。例如,我们设置在执行前等待 10 秒,或者该元素似乎被设置为一个元素。如果元素在第 13 秒加载,优采云 将尝试在第 10 秒执行循环提取操作。如果元素在第 8 秒加载,优采云 将在第 8 秒加载元素后立即结束循环执行前的等待,并执行循环提取操作。那么优采云会在第8秒元素加载完毕后立即结束循环的执行,并执行循环提取操作。4)使用循环

  与循环步骤配合使用,重复点击循环中设置的多个元素,适用于循环单个固定元素,循环固定元素列表,循环非固定元素列表。如果选中该选项,则无需设置要单击的元素。被点击的元素会自动显示当前循环设置的循环项。使用此选项时,应将其用作循环步骤的子步骤,但不必是第一个子步骤。

  5)打开新标签

  如果您希望元素在单击时在新选项卡而不是当前页面中打开,请选中此选项。一般情况下,当您需要在一个页面上循环浏览多个超链接时,您需要勾选该选项以保留列表页面,以便您可以点击列表页面上的下一个超链接;但是如果您循环浏览下一页,则取消选中此选项以在当前页面上打开下一页

  6)ajax 加载

  Ajax 或异步加载是一种无需重新加载网页即可刷新本地数据的技术,因此进程无法检测网页何时加载,也无法决定何时执行下一步。这将在继续执行之前等待默认的 120 秒时间,导致 采集 太慢。使用此选项,流程会在继续后续流程步骤之前等待设置的超时。此选项需要与异步加载超时一起使用。

  Ajax timeout:等待异步加载完成的时间。单击元素后,该过程将开始计时。达到超时时间后,将执行下一个流程步骤。时间长度应根据网页中所需数据的加载速度来设置。简单多了1-2秒。此选项需要与异步加载一起使用。通常,使用此选项时,您无法选中“在新选项卡中打开”。

  7)页面加速

  有些网页不是 ajax 网页。勾选该选项后,系统会根据网页的加载情况判断是否加载了采集的数据。如果待采集的数据已经加载,但网页还在加载,强制停止加载,进入下一步。因为是系统自动判断的,可能有问题,一般不建议用这个

  8)定位锚

  Anchor是网页制作中的一种超链接,也叫anchor。命名锚点,如快速定位器,是页面中非常常见的超链接。在优采云中,对于使用定位anchor的网页,可以通过输入anchor id来快速定位页面中的anchors

  9)滚动页面(与在打开的页面中滚动相同)

  有些网页加载后没有显示全部数据,需要滚动鼠标滚轮或将页面滚动条拖到底部才能加载未显示的数据。加载页面后,使用此选项滚动到底部。

  10)重试(与打开网页重试相同)

  如果网页没有成功打开预期的页面,例如显示服务器错误(500)、访问频率太快等,或者跳转到其他正常执行时不应该出现的页面,可以使用该选项进行重试,但必须使用以下重试参数执行,请注意以下任何判断都会导致重试

  ① 当前网页的 URL/text/XPath,包括/不包括

  如果当前页面 URL/text/XPath 总是出现/没有出现特殊内容,使用该选项判断预期页面没有打开,需要重试

  ② 最大重试次数

  为了避免无限制的重复尝试,请使用此选项限制重复尝试的最大次数。如果重试次数达到最大允许次数仍然失败,则进程将停止重试并继续下一步。

  ③ 时间间隔

  两次重试之间的等待时间。一般来说,当打开网页出现错误时,很有可能会立即重试同样的错误。如果等待正确,您可能会成功打开预期的网页,但应尽量避免设置过长的等待时间。时间,因为这会影响 采集速度

  3、输入文字

  本步骤在输入框中输入指定的文字,例如输入搜索关键词,输入账号等。在网页的输入框中输入设置的文字,如关键词 使用搜索引擎时

  

  1)输入框

  一般来说,当显示“Type:INPUT”字样时,输入框生效。如果显示为空白,则输入框无效。但是也有一些网页输入框不是“INPUT”的,所以主要看网页中文字输入是否流畅。在某些网页中,输入文字后,需要点击“确定”触发并填写网页中的文字。

  2)要输入的文字

  自定义关键词进入

  3)执行前等待

  将此步骤设置为等待再执行,即等待设置的时间再继续执行此步骤

  4)元素出现

  或者出现一个元素,与执行前等待配合使用。输入元素的 XPath 可以在元素出现时结束执行前的等待。例如,我们设置在执行前等待 10 秒,或者该元素似乎被设置为一个元素。如果元素在第 13 秒加载,优采云 将尝试在第 10 秒执行循环提取操作。如果元素在第 8 秒加载,优采云 将在第 8 秒加载元素后立即结束循环执行前的等待,并执行循环提取操作。

  5)使用循环

  与循环步骤结合使用,循环多个 关键词 输入,然后执行同一组进程。循环输入 关键词,应该是循环步骤的第一个子步骤。如果勾选该选项,则无需手动填写要输入的文本,文本会自动显示循环设置的文本列表的当前循环项

  6)自定义

  自定义,即自定义定位文本输入框。一般情况下,优采云会自动生成定位输入框的XPath,自动生成的定位XPath是正确可用的。如果自动生成的定位输入框的XPath不能满足要求,我们需要自定义输入才能正确定位输入框的XPath。

  4、提取数据

  该步骤根据数据提取模板的配置从网页中提取数据,也可以配置为提取URL、网页标题,或者生成当前时间等一些数据。

  

  1) 抓取模板

  此步骤根据数据提取模板的配置从网页中提取数据

  ① 字段名称

  为捕获的数据字段赋予别名,例如新闻标题、新闻正文

  ② 提取数据

  从网页中提取的数据将在此列中显示抓取的样本

  ③ 找不到怎么办

  将该字段留空,将整行留空,或使用某个固定值。

  2)操作名

  可自定义操作的名称

  3)执行前等待

  将此步骤设置为等待再执行,即等待设置的时间再继续执行此步骤

  4) 或元素出现

  或者出现一个元素,与执行前等待配合使用。输入元素的 XPath 可以在元素出现时结束执行前的等待。例如,我们设置在执行前等待 10 秒,或者该元素似乎被设置为一个元素。如果元素在第 13 秒加载,优采云 将尝试在第 10 秒执行循环提取操作。如果元素在第 8 秒加载,优采云 将在第 8 秒加载元素后立即结束循环执行前的等待,并执行循环提取操作。

  5)使用循环

  它与循环步骤结合使用,以重复从循环中设置的多个元素中提取数据。适用于循环单个固定元素,循环固定元素列表,循环非固定元素列表。如果勾选此选项,将根据抓取规则从循环设置的元素中提取样本数据。使用此选项时,数据提取步骤应该是循环步骤的子步骤,但不一定是第一步。

  6)添加特殊字段

  可以添加当前时间、固定字段、空字段、当前网页信息(页面URL、页面标题...)等特殊字段

  7)自定义处理字段

  

  ①

  

  :自定义字段按钮,选择字段后点击该按钮自定义抓取方式、自定义定位元素方式、格式化数据、自定义数据合并方式

  ②

  

  :删除按钮,选中字段后点击此按钮删除字段

  ③

  

  :上移和下移按钮,选择一个字段并单击此按钮可以上移或下移该字段

  ④

  

  :导入导出抓取配置按钮,可以点击导出抓取配置按钮,将配置好的模板保存到所需位置。下次需要时,点击导入抓取配置按钮,直接导入并使用抓取配置

  5、循环

  此步骤用于重复一系列步骤,根据不同配置支持多种模式

  

  1)操作名

  自定义动作名称

  2)执行前等待

  将此步骤设置为等待再执行,即等待设置的时间再继续执行此步骤

  3) 或元素出现

  或者出现一个元素,与执行前等待配合使用。输入元素的 XPath 可以在元素出现时结束执行前的等待。例如,我们设置在执行前等待 10 秒,或者该元素似乎被设置为一个元素。如果元素在第 13 秒加载,优采云 将尝试在第 10 秒执行循环提取操作。如果元素在第 8 秒加载,优采云 将在第 8 秒加载元素后立即结束循环执行前的等待,并执行循环提取操作。

  4) iframe 中的元素,Iframe XPath

  如果循环中设置的元素在一个Iframe中,请勾选该选项,并在下面的Iframe XPath中填写Iframe XPath;Iframe XPath 元素所在的 Iframe 的路径,该设置只有在勾选“Element in Iframe”时才可用。生效

  5)循环模式

  ① 循环单个元素,如在一个循环中每页点击下一个按钮,当翻到最后一页时,当前循环会自动结束

  ② 循环固定元素,例如循环浏览一个页面中指定的多个元素。对列表中的元素一一进行特定的操作,比如循环点击,从中提取数据,鼠标悬停在元素上,当所有元素都循环完后自动结束当前循环

  ③ 循环不固定元素列表:用于需要循环处理多页,但每页要处理的元素个数不固定的情况。当元素列表不固定时,可以指定一个动态路径(多个元素符合这个路径,即多个元素可以按照这个路径定位),系统会先根据指定的路径找到一个元素列表,然后执行下面的“固定”路径。元素列表”相同的操作

  ④ 循环 URL 列表:主要用于循环打开一批指定 URL 的网页,然后执行相同的处理步骤。与打开网页操作配合使用,指定一个URL列表,并确保循环中打开网页操作的当前循环项标志被勾选,以便一一打开URL列表中的连接。

  ⑤ 循环文本列表:主要用于循环输入一批指定的文本,然后执行相同的处理步骤

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线