php正则函数抓取网页连接(link_extractor是一个对象,它定义如何从要爬取的页面提取链接)

优采云 发布时间: 2021-11-08 15:11

  php正则函数抓取网页连接(link_extractor是一个对象,它定义如何从要爬取的页面提取链接)

  link_extractor 是一个对象,它定义了如何从要抓取的页面中提取链接。

  callback'' 是一个可调用或字符串(在这种情况下,蜘蛛中的同名函数将被调用),使用link_extractor从Response对象中提取的每个链接都会调用该函数。回调函数接收一个响应作为它的第一个参数,并且必须返回一个收录和(或)对象(或它们的任何子类)的列表。

  警告

  在编写爬行蜘蛛规则时,请避免使用 parse 回调,因为 parse 方法本身是用来实现其逻辑的。因此,如果您覆盖 parse 方法,它将不再起作用。

  cb_kwargs 是一个收录要传递给回调函数的关键字参数的字典。

  follow 是一个布尔值,它指定是否应该从使用此规则提取的每个响应中跟踪链接。如果回调默认值为 None follow,则默认为 True,否则默认为 False。

  process_links 是一个可调用或字符串(在这种情况下,蜘蛛中的同名函数将被调用),它使用link_extractor 调用,每个链接列表从Response 对象中提取。这主要用于过滤目的。

  process_request 是一个可调用的或字符串(这种情况下会调用spider中同名的函数),这个规则提取的每个请求都会调用它,并且必须返回一个请求或者None(请求被过滤掉) )。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线