php正则函数抓取网页连接(link_extractor是一个对象，它定义如何从要爬取的页面提取链接)

优采云发布时间: 2021-11-08 15:11

　　link_extractor 是一个对象，它定义了如何从要抓取的页面中提取链接。

　　callback'' 是一个可调用或字符串（在这种情况下，蜘蛛中的同名函数将被调用），使用link_extractor从Response对象中提取的每个链接都会调用该函数。回调函数接收一个响应作为它的第一个参数，并且必须返回一个收录和（或）对象（或它们的任何子类）的列表。

　　警告

　　在编写爬行蜘蛛规则时，请避免使用 parse 回调，因为 parse 方法本身是用来实现其逻辑的。因此，如果您覆盖 parse 方法，它将不再起作用。

　　cb_kwargs 是一个收录要传递给回调函数的关键字参数的字典。

　　follow 是一个布尔值，它指定是否应该从使用此规则提取的每个响应中跟踪链接。如果回调默认值为 None follow，则默认为 True，否则默认为 False。

　　process_links 是一个可调用或字符串（在这种情况下，蜘蛛中的同名函数将被调用），它使用link_extractor 调用，每个链接列表从Response 对象中提取。这主要用于过滤目的。

　　process_request 是一个可调用的或字符串（这种情况下会调用spider中同名的函数），这个规则提取的每个请求都会调用它，并且必须返回一个请求或者None（请求被过滤掉））。

0

2021-11-08

php正则函数抓取网页连接

0 个评论

要回复文章请先登录或注册