网站内容设计(v2.6.0更新内容如下:cookiehandling的安全修复(详见下文))
优采云 发布时间: 2022-03-04 00:11网站内容设计(v2.6.0更新内容如下:cookiehandling的安全修复(详见下文))
Scrapy是一套基于纯Python实现的爬虫框架Twisted的异步处理框架。用户只需要自定义开发几个模块,即可轻松实现爬虫爬取网页内容和各种图片。它还可以用于广泛的用途,从数据挖掘、监控到自动化测试等等。
v2.6.0 更新内容如下:
cookie 处理的安全修复(详见下文)
Python 3.10 支持
asyncio 支持不再被认为是实验性的,无论您的 Python 版本如何,它都可以在 Windows 上开箱即用
Feed 导出现在支持 pathlib.Path 输出路径和每个 Feed 项过滤和后处理
查看完整的变更日志
安全漏洞修复
当定义了 cookie 的请求对象得到重定向响应,导致新的请求对象被调度时,原请求对象中定义的 cookie 不再复制到新的请求对象中。
如果您在请求对象上手动设置 Cookie 标头,并且重定向 URL 的域名与原创请求对象的 URL 的域名不完全匹配,则您的 Cookie 标头现在将从新的请求对象中删除。
攻击者可以利用遗留行为来访问您的 cookie。有关详细信息,请参阅 cjvr-mfj7-j4j8 安全公告。
注意:在定义 cookie 时,仍然可以通过将共享域(例如和任何子域)的后缀定义为 cookie 域来在不同域之间共享 cookie。有关更多信息,请参阅 Request 类的文档。
当响应的 Set-Cookie 标头中收到的或在 Request 对象中定义的 cookie 的域设置为公共后缀时