js抓取网页内容(小编典典在直接回答您的问题，值得一开始)

优采云发布时间: 2021-11-17 09:01

　　小编点点

　　在直接回答你的问题之前，值得开始：如果你需要做的只是从静态 HTML 页面中提取内容，你可能应该将 HTTP 库（例如 Requests 或内置的 urllib.request）与 lxml 或 BeautifulSoup 结合起来，而不是 Selenium （虽然硒可能就足够了）。不需要使用硒的优点：

　　请注意，需要 cookie 才能工作的站点并不是破解 Selenium 的理由——

　　您可以轻松创建一个 URL 打开函数，它使用 cookielib

　　/

　　cookiejar 在 HTTP 请求中神奇地设置和发送 cookie。

　　好的，那为什么还要考虑使用 Selenium 呢？它几乎可以完全处理你要爬取的内容通过JavaScript添加到页面而不是烘焙成HTML的情况。即便如此，您也可以在不破坏重型机械的情况下获得所需的数据。通常，以下情况之一适用：

　　如果你这样做

　　值得考虑使用 Selenium，请在 headless 模式下使用，（至少）Firefox 和 Chrome 驱动程序支持。网络爬虫通常不需要实际以图形方式显示页面，也不需要使用任何特定于浏览器的怪癖或功能，因此理想的选择是无头浏览器——

　　它具有更低的 CPU 和内存成本以及更少的崩溃或悬挂移动部件。

　　2020-06-26

0

2021-11-17

js抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js抓取网页内容(小编典典在直接回答您的问题，值得一开始)

0 个评论

发起人

AI时代内容工厂

js抓取网页内容(小编典典在直接回答您的问题，值得一开始)

0 个评论

发起人

相关问题