js抓取网页内容(小编典典在直接回答您的问题,值得一开始)

优采云 发布时间: 2021-11-17 09:01

  js抓取网页内容(小编典典在直接回答您的问题,值得一开始)

  小编点点

  在直接回答你的问题之前,值得开始:如果你需要做的只是从静态 HTML 页面中提取内容,你可能应该将 HTTP 库(例如 Requests 或内置的 urllib.request)与 lxml 或 BeautifulSoup 结合起来,而不是 Selenium (虽然硒可能就足够了)。不需要使用硒的优点:

  请注意,需要 cookie 才能工作的站点并不是破解 Selenium 的理由——

  您可以轻松创建一个 URL 打开函数,它使用 cookielib

  /

  cookiejar 在 HTTP 请求中神奇地设置和发送 cookie。

  好的,那为什么还要考虑使用 Selenium 呢?它几乎可以完全处理你要爬取的内容通过JavaScript添加到页面而不是烘焙成HTML的情况。即便如此,您也可以在不破坏重型机械的情况下获得所需的数据。通常,以下情况之一适用:

  如果你这样做

  值得考虑使用 Selenium,请在 headless 模式下使用,(至少)Firefox 和 Chrome 驱动程序支持。网络爬虫通常不需要实际以图形方式显示页面,也不需要使用任何特定于浏览器的怪癖或功能,因此理想的选择是无头浏览器——

  它具有更低的 CPU 和内存成本以及更少的崩溃或悬挂移动部件。

  2020-06-26

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线