js抓取网页内容(小编典典在直接回答您的问题,值得一开始)
优采云 发布时间: 2021-11-17 09:01js抓取网页内容(小编典典在直接回答您的问题,值得一开始)
小编点点
在直接回答你的问题之前,值得开始:如果你需要做的只是从静态 HTML 页面中提取内容,你可能应该将 HTTP 库(例如 Requests 或内置的 urllib.request)与 lxml 或 BeautifulSoup 结合起来,而不是 Selenium (虽然硒可能就足够了)。不需要使用硒的优点:
请注意,需要 cookie 才能工作的站点并不是破解 Selenium 的理由——
您可以轻松创建一个 URL 打开函数,它使用 cookielib
/
cookiejar 在 HTTP 请求中神奇地设置和发送 cookie。
好的,那为什么还要考虑使用 Selenium 呢?它几乎可以完全处理你要爬取的内容通过JavaScript添加到页面而不是烘焙成HTML的情况。即便如此,您也可以在不破坏重型机械的情况下获得所需的数据。通常,以下情况之一适用:
如果你这样做
值得考虑使用 Selenium,请在 headless 模式下使用,(至少)Firefox 和 Chrome 驱动程序支持。网络爬虫通常不需要实际以图形方式显示页面,也不需要使用任何特定于浏览器的怪癖或功能,因此理想的选择是无头浏览器——
它具有更低的 CPU 和内存成本以及更少的崩溃或悬挂移动部件。
2020-06-26