动态网页抓取([问题讨论]分析:您可以使用Chrome的开发者模式)

优采云 发布时间: 2022-01-29 09:07

  动态网页抓取([问题讨论]分析:您可以使用Chrome的开发者模式)

  [答案1]:

  您可以使用 ghost.py 直接与页面上的 JavaScript 交互,而不是尝试对其进行逆向工程。

  如果您在 Chrome 控制台中运行以下查询,您会看到它返回了您想要的所有内容。

  document.getElementsByClassName('inline-text-org');

  退货

  [​University of Manchester​,

​University of California ...​​

etc...

  您可以使用 ghost.py 在现实生活中的 DOM 中从 python 运行 JavaScript。

  这真的很酷:

  from ghost import Ghost

ghost = Ghost()

page, resources = ghost.open('http://academic.research.microsoft.com/Search?query=lander')

result, resources = ghost.evaluate(

"document.getElementsByClassName('inline-text-org');")

  【问题讨论】:

  [答案2]:

  之前有人问过一个非常相似的问题。参考的是 selenium,它最初是一个 web-apps 的测试环境。

  我通常使用 Chrome 的开发者模式,恕我直言,它已经提供了比 Firefox 更详细的信息。

  【问题讨论】:

  【答案3】:

  要爬取动态内容,你需要的不是一个简单的爬虫,而是一个成熟的无头浏览器。

  dhamaniasad/HeadlessBrowsers:(几乎)所有存在的无头网络浏览器的列表是我见过的最完整的列表;它列出了每种语言的绑定语言。

  (请注意,列出的物品中有不少被遗弃了!)

  【问题讨论】:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线