动态网页抓取([问题讨论]分析:您可以使用Chrome的开发者模式)
优采云 发布时间: 2022-01-29 09:07动态网页抓取([问题讨论]分析:您可以使用Chrome的开发者模式)
[答案1]:
您可以使用 ghost.py 直接与页面上的 JavaScript 交互,而不是尝试对其进行逆向工程。
如果您在 Chrome 控制台中运行以下查询,您会看到它返回了您想要的所有内容。
document.getElementsByClassName('inline-text-org');
退货
[University of Manchester,
University of California ...
etc...
您可以使用 ghost.py 在现实生活中的 DOM 中从 python 运行 JavaScript。
这真的很酷:
from ghost import Ghost
ghost = Ghost()
page, resources = ghost.open('http://academic.research.microsoft.com/Search?query=lander')
result, resources = ghost.evaluate(
"document.getElementsByClassName('inline-text-org');")
【问题讨论】:
[答案2]:
之前有人问过一个非常相似的问题。参考的是 selenium,它最初是一个 web-apps 的测试环境。
我通常使用 Chrome 的开发者模式,恕我直言,它已经提供了比 Firefox 更详细的信息。
【问题讨论】:
【答案3】:
要爬取动态内容,你需要的不是一个简单的爬虫,而是一个成熟的无头浏览器。
dhamaniasad/HeadlessBrowsers:(几乎)所有存在的无头网络浏览器的列表是我见过的最完整的列表;它列出了每种语言的绑定语言。
(请注意,列出的物品中有不少被遗弃了!)
【问题讨论】: