动态网页抓取([问题讨论]分析：您可以使用Chrome的开发者模式)

优采云发布时间: 2022-01-29 09:07

　　[答案1]：

　　您可以使用 ghost.py 直接与页面上的 JavaScript 交互，而不是尝试对其进行逆向工程。

　　如果您在 Chrome 控制台中运行以下查询，您会看到它返回了您想要的所有内容。

　　document.getElementsByClassName('inline-text-org');

　　退货

　　[University of Manchester,

University of California ...

etc...

　　您可以使用 ghost.py 在现实生活中的 DOM 中从 python 运行 JavaScript。

　　这真的很酷：

　　from ghost import Ghost

ghost = Ghost()

page, resources = ghost.open('http://academic.research.microsoft.com/Search?query=lander')

result, resources = ghost.evaluate(

"document.getElementsByClassName('inline-text-org');")

　　【问题讨论】：

　　[答案2]：

　　之前有人问过一个非常相似的问题。参考的是 selenium，它最初是一个 web-apps 的测试环境。

　　我通常使用 Chrome 的开发者模式，恕我直言，它已经提供了比 Firefox 更详细的信息。

　　【问题讨论】：

　　【答案3】：

　　要爬取动态内容，你需要的不是一个简单的爬虫，而是一个成熟的无头浏览器。

　　dhamaniasad/HeadlessBrowsers：（几乎）所有存在的无头网络浏览器的列表是我见过的最完整的列表；它列出了每种语言的绑定语言。

　　（请注意，列出的物品中有不少被遗弃了！）

　　【问题讨论】：

0

2022-01-29

动态网页抓取

0 个评论

要回复文章请先登录或注册