python抓取动态网页(终于我还是要自己动手从网页爬取数据了(组图))

优采云发布时间: 2022-01-27 18:22

　　最后我还是得自己从网上抓取数据。

　　R的rvest包是初学者，python基本不是。代码仅供参考，爬取数据时不要问我，我应该无法回答。

　　rvest包抓取静态网页数据

　　使用的基本步骤：首先使用read_html()函数读取一个html页面，然后通过CSS或Xpath获取需要的节点并使用html_nodes()函数读取节点内容，最后使用html_text()函数在节点中获取所需的文本。

　　获取xpath的步骤如图1所示。

<p># install packages

install.packages("tidyverse")

install.packages("rvest")

library(tidyverse)

library(rvest)

# 以在NCBI PubMed搜索非小细胞肺癌相关文献为例

# 1、读取一个html页面

> nsclc = read_html("https://pubmed.ncbi.nlm.nih.gov/?term=NSCLC")

> nsclc

{html_document}

[1] article = nsclc %>% html_nodes(xpath = "//*[@id='search-results']/section/div[1]/div/article[1]/div[2]/div[1]/a")

> article

{xml_nodeset (1)}

[1]

0

2022-01-27

python抓取动态网页

0 个评论

要回复文章请先登录或注册