python抓取动态网页(终于我还是要自己动手从网页爬取数据了(组图))
优采云 发布时间: 2022-01-27 18:22python抓取动态网页(终于我还是要自己动手从网页爬取数据了(组图))
最后我还是得自己从网上抓取数据。
R的rvest包是初学者,python基本不是。代码仅供参考,爬取数据时不要问我,我应该无法回答。
rvest包抓取静态网页数据
使用的基本步骤:首先使用read_html()函数读取一个html页面,然后通过CSS或Xpath获取需要的节点并使用html_nodes()函数读取节点内容,最后使用html_text()函数在节点中获取所需的文本。
获取xpath的步骤如图1所示。
<p># install packages
install.packages("tidyverse")
install.packages("rvest")
library(tidyverse)
library(rvest)
# 以在NCBI PubMed搜索非小细胞肺癌相关文献为例
# 1、读取一个html页面
> nsclc = read_html("https://pubmed.ncbi.nlm.nih.gov/?term=NSCLC")
> nsclc
{html_document}
[1] article = nsclc %>% html_nodes(xpath = "//*[@id='search-results']/section/div[1]/div/article[1]/div[2]/div[1]/a")
> article
{xml_nodeset (1)}
[1]