python抓取动态网页(终于我还是要自己动手从网页爬取数据了(组图))

优采云 发布时间: 2022-01-27 18:22

  python抓取动态网页(终于我还是要自己动手从网页爬取数据了(组图))

  最后我还是得自己从网上抓取数据。

  R的rvest包是初学者,python基本不是。代码仅供参考,爬取数据时不要问我,我应该无法回答。

  rvest包抓取静态网页数据

  使用的基本步骤:首先使用read_html()函数读取一个html页面,然后通过CSS或Xpath获取需要的节点并使用html_nodes()函数读取节点内容,最后使用html_text()函数在节点中获取所需的文本。

  获取xpath的步骤如图1所示。

<p># install packages

install.packages("tidyverse")

install.packages("rvest")

library(tidyverse)

library(rvest)

# 以在NCBI PubMed搜索非小细胞肺癌相关文献为例

# 1、读取一个html页面

> nsclc = read_html("https://pubmed.ncbi.nlm.nih.gov/?term=NSCLC")

> nsclc

{html_document}

[1] article = nsclc %>% html_nodes(xpath = "//*[@id=&#39;search-results&#39;]/section/div[1]/div/article[1]/div[2]/div[1]/a")

> article

{xml_nodeset (1)}

[1]

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线