python网页数据抓取(取pythonweb-scraping取, )

优采云 发布时间: 2022-03-30 18:02

  python网页数据抓取(取pythonweb-scraping取,

)

  Python Web 抓取与分离 HTML、Javascript 和 CSS 的好汤

  python网络抓取

  Python Web Scraping with Beautiful Soup 分离 HTML、Javascript 和 CSS 现在这个页面也有一些文本。当我在运行 soup.get_text() 命令时使用文件处理程序打开网页时,我只想查看 HTML 部分,不想查看其他任何内容。是否有可能做到这一点?当前的源代码是: from bs4 import BeautifulSoupsoup=BeautifulSoup(open("/home/Desktop/try.html"))print soup.get_text() 我应该进行哪些更改以便仅获取网页 HTM

  我正在尝试使用 Javascript、CSS 和 HTML 创建一个网页。现在这个页面也有一些文字。当我跑步时

  soup.get_text()

  在命令时打开带有文件处理程序的网页时,我只想看到 HTML 部分而没有其他内容。是否有可能做到这一点

  目前的源代码是:

  from bs4 import BeautifulSoup

soup=BeautifulSoup(open("/home/Desktop/try.html"))

print soup.get_text()

  我应该进行哪些更改才能仅获取网页的 HTML 部分而不获取其他内容?

  尝试删除收录不需要的文本(或样式属性)的标签内容

  这是一些代码(在基本情况下测试)

  这取决于您所说的“获取”是什么意思。Dmralev 的回答将清除其他标签,这将正常工作。但,

  是的

  汤中的一个标记,因此

print soup.html.get_text()

</p>

  if part 表示 HTML 与其余代码分开(即其他代码不

  标签),更少的代码行将起作用

  print soup.html.get_text()

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线