python网页数据抓取(取pythonweb-scraping取, )
优采云 发布时间: 2022-03-30 18:02python网页数据抓取(取pythonweb-scraping取,
)
Python Web 抓取与分离 HTML、Javascript 和 CSS 的好汤
python网络抓取
Python Web Scraping with Beautiful Soup 分离 HTML、Javascript 和 CSS 现在这个页面也有一些文本。当我在运行 soup.get_text() 命令时使用文件处理程序打开网页时,我只想查看 HTML 部分,不想查看其他任何内容。是否有可能做到这一点?当前的源代码是: from bs4 import BeautifulSoupsoup=BeautifulSoup(open("/home/Desktop/try.html"))print soup.get_text() 我应该进行哪些更改以便仅获取网页 HTM
我正在尝试使用 Javascript、CSS 和 HTML 创建一个网页。现在这个页面也有一些文字。当我跑步时
soup.get_text()
在命令时打开带有文件处理程序的网页时,我只想看到 HTML 部分而没有其他内容。是否有可能做到这一点
目前的源代码是:
from bs4 import BeautifulSoup
soup=BeautifulSoup(open("/home/Desktop/try.html"))
print soup.get_text()
我应该进行哪些更改才能仅获取网页的 HTML 部分而不获取其他内容?
尝试删除收录不需要的文本(或样式属性)的标签内容
这是一些代码(在基本情况下测试)
这取决于您所说的“获取”是什么意思。Dmralev 的回答将清除其他标签,这将正常工作。但,
是的
汤中的一个标记,因此
print soup.html.get_text()
</p>
if part 表示 HTML 与其余代码分开(即其他代码不
标签),更少的代码行将起作用
print soup.html.get_text()