网页数据抓取(我是一个新的提到的问题，刚刚开始学习刮和爬行的网站)

优采云发布时间: 2022-01-26 22:09

　　我对上述问题不熟悉，刚刚开始学习网站抓取和爬行。我开始学习 python BeautifulSoup4，它非常适合从网站中提取数据。我的主要问题是处理很多网站。例如，超过 10,000 个不同的网站s。据我所知，到目前为止，当我们告诉程序不同标签的类时，爬虫就完成了，比如

　　Hello World

　　所以从页面中提取。 python scrapy 程序如下所示。你知道吗？

　　 url = 'http://www.anyurl.com'

source = requests.get(url)

plain_text = source.text

soup = BeautifulSoup(plain_text,"html.parser")

h3_text = soup.find('h3', {'class':'this'})

print(h3_text.text)

　　从上面的示例中可以清楚地看出，我们有一个网站，其中 h3 标签有一个类“this”。现在有超过 10,000 个不同的网站，具有不同的类和结构。最好的方法是什么？我正在尝试开发像“Google”这样的搜索引擎，但有一些特定数量的网站（即 10000 或将来可能更多）。你知道吗？

0

2022-01-26

网页数据抓取

0 个评论

要回复文章请先登录或注册