网页数据抓取(我是一个新的提到的问题,刚刚开始学习刮和爬行的网站)

优采云 发布时间: 2022-01-26 22:09

  网页数据抓取(我是一个新的提到的问题,刚刚开始学习刮和爬行的网站)

  我对上述问题不熟悉,刚刚开始学习 网站 抓取和爬行。我开始学习 python BeautifulSoup4,它非常适合从 网站 中提取数据。我的主要问题是处理很多 网站。例如,超过 10,000 个不同的 网站s。据我所知,到目前为止,当我们告诉程序不同标签的类时,爬虫就完成了,比如

  Hello World

  所以从页面中提取。 python scrapy 程序如下所示。你知道吗?

   url = 'http://www.anyurl.com'

source = requests.get(url)

plain_text = source.text

soup = BeautifulSoup(plain_text,"html.parser")

h3_text = soup.find('h3', {'class':'this'})

print(h3_text.text)

  从上面的示例中可以清楚地看出,我们有一个网站,其中 h3 标签有一个类“this”。现在有超过 10,000 个不同的 网站,具有不同的类和结构。最好的方法是什么?我正在尝试开发像“Google”这样的搜索引擎,但有一些特定数量的 网站(即 10000 或将来可能更多)。你知道吗?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线