php抓取网页标签(特立独行我对以这种格式抓取网站相当满意:Stsrt页面>)

优采云 发布时间: 2021-11-01 08:05

  php抓取网页标签(特立独行我对以这种格式抓取网站相当满意:Stsrt页面>)

  特立独行

  我对这种格式的网站 爬取比较满意: Stsrt page> Page 1> Page 2> 我要爬取的页面

  但是,当谈到网站每个页面都有很多指向我要爬取的页面的链接时,我有点卡住了。

  我想我需要先抓取并抓取我需要的所有链接,格式如下:第1页,抓取所有链接,关注第2页>第2页,抓取所有链接,关注第3页*重复该页面X次*>然后一次所有链接都建立了,请关注并抓取我想要的数据。

  最好的方法是用一个函数创建一个链表,然后传递给一个函数,遍历它们并抓取数据?

  Python

  如果每个链接的数据获取是相同的,那么是的。

  你会得到这样的东西:

  for link in links:

scrape_date(link)

  收录您之前抓取的所有页面上的所有链接的链接列表在哪里。

  您还可以同时从每个页面上找到的所有链接中获取数据。像这样的东西:

  for page in pages:

urls = scrape_urls(page)

data = scrape_date(urls)

  其中 pages 是所有页面的列表(第 1 页、第 2 页、第 3 页等)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线