php抓取网页标签(特立独行我对以这种格式抓取网站相当满意:Stsrt页面>)
优采云 发布时间: 2021-11-01 08:05php抓取网页标签(特立独行我对以这种格式抓取网站相当满意:Stsrt页面>)
特立独行
我对这种格式的网站 爬取比较满意: Stsrt page> Page 1> Page 2> 我要爬取的页面
但是,当谈到网站每个页面都有很多指向我要爬取的页面的链接时,我有点卡住了。
我想我需要先抓取并抓取我需要的所有链接,格式如下:第1页,抓取所有链接,关注第2页>第2页,抓取所有链接,关注第3页*重复该页面X次*>然后一次所有链接都建立了,请关注并抓取我想要的数据。
最好的方法是用一个函数创建一个链表,然后传递给一个函数,遍历它们并抓取数据?
Python
如果每个链接的数据获取是相同的,那么是的。
你会得到这样的东西:
for link in links:
scrape_date(link)
收录您之前抓取的所有页面上的所有链接的链接列表在哪里。
您还可以同时从每个页面上找到的所有链接中获取数据。像这样的东西:
for page in pages:
urls = scrape_urls(page)
data = scrape_date(urls)
其中 pages 是所有页面的列表(第 1 页、第 2 页、第 3 页等)。