excel抓取多页网页数据(功能要求:网络爬虫,可以使用少量的3方库)
优采云 发布时间: 2021-11-07 04:12excel抓取多页网页数据(功能要求:网络爬虫,可以使用少量的3方库)
豆瓣爬虫
功能要求:
1、 网络爬虫,可以使用少量的3方库,但最好使用自己的代码
2、 加分项:使用多线程,注意同步和锁
3、 在豆瓣()中抓取“互联网、编程、算法”的书籍数据,并展示得分最高的前100名数据(评价人数超过2000人,如果是,则抽取前10名)评价次数小于20000)
4、 代码和爬取的结果(excel文件)放在github上,链接发给你,然后转发给我。
5、 所需时间为两天,即本周凌晨5点出结果。
大体思路:从初始链接进入,抓取书页,保存到excel文件,然后进入下一页抓取,直到最后一页,抓取完成后,排序,排序规则是评价数超过2000,得分从高到低,如果你不这样编100本书,从评价不超过2000的书中,按分数从高到低加入队列,补100,最后将这100本书的信息输出到另一个excel文件中
问题:
初始链接:%E4%BA%92%E8%81%94%E7%BD%91+%E7%BC%96%E7%A8%8B+%E7%AE%97%E6%B3%95&cat=1001
进入初始链接后,使用多线程抓取所有书籍链接,保存在书籍url列表中查看下一页是否存在,如果找到就跳转到下一页,如果不存在则重复第一步没找到,开始下一步。线程从列表中获取链接,向列表中的每个书页发起请求,获取页信息,抓取书信息,保存到书信息队列中,获取所有书信息,排序排序后,取前一百并输出到excel文档
豆瓣书属性:作者s、出版商s、副标题s、原名s、译者s、出版年份s、页数s、定价s、装订s、丛书s、ISBNs、评级d、审稿人数i