excel抓取多页网页数据(功能要求：网络爬虫，可以使用少量的3方库)

优采云发布时间: 2021-11-07 04:12

　　豆瓣爬虫

　　功能要求：

　　1、网络爬虫，可以使用少量的3方库，但最好使用自己的代码

　　2、加分项：使用多线程，注意同步和锁

　　3、在豆瓣()中抓取“互联网、编程、算法”的书籍数据，并展示得分最高的前100名数据（评价人数超过2000人，如果是，则抽取前10名）评价次数小于20000）

　　4、代码和爬取的结果（excel文件）放在github上，链接发给你，然后转发给我。

　　5、所需时间为两天，即本周凌晨5点出结果。

　　大体思路：从初始链接进入，抓取书页，保存到excel文件，然后进入下一页抓取，直到最后一页，抓取完成后，排序，排序规则是评价数超过2000，得分从高到低，如果你不这样编100本书，从评价不超过2000的书中，按分数从高到低加入队列，补100，最后将这100本书的信息输出到另一个excel文件中

　　问题：

　　初始链接：%E4%BA%92%E8%81%94%E7%BD%91+%E7%BC%96%E7%A8%8B+%E7%AE%97%E6%B3%95&cat=1001

　　进入初始链接后，使用多线程抓取所有书籍链接，保存在书籍url列表中查看下一页是否存在，如果找到就跳转到下一页，如果不存在则重复第一步没找到，开始下一步。线程从列表中获取链接，向列表中的每个书页发起请求，获取页信息，抓取书信息，保存到书信息队列中，获取所有书信息，排序排序后，取前一百并输出到excel文档

　　豆瓣书属性：作者s、出版商s、副标题s、原名s、译者s、出版年份s、页数s、定价s、装订s、丛书s、ISBNs、评级d、审稿人数i

0

2021-11-07

excel抓取多页网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

excel抓取多页网页数据(功能要求：网络爬虫，可以使用少量的3方库)

0 个评论

发起人

AI时代内容工厂

excel抓取多页网页数据(功能要求：网络爬虫，可以使用少量的3方库)

0 个评论

发起人

相关问题