百度网页关键字抓取(【知识点】该工具需要使用mysql,等使用方法)

优采云 发布时间: 2022-03-07 02:08

  百度网页关键字抓取(【知识点】该工具需要使用mysql,等使用方法)

  本工具需要用到MySQL、redis等,使用方法如下: 使用scrapy爬取百度百科,包括单词、单词摘要、基本信息、摘要链接、内容等,保存到baike.json根目录下的文件1.需要安装myslq数据库然后运行baike/mysql/test.py文件创建数据库表2.进入命令行运行scrapy crawl baike到< @3.将所有相关信息保存到./baike.log以备后续使用,控制台不会显示运行信息4.输出数据保存在baike/spiders/baike.json下,每行一个条目为,例如多义信息如下: {"title": "百度百科:多义", "url": "百度百科:多义", "summary":"\n在百度百科中,当同一个词条名称可以指代不同含义概念的事物时,该词条称为多义词。例如词条“Apple”既可以代表水果,也可以代表苹果公司,所以“apple”就是多义词.\n", "summarylinks": [["百度百科"], ["/item/百度百科" ]], "basicinfo": [[], []], "content": "", "contentlinks" : [["item"], ["/item/item"]]}5.在baike /mysql/json_test.py 有组生成baike.json 相关调试\n", "summarylinks": [["百度百科"], ["/item/百度百科"]], "basicinfo": [[], []], "content": "", "contentlinks": [["item"], ["/item/item"]]}5.在baike /mysql/json_test.py 有组生成baike.json 相关调试\n", "summarylinks": [["百度百科"], ["/item/百度百科"]], "basicinfo": [[], []], "content": "", "contentlinks": [["item"], ["/item/item"]]}5.在baike /mysql/json_test.py 有组生成baike.json 相关调试

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线