百度百科爬取攻击该工具需要使用,等使用方法
优采云 发布时间: 2021-08-10 19:12百度百科爬取攻击该工具需要使用,等使用方法
百度百科爬行攻击
本工具需要使用MySQL、redis等,使用方法如下: 使用scrapy抓取百度百科,包括词、词摘要、基本信息、摘要链接、内容等,并保存到baike.json文件在根目录1.需要安装myslq数据库然后运行baike/mysql/test.py文件创建数据库表2.进入命令行运行scrapy crawl baike,然后3.所有相关信息可以保存到./baike.log以备后用,控制台不显示运行信息4.输出数据保存在baike/spiders/baike.json下,例如每行一个条目,多义词信息如下: {"title": "百度百科:多义词", "url": "百度百科: 多义词", "summary": "\n在百度百科中,当条目名称相同时可以参考对于不同含义和概念的事物,这个词条就叫做多义词。例如词条“apple”,两者都是an代表一种水果,也可以指苹果,所以“苹果”是一个多义词。\n", "summarylinks": [["百度维基"], ["/item/百度维基"]], "basicinfo ": [[], []], "content": "", "contentlinks": [["义项"], ["/item/义项"]]}5.在baike/mysql/json_test. py 是 团队生成的 baike.json 的相关调试
立即下载