文章自动采集插件采集的数据主要有哪些信息？(图)

优采云发布时间: 2021-07-22 06:01

　　文章自动采集插件采集的数据主要有以下信息：图片标题，图片alt，第一页和以后所有页面的image，网站地址和返回页，

　　那个是人家已经上传的图片，通过正则表达式把图片描述信息提取出来，还有pdf的话，

　　python可以识别url找出图片所在位置

　　(二维码自动识别)有个叫python学习大本营的应该可以，里面有基础内容的分享，

　　百度学术。

　　使用现成的爬虫库就行了，就比如说qq群爬虫库，你想要去哪里就去哪里呗。

　　这个爬虫就有点难了

　　还是用python，flask之类的比较适合，

　　百度学术可以搜到，找好你要的内容和图片的url再去找对应的api接口就可以了。

　　有的微博可以查看微博信息，有的可以识别图片。知乎图片显示。最近比较火的："我们的博客地址"点进去，

　　百度学术和jiathis，

　　抓取这种活需要什么工具，直接抓去呗，这些一年前都做过了，

　　推荐python-for-spider

　　腾讯大家的微信icon抓取了

　　网站数据我用doubanicon很轻松的就抓了

　　我认为还是要去搜索引擎爬吧，一般情况爬下来都是结构化的，

0

2021-07-22

文章自动采集插件

0 个评论

要回复文章请先登录或注册