网页文章自动采集(知乎平台自己的知乎账号(pc端)以及公众号内容)
优采云 发布时间: 2022-01-30 16:02网页文章自动采集(知乎平台自己的知乎账号(pc端)以及公众号内容)
网页文章自动采集当前网络上各类新闻、博客、评论等信息的时候,一方面需要读者长时间地耐心阅读网站不断更新的新闻来发现自己想要了解的新闻,另一方面需要读者收集新闻信息并推荐给其他读者。直接实现知乎文章自动采集,节省读者的时间,顺便提升知乎平台的健康度。本项目中需要用到的知乎平台自己的知乎账号(pc端)以及公众号的内容。
具体代码如下:#-*-coding:utf-8-*-importrequestsimportreimportrandom#author:dragospeak@zg5tzz@word_break="[^/~chinese.php>http/1.1]()"""#从链接中提取api地址defget_api_url(self):"""获取知乎官方回答的api地址"""#返回结果最终是一个全局的对象,保存在变量results中#简单对base64做一些转换,得到数字x,y,zcsv=requests.get(url=self.get_api_url,headers={'user-agent':'mozilla/5.0(windowsnt6.1;win64;x64)applewebkit/537.36(khtml,likegecko)chrome/60.0.2716.250safari/537.36'}).text#下载知乎官方回答,具体可以参考官方地址defbase64_url_from_text(self):results=csv.reader(csv_path)#text=csv.reader(csv_path)#转化base64为二进制格式results=base64_url_from_text(self.base64_url_from_text(csv['text']))ifresults==none:returnnone#需要自己手动把api_url字符串传进去defparse_api_url(self):"""从链接中提取各种链接和参数"""#获取“获取知乎热门问题”classauthor:def__init__(self,id):self.id=idself.headers={'user-agent':'mozilla/5.0(windowsnt6.1;win64;x64)applewebkit/537.36(khtml,likegecko)chrome/60.0.2716.250safari/537.36'}self.text='去寻找知乎上所有的优质问答吧'#获取对应的优质回答if__name__=='__main__':results=get_api_url(self.author)else:print('获取失败')获取知乎热门话题的api地址defget_kolleruan_post(self):"""从链接中提取各种链接和参数"""if__name__=='__main__':classauthor:def__init__(self,id):self.id=id。