分享文章:python采集微信公众号_python采集微信公众号文章

优采云 发布时间: 2022-11-23 17:40

  分享文章:python采集微信公众号_python采集微信公众号文章

  }

  response = requests.get(url, allow_redirects=false, headers=headers, proxies=proxies)

  还:

  response = requests.get(url, allow_redirects=false, headers=headers)

  如果response.status_code == 200:

  返回响应文本

  如果response.status_code == 302:

  # 需要代理

  打印('302')

  代理 = get_proxy()

  如果代理:

  打印('使用代理',代理)

  返回get_html(网址)

  还:

  打印(“获取代理失败”)

  返回无

  除了连接错误为 e:

  打印(“发生错误”,例如参数)

  代理 = get_proxy()

  计数 += 1

  返回get_html(网址,计数)

  #获取索引页内容

  定义get_index(关键字,页面):

  数据 = {

  “查询”:关键字,

  “类型”: 2,

  “页面”:页面

  }

  查询 = urlencode(data)

  网址 = base_url + 查询

  HTML = get_html(URL)

  返回网页

  

" />

  #解析索引页,提取详情页面网址

  def parse_index(html):

  doc = pq(html)items = doc('.news-box .

  news-list li .txt-box h3 a').items()

  对于项目中的项目:

  yield item.attr('href')

  #获取详情页

  def get_detail(url):

  尝试:

  响应 = requests.get(URL)

  如果response.status_code == 200:

  返回响应文本

  返回无

  除了连接错误:

  返回无

  #解析索引页,返回微信文章的标题、内容、日期、公众号名称等

  def parse_detail(html):

  尝试:

  doc = pq(html)

  title = doc('.rich_media_title').text()

  content = doc('.rich_media_content').text()date

  = doc('#post-date').text()

  昵称 = doc('#js_profile_qrcode > div > strong').text()

  微信 = Doc('#js_profile_qrcode > div > p:nth-child(3) > span').text()

  返回 {

  “标题”:标题,

  “内容”:内容,

  “日期”:日期,

  “昵称”:昵称,

  “微信”:微信

  }

  除了 XML语法错误:

  

" />

  返回无

  #存储到mongodb、重复数据删除操作

  定义save_to_mongo(数据):

  如果 db['articles'].update({'title': data['title']}, {'$set': data}, true):

  print('Save to mongo', data['title'])

  还:

  打印(“保存到 MONGO 失败”,数据[“标题”])

  #主函数

  def main():

  对于范围(1, 101)中的页面:

  HTML = get_index(关键字,页面)

  如果 html:

  article_urls = parse_index(html)

  对于article_urls article_url:

  article_html = get_detail(article_url)

  如果article_html:

  article_data = parse_detail(article_html)

  打印(article_data)

  如果__name__ == '__main__':

  主()

  2.config.py 代码:

  #爬取公众号文章

  proxy_pool_url = ':5000/get'

  关键字 = '计算机级别 2' # 输入关键词

  mongo_uri = '本地主机'

  mongo_db = “数据”

  max_count = 5

  其中,config.py 中的关键字是查找的关键词,可以根据需要进行更改。经过实测,“采集

公众号文章.py”操作成功!如果由于限制而失败,则可以运行多次。

  以上就是本文的全部内容,希望对你的学习有所帮助,也希望大家支持万千网络。

  如果你有

  对本文有任何疑问或有什么想说的,请点击回复留言,万千网友将解决您的困惑!

  分享文章:微信编辑器哪个好(微信文章免费编辑器)

  做公众号总是离不开排版工具。每个人都知道排版的重要性。市面上层出不穷的编辑器,让人眼花缭乱。哪个编辑器样式功能最全,使用最方便?下面就带来4款常用微信编辑器的测评,一起来看看哪款微信编辑器好用吧。

  今天挑选了大家常用的4款微信编辑器:96编辑器、135编辑器、秀米编辑器、易办助手。看看它们各自的优点和实用性。

  96个编辑器功能

  1、一键排版:放入内容,应用模板,一键完成所有排版。

  2、导入文章:支持导入公众号、今日头条号、天天速递、百家号、网易号等文章链接,还可以导入W​​ord、PDF格式的文档。

  3、提取封面图和视频:进入公众号文章链接,一键提取封面图和里面的视频。

  4.宣传*敏*感*词*:应用动态模板,替换图片和文字,轻松制作品牌宣传动图。

  5、文章采集

编辑:输入关键词查找相关文章内容,采集

整理,做成自己的内容。

  6、稿件云端保存;自动保存文章的排版内容,方便突发情况下的排版和检索。

  7. 动态画面合成与剪辑:动态画面上传后可进行裁剪,可将多张画面合成为一张动态画面、视频旋转画面等。

  8、生成长图:排版完成后,可以生成长图,也可以转换单独的样式。

  135个编辑器功能

  

" />

  1. 一键排版:您可以应用整套模板进行排版。

  2.图片编辑器:锐化和渲染图片,只适用于静态图片。

  3、文字效果:简体转繁体、文字冒汗等特效。

  4、外网复制:除了复制到公众号外,还可以复制到其他平台。

  5、运营服务:会员企业提供的专项服务。

  缺点:

  很多特殊功能只能会员使用,免费功能比较少。

  秀米编辑器的特点

  1.结构布局:排版结构化处理

  2、H5模板:可以制作H5页面

  3.生成图片:排版内容也可以生成长图

  4.移动排版:移动排版

  

" />

  缺点:

  模板需要购买付费,样式比较少。他们只能进行基本的排版,并且缺少其他编辑器所具有的许*敏*感*词*。

  易伙伴的特点

  1、公众号内嵌排版:直接在官方平台使用。

  2.采集

功能:采集

文章、图片、排版等。

  3、搜索热点:具有搜索热点功能。

  4、查看数据:可以查看文章的相关数据。

  缺点:

  需要下载安装,样式没有其他编辑器丰富。

  功能比较:

  通过以上功能的对比,96编辑器和135编辑器的很*敏*感*词*是相似的,但是从免费用户的易用性来看,96编辑器显然更胜一筹,功能也独具特色。秀米编辑器和易班助手都有排版功能,但其他附加功能很少。不过易伴助手可以直接在公众平台使用,这也是它的特色。

  哪个微信编辑器好用,每个人都有自己的习惯,最重要的是适合自己,能做出满意的排版。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线