分享:Python 微信公众号文章爬取 简单记录一下
优采云 发布时间: 2022-12-16 20:43分享:Python 微信公众号文章爬取 简单记录一下
首先,看网上的各种资料。个人觉得采集通过微信公众号平台图更方便(因为我有微信公众号)
二是通过各种方式借鉴网上前辈的经验,微信公众平台这几年变化不大,界面也没有变化。
三、登山方法
1、微信公众号登录页面:微信公众平台
登录只需要设置headers(当然还需要账号密码),登录后获取cookies
header = {
"HOST": "mp.weixin.qq.com",
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}
2.搜索微信公众号接口地址:
打开搜索微信公众号的接口地址,需要传入相关参数信息如:cookies,params,headers
Cookies取自第一步的header,并设置第一步的params:
params 有三个变量 token 随机查询
random是一个随机数,可以通过导入python自带的random来解决
query是你需要爬取的公众号名称
token:登录后可获取token
params= {
'action': 'search_biz',
'token' : token,
'lang': 'zh_CN',
'f': 'json',
'ajax': '1',
'random': random.random(),
'query': query,
'begin': '0',
'count': '5'
}
这一步获取公众号的fakeid,
3、微信公众号文章接口地址:
这个url需要传入cookies headers参数,
cookie header 同上,params 如下所示
token同上,random为随机数 fakeid为上一步得到的fakeid
Berig是起始页,如果需要按页爬取可以写一个循环。
params = {
'token': token,
'lang': 'zh_CN',
'f': 'json',
'ajax': '1',
'random': random.random(),
'action': 'list_ex',
'begin': 起始页,
'count': '5',
'query': '',
'fakeid': fakeid,
'type': '9'
}
这个url传递这些参数后就可以得到文章。
四、源码地址
Python微信公众号文章爬取-Python文档资源-CSDN下载
分享:怎么做好伪原创文章(图文原创与伪原创的方法有哪些)
本文阅读提示:图形原创和伪原创的方法有哪些,在哪里可以找到要伪原创文章,以及如何伪原创更改原创
如何做好伪原创文章,1:标题修改
1:如何写文章的标题。
标题修改是为了模仿人们的搜索习惯,而新的文章标题更容易被搜索引擎抓取,有利于收录。
2:在标题中添加逗号ecshop文章SEO。
如何写文章标题:如何
写文章标题 SEO 如何优化文章
4:揭开文章标题如何编写以优化SEO的神秘面纱。
内部
SEO中的链接和反向链接属于同一主题,文章标题需要收录此关键词。
如何优化文章标题:文章如何写标题更有利于SEO优化
[一]:关键词分析方法
关键词分析方法
同义词分析可分为现场关键词和非现场关键词。搜索引擎优化文章标题
异地优化搜索引擎优化评估
页面SEO优化关键词:如何写文章标题更有利于SEO优化
(1)从结构优化网站的角度,关键词分析方法
(2)网站标题收录关键词,建议加粗一些关键词
(3)页面上的关键词统一出现在文章
(4)内容收录不同的关键词,但强调数量不应超过3个,JS标签URL标签
alt 属性强调关键词
收录在内容中,并且 alt 属性必须收录关键词
(5)网站导航,301站点地图
在 alt 属性中,选择关键词应重点突出并具有明确的目的
(6)在内容页面上,关键词文章的第一段和最后一段
(7)文章有关键词,出现得体但不影响阅读
(8)关键词密度,也可以设置为500个汉字。但不要刻意存放关键词影响阅读
3.文章内容,标题
关键词最好地体现在当前页面内容、频道页面标题、文章标题上,文章开头都能很好地体现
(1)描述反映关键词,可以参考百度搜索资源平台设置描述标签。
(2)描述中体现关键词可以加深搜索引擎对网站的信任
(3)在描述中放入关键词,以提高整体
相关文章