通过关键词采集文章采集api(搜狗链接提交工具为站长提供链接)
优采云 发布时间: 2021-10-18 14:10通过关键词采集文章采集api(搜狗链接提交工具为站长提供链接)
大哥要什么,估计用不着吧,哈哈哈!!!
之前这个人渣写了很多百度提交的工具脚本收录。这里分享一下搜狗链接提交工具脚本Gou。与百度api提交不同,搜狗的提交是网页提交,限制为20个。条码打印一次,必须同时输入code。你害怕的可能性大吗?!还是因为服务器资源不足?!
链接提交:
链接提交工具为站长提供了一个链接提交通道,帮助搜狗蜘蛛抓取你的网站。您可以通过本工具提交您想成为搜狗收录的链接,搜狗将按照自己的标准进行处理,不保证您提交的收录内容得到保障。
工具地址:
限制:
您一次最多可以提交 20 个链接,每行一个;
仅支持提交页面对应链接,不支持以sitemap形式提交文件。
与百度搜索提交不同的是,需要输入验证码。关键是这个验证码的处理!
要点1.session的使用
既然需要提交验证码,就需要维护一个会话链接,直接使用请求的会话即可!
#实例化session
session = requests.session()
2.验证码处理
这个人渣粗心大意,以为验证码只是一个png图片,直接下载就行了。没想到搜狗的验证码图片是svg格式的,但是不干扰处理。原理还是一样的,直接下载就好了,然后转换格式,这里适用于python的第三方库:cairosvg!
cairosvg 库安装:
pip install cairosvg
如何使用 cairosvg 格式化和 svg 到 png,
cairosvg.svg2png(
url="code.svg", write_to="code.png")
但是需要注意的是,有一个错误需要处理。好在大佬们已经给出了完美的解决方案!
需要安装gtk2-runtime-2.24.33-2021-01-30-ts-win64.exe,同时重启编辑器!
具体解决方法可以查看:python将svg html转换为png图片
附上gtk2-runtime-2.24.33-2021-01-30-ts-win64.exe安装包,文末提供!
3.获取验证码
获取验证码其实很简单,和访问下载一样!
code_url="https://zhanzhang.sogou.com/api/user/generateVerifCode?timer=1626862066472"
r=session.get(url=code_url,headers=headers,timeout=5)
with open('code.svg','wb')as f:
f.write(r.content)
print("下载验证码成功!")
4.显示验证码图片,手动编码
展示验证码图片,这里应用的是第三方库PIL!
from PIL import Image
im = Image.open('code.png')
im.show()
code=input("请输入验证码:")
Python提交效果:
提交成功:
错误的验证码:
扩张
如果要实现自动,即自动编码,可以考虑第三方编码接口,或者使用深度学习!
我没试过这里的人渣。可以试试上面人渣推荐的百度ocr界面。当然是付费的,但是新用户有一定的权限,相信够用了!
演示脚本源代码
涵盖验证码获取和手动编码
建议学习思考
完整的脚本工具源代码免费提供
获得方法
转发这条推文到朋友圈截图