通过关键词采集文章采集api(搜狗链接提交工具为站长提供链接)

优采云 发布时间: 2021-10-18 14:10

  通过关键词采集文章采集api(搜狗链接提交工具为站长提供链接)

  大哥要什么,估计用不着吧,哈哈哈!!!

  之前这个人渣写了很多百度提交的工具脚本收录。这里分享一下搜狗链接提交工具脚本Gou。与百度api提交不同,搜狗的提交是网页提交,限制为20个。条码打印一次,必须同时输入code。你害怕的可能性大吗?!还是因为服务器资源不足?!

  

  链接提交:

  链接提交工具为站长提供了一个链接提交通道,帮助搜狗蜘蛛抓取你的网站。您可以通过本工具提交您想成为搜狗收录的链接,搜狗将按照自己的标准进行处理,不保证您提交的收录内容得到保障。

  工具地址:

  限制:

  您一次最多可以提交 20 个链接,每行一个;

  仅支持提交页面对应链接,不支持以sitemap形式提交文件。

  

  与百度搜索提交不同的是,需要输入验证码。关键是这个验证码的处理!

  要点1.session的使用

  既然需要提交验证码,就需要维护一个会话链接,直接使用请求的会话即可!

  #实例化session

session = requests.session()

  2.验证码处理

  这个人渣粗心大意,以为验证码只是一个png图片,直接下载就行了。没想到搜狗的验证码图片是svg格式的,但是不干扰处理。原理还是一样的,直接下载就好了,然后转换格式,这里适用于python的第三方库:cairosvg!

  cairosvg 库安装:

  pip install cairosvg

  如何使用 cairosvg 格式化和 svg 到 png,

  cairosvg.svg2png(

        url="code.svg", write_to="code.png")

  但是需要注意的是,有一个错误需要处理。好在大佬们已经给出了完美的解决方案!

  需要安装gtk2-runtime-2.24.33-2021-01-30-ts-win64.exe,同时重启编辑器!

  

  具体解决方法可以查看:python将svg html转换为png图片

  附上gtk2-runtime-2.24.33-2021-01-30-ts-win64.exe安装包,文末提供!

  3.获取验证码

  获取验证码其实很简单,和访问下载一样!

  code_url="https://zhanzhang.sogou.com/api/user/generateVerifCode?timer=1626862066472"

r=session.get(url=code_url,headers=headers,timeout=5)

with open('code.svg','wb')as f:

    f.write(r.content)

    print("下载验证码成功!")

  4.显示验证码图片,手动编码

  展示验证码图片,这里应用的是第三方库PIL!

  from PIL import Image

im = Image.open('code.png')

im.show()

code=input("请输入验证码:")

  Python提交效果:

  

  提交成功:

  

  错误的验证码:

  

  扩张

  如果要实现自动,即自动编码,可以考虑第三方编码接口,或者使用深度学习!

  我没试过这里的人渣。可以试试上面人渣推荐的百度ocr界面。当然是付费的,但是新用户有一定的权限,相信够用了!

  演示脚本源代码

  涵盖验证码获取和手动编码

  建议学习思考

  完整的脚本工具源代码免费提供

  获得方法

  

  转发这条推文到朋友圈截图

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线