seo外链工具源码(本文的主要内容有哪些呢?如何自动化地使用?)
优采云 发布时间: 2022-04-10 12:31seo外链工具源码(本文的主要内容有哪些呢?如何自动化地使用?)
1、这篇文章的主要内容是什么?
(1)从日志分析看是否有黑链,网站的哪些意外页面被百度蜘蛛抓取,是否有黑链。(这个可能要先卖掉,因为这又是一个大工程,这个题目会提一些)
(2)百度站长工具外链分析,看是否有垃圾外链、黑链接等,以及链接到网站的位置,如何处理。(这个问题也有介绍)
(3)百度站长工具链接分析三死链(内链死链、外链死链、内链死链)、批量下载数据、合并数据、excel操作、按逻辑分类、定位问题、处理(定位加工,材料不够,因为处理了很多,没有材料==|||||)
(4)分析这些数据得到的其他与SEO性能相关的信息(垃圾搜索引擎,垃圾外链带来的无用爬取,资源配额浪费,如何拒绝。)
(5)如何自动使用shell脚本定位百度蜘蛛抓到的死链接,审核,然后自动提交判断为死链接的url。(本期话题太多,离开为下一个主题)
(6)分析工具介绍(firefox设置、插件、excel、windows命令提示符批处理)
2、本文使用的主要工具
(只是示例的组合,如果有其他类似功能的工具,请根据自己的习惯使用)
[浏览器] 火狐(Firefox)浏览器,版本无所谓
[插件]:启动剪贴板
功能:一键打开剪贴板中已有的URL。(注意URL中只能有英文数字的标点符号,如果有中文可能无法识别)。快捷键:alt + shift + K(先复制单个或多个网址)
设置:打开选项设置,选择下载文件自动保存的位置(我这里选择的是桌面,你也可以单独创建一个文件夹对批量下载的文件进行分类)
【表单处理】:Microsoft Office 2013 Excel
【文字处理】:记事本++
【批处理】:Windows自带命令提示符
一、我们可以先看外链分析。
分析外链数据的主要目的是找出垃圾外链,主动阻断垃圾外链可能对网站造成的不良影响。最终目标:
1、找到垃圾外链的域名,并进行防盗链处理(对于垃圾域名的来源,直接返回404状态码);
2、处理站点内可能存在问题的页面。
在这里,我将重点介绍第一点;第二点比较简单,我会比较粗略的解释一下。
1、定位垃圾邮件域。
图注:可以看到这是一个明显异常的趋势图
我们可以下载外链数据进行初步分析。
图例:下载的表格文件(csv逗号分隔符)
然而,这样的原创数据很难分析。所以,我们需要按照一定的逻辑来分析,就是按照【链接的网页url】进行分类。
首先,我们可以快速浏览一下,做出直观的判断。这些页面最多的是哪些页面?
对于我们的网站情况,外链数据分为两类,正常外链和垃圾外链。
垃圾外链分为两种:内部搜索结果页面(垃圾搜索词)和黑客植入的黑链接(已作为死链接处理)。
我们的数据处理有两个目的:识别哪些是正常的外链,哪些是垃圾外链,并根据垃圾外链的相关数据进行一些处理,以保护网站;链接指向的页面不会被搜索引擎爬取(浪费爬取配额)并被收录/索引(保证网站的词库不被污染,不会带图片和图像到 网站)。关键词 负面影响)。
第一步,过滤掉网站的搜索结果页面
图例:过滤数据,复制到新工作表,删除原工作表中过滤后的数据,对数据进行分类
还有几类搜索链接格式,都以相同的方式处理。
然后对原创工作表(空白行)中剩余的数据进行去重,得到剩余的链接信息。
图例:对剩余数据执行简单的重复数据删除。
然后,我们需要筛选黑链。黑链的数据一般需要先从网站日志中分析(这个是最全面的,为了保证效率,需要使用shell脚本自动运行,不过也涉及到空间很大,我以后会在主题中解释)。
当然,你也可以将表格中的【链接网页url】列按顺序排列,并排分析(自己打开,黑客会使用一些特殊的方法来阻止我们识别出真实的被搜索引擎识别,垃圾内容最常见的情况就是使用js跳转,这样我们通过浏览器访问时看到的内容完全不同,而搜索引擎爬取的时候会下载垃圾。)
这时候我们需要使用一个firefox插件【No Script】,目的是屏蔽网站上的js,看看类似搜索引擎的东西。
图例:在浏览器中阻止 javascript 的插件