网页flash文本抓取器(Scrutiny8forMac如何评估网站URL的源?8)
优采云 发布时间: 2022-01-21 10:04网页flash文本抓取器(Scrutiny8forMac如何评估网站URL的源?8)
Scrutiny 8 for Mac 是很多 网站 站长使用的网页优化工具,使用 Scrutiny 8 for Mac 可以帮助您检查 网站 中收录的每个链接的状态以提高其质量,提高您的排名网站 并为您的访问者提供更好的用户体验 它带有一个 网站 管理员,您可以在其中轻松输入要开始评估 URL 的 网站 的来源。下面我们来看看网页优化工具 Scrutiny 8 for Mac 的常见问题。
网页网页优化工具 Scrutiny 8 for Mac 常见问题
如果您的扫描结果不符合预期,请查看答案是否在这里。
爬取完成时只报告了一个链接
快速测试 - 关闭浏览器中的 javascript 和 cookie 并尝试重新加载页面。如果您没有按预期看到您的页面,则您的 网站 需要启用一项或两项。这些选项位于站点设置和高级选项卡下的选项下。
首先要尝试将用户代理字符串切换到 Googlebot(这是首选项中的第一项,第一个选项卡,您应该能够从下拉列表中选择 googlebot)。如果这不起作用,请切换到“真正的”浏览器用户代理字符串之一,即 Safari 或 Firefox。
现在,审查现在有一个工具来帮助诊断此类故障。它可能会预测问题并在尝试爬网后为您提供诊断窗口。如果您拒绝或没有看到该报价,您仍然可以从“工具”菜单“启动 URL 的详细分析”中访问该工具。(无论抓取是否成功,此工具都可以从菜单中获得)。它显示了很多内容,包括加载了 Scrutiny 接收到的页面的浏览器窗口、html 代码本身以及请求/响应的详细信息。
页面超时/Web 服务器停止响应/509/429/999 状态码
这并不少见。一些服务器会同时响应许多请求,但其他服务器会遇到问题,或者如果受到相同 IP 的轰炸,可能会故意停止响应。
引入延迟的解决方案。从版本 8 开始,Scrutiny 可以更优雅地处理它。现在线程滑块上方有一个控件,可让您指定每分钟的最大请求数。
您无需对超时和延迟进行任何数学计算;这不是“每个线程”。Review 将根据您设置的线程数对事物进行计数(使用一些线程将有助于保持事物顺利运行)。如果它符合您指定的最大请求,它将减少线程数。
如果您的服务器响应缓慢,您可以增加超时时间。
据我们所知,999 是 LinkedIn 特有的,它们似乎在阻止自动检查器和机器人方面非常成功。如果您真的不想在结果中使用这些代码,唯一合理的方法是设置规则以忽略或不检查它们。
审查似乎抓取了比现有/扫描更多的页面而没有接近完成
Scrutiny 可能陷入循环的原因有很多。查询字符串中很可能存在某种会话 ID 或跟踪 ID,这使得每个 URL 看起来都是唯一的,甚至是对同一页面的重复访问。这可能是一个论坛/讨论区。一个简单的解决方案是使用“忽略查询字符串”设置。
如果您必须允许查询字符串,因为其中有一个页面 ID,Scrutiny 可以选择只忽略会话 ID(或其他单个参数)。
浏览器中显示正常的链接会报404或其他错误
这发生在 http:// 链接和 https:// 链接都出现在 网站 上的某些服务器上。似乎有些服务器不喜欢对 http 和 https url 的快速请求。尝试从 https:// url 开始并将 http:// 链接列入黑名单(制定规则“不要检查收录 http://”的 url)并查看 https:// 链接是否返回正确的代码。
更改首选项中的用户代理字符串也是值得的,服务器有时会对浏览器不感知的 UA 字符串做出不同的响应,尽管版本 8 会自动使用其他设置进行一定数量的重试
[Social 网站 即 Youtube、Facebook] 的链接在 Scrutiny 中被报告为错误链接或错误,但链接在我的浏览器中可以正常工作吗?
在您的浏览器中,退出相关的 网站,然后访问该链接。然后您将看到 Scrutiny 看到的同一页面,因为默认情况下它不会尝试进行身份验证。
如果您看到一个页面显示“您需要登录才能查看此内容”,那么这就是答案。如果网页要求您登录,网站 是否应该返回 404 是有争议的,但这应该与相关的 网站 一起使用。
你有几个选择。您可以在 Scrutiny 中打开身份验证和 cookie(并使用这些复选框右侧的按钮登录)。您可以设置规则,使 Scrutiny 不会检查这些链接,或者您可以更改社交 网站 上的*敏*感*词*,以便每个人都可以看到内容。
如果问题是 LinkedIn 链接给出状态 999,那么这是另一个问题,LinkedIn 正在检测自动请求并发送 999 代码以示抗议。避免这种情况的唯一方法(据我所知)是严格限制审查(参见上面的“页面超时/网络服务器停止响应”),但这会严重减慢扫描速度,所以最好设置一个规则来忽略 LinkedIn链接
限制
如果您的站点是一个较大的站点,那么对处理器和 HD(虚拟内存)的内存使用和需求将会增加,因为爬取页面列表和检查链接需要更长的时间。
在过去的几个版本中,审查变得更加高效,计算机容量也在增长,但如果 网站 足够大(数百万个链接),应用程序最终会耗尽资源,显然无法继续。
- 确保 Integrity 不会因为查询字符串中的会话 ID 或日期而进入循环或多次爬取同一页面 - 您可以在设置中关闭查询字符串,但请确保您正在抓取的内容不是“由查询字符串”中的信息控件(例如页面 ID)
- 看看你是否正在抓取不必要的页面,如留言板。为了完整性和审查,一个使用良好的留言板可能看起来像数千个独特的页面,它会尝试列出并检查所有这些页面。同样,您可以通过将某些 URL 或查询字符串列入黑名单或忽略查询字符串来排除这些页面。
- 您可以部分抓取 网站。您可以通过子域扫描、按目录扫描或使用黑名单或白名单来执行此操作。
暗示:
如果您从子域开始(例如),如果您关闭“考虑根域内的子域”设置,则扫描将仅限于该子域
如果您从“目录”开始(例如,/engineering)
如果您创建仅遵循收录 /manual/ 的链接的白名单规则,则扫描将仅限于该目录,并且扫描将仅限于收录该片段的 URL。
我在我的网页上使用 Google 广告,但不想点击我的 IP 地址中的那些广告
您页面上的 Google Adsense 代码只是一段 javascript,不收录广告或链接。当浏览器加载页面时,它会运行 javascript,然后将广告拉入。严格审查不会运行 javascript(仔细检查渲染页面(运行 javascript)选项是否已关闭),因此它不会看到任何广告或在其中找到链接。
显示为“”的链接被报告为错误,但是当我在浏览器中单击它时,它工作得很好
有时链接在 html 中写为“../mypage.html”。../ 表示该页面可以在上面的目录中找到,只要链接在站点深处即可。如果它出现在该表单的顶级页面上,那么它在技术上是不正确的,因为没有人应该有权访问您的域名上方的目录。浏览器倾向于容忍这种情况,并假定链接应该指向您的 网站 的根目录。默认情况下,Scrutiny 不会做出此假设并报告错误。从 v6.8.1 开始,首选“tolerate../propagate on top of domain”(常规选项卡)
使用非 ascii 或 unicode 字符的链接被报告为错误,但是当我在浏览器中单击它时,它工作得很好
Integrity 和 Scrutiny 现在可以处理 URL 中的非 ascii 字符。
Scrutiny 现在支持国际化域名 (IDN),它使用标准的 punycode 编码/解码方法来处理这个问题。请注意,可以使用“相似”字符(单应性攻击/脚本欺骗)制作 IDN。浏览器有不同的方法来防御/防止这种情况,这可能是在浏览器中使用链接和审查结果之间的差异。
请注意,“unicode 规范化”是一种用更常见的等价物替换一些相似字符或考虑等价物的系统。默认情况下,此选项在 Scrutiny 中打开(首选项 > 链接 > 高级)。在浏览器和 Scrutiny 中表现不同的链接(特别是如果它开始在 Scrutiny 中关闭规范化)可能表明您的链接 URL 存在可疑之处。
列表中的红色和橙色是什么意思?
为了检查链接,Scrutiny 发送一个请求并从您的服务器接收一个状态代码(200、404 等等)。
“状态”列告诉您代码。200 代码表示链接良好,300 表示您可能需要了解的内容(通常是重定向)但链接仍然有效,400 代码表示链接错误且页面无法访问,500 表示服务器有某种错误。所以数字越高,越关注错误。仔细检查这些(默认情况下)白色、橙色和红色。
如果您不关心重定向,可以在首选项(链接选项卡)中关闭橙色。您还可以在首选项(常规选项卡)中选择不同的颜色,甚至完全关闭此颜色
(这里有所有可能的状态代码的完整列表:)但是 Scrutiny 确实可以帮助您描述状态和代码编号。
为服务器上不存在的链接显示 200
您的提供商可能会认识到这一事实并插入自己的页面(可能带有搜索框和一些对他们有利的广告)并返回 200 代码。他们称它为有用的服务,但当我们试图找到坏链接时它并没有帮助我们。
您可以要求服务提供商将其关闭(通过他们在 网站 上的页面或联系他们)。如果不是,您可以使用“软 404”功能对这些 URL 造成问题。这是对问题和解决方案的更长解释。
它崩溃了
据我们所知,这种情况很少见,当它发生时,我们真的很想知道。请通过使用此表格发送一些详细信息来帮助我们。
崩溃报告中的详细信息可能会有所帮助,请尽可能发送。比报告本身更重要的是我们需要做什么才能遇到同样的问题。
运行时审查会占用磁盘空间
这应该只适用于非常大的站点,从版本 6 开始,Integrity 和 Scrutiny 将减少资源密集型。以下是一些使审查更有效的措施。
转到您网站的设置,选项选项卡,有四个标记为“这些选项可能对资源有严重影响”的复选框 - 如果可以,请取消选中它们,尤其是语法检查和关键字分析。
确保 javascript 选项已关闭。这仅应在收录链接的页面内容由 javascript 生成的极少数情况下使用。它位于“高级”选项卡上的站点设置中(“渲染页面(运行 javascript)”)
抓取时也可以取消选中设置>选项>存档页面,然后在内容>首选项>搜索引擎优化>计量如果选中任何这些框,审查必须缓存页面内容。根据页面的大小和数量,这可能意味着很大的空间。除非您在扫描后保存存档,否则当您退出或失败时,此缓存将在您开始下一次扫描时被删除。
如何获取我的 Wix网站
Wix 对 javascript/AJAX/Flash 的依赖使得网络爬虫(以及不使用常规最新浏览器并启用 js 的任何人)变得非常困难。不建议将其作为可访问且经过 SEO 优化的 网站。如果您确实需要扫描 Wix 站点,Scrutiny 现在应该检测到 Wix 站点并采取必要的措施来正确抓取它。
以上就是网页优化工具Scrutiny 8 for Mac的常见问题,希望能解决大家在使用Scrutiny 8 for Mac时遇到的一些问题。