网页flash抓取器 70( 关于网站结构优化,内容我自己先是在飞机上看过一遍了)
优采云 发布时间: 2022-04-08 01:24网页flash抓取器 70(
关于网站结构优化,内容我自己先是在飞机上看过一遍了)
本章的主要内容是关于网站的结构优化。去河南的飞机上先看了一遍内容,今天又看了一遍。总体来说我是小白(虽然我也是小白TAT),因为涉及到的专业术语很多,而且还涉及到代码,比较复杂和枯燥。
事实上,我们大多数人使用 shopify 和 wordpress 来构建网站。书中列出了很多我们不会遇到的问题,所以我会尽量集中精力写下来,跳过一些复杂繁琐的事情。
废话不多说,开始吧~
很多人可能不明白 网站 结构是什么。我自己的理解如下:
我们的 网站 实际上是由很多页面组成的。当我们实际上在网络上时,我们正在从一个页面跳到另一个页面——就像我们正在阅读一本书一样。想象一下,我们打开一本书,首先有一个很详细的介绍,告诉我们第一章是什么,第一章的内容是一页一页的。得益于清晰的目录和页面布局,您可以随意转到您想查看的页面。所以如果我把这本书的每一页都撕下来,然后随意粘在一起,这本书看起来会很乱,因为你根本找不到你要找的东西,即使你找到了,也许你读了一页,只是为了发现第二页不是上一页的链接。
所以从上面的例子我们可以看出,我们的网站也应该像一本排版整齐、逻辑清晰的书,第一页是什么,第二页是什么,第一章应该说什么,一定要清楚结构,让进入我们网站的客户可以找到他们想要的内容或产品。
一、网站结构优化的目的
1.用户体验
优化网站结构的主要目的是让用户在访问网站的时候能够清楚的知道自己在哪个页面,页面上有什么内容,如果他们点击进入其他页面怎么办想要。同时需要提到的是,用户在网站上的行为也会被纳入排名算法。
2.收录
一个好的网站结构有利于搜索引擎的收录。我们 seo 的全部目的是尽可能将 网站 页面推广到搜索引擎收录。
3.权重分配
除了外部链接可以给页面带来权重之外,网站本身的结构和链接关系也是影响内部页面权重分配的重要因素。我们必须有趣地规划 网站 所有页面的重要性,然后使用链接结构将更多的权重引导到重要页面。
4.锚文本
锚文本是排名算法的重要组成部分。网站 中的锚文本是我们可以控制的,所以这是增加 关键词 相关性的一种方法。在这方面,我们可以从维基百科中学到很多东西。
二、搜索引擎友好网站设计
如果我们从搜索引擎的角度来看一个网站,搜索引擎在爬取、索引、排名时会遇到哪些问题?而解决这些问题意味着我们的网站对搜索引擎友好。
1.搜索引擎能找到网页吗
为了让搜索引擎蜘蛛找到一个网页,它首先需要有外部链接。而当搜索蜘蛛沿着外部链接进入我们的网站时,如果我们想让蜘蛛爬取我们更多的网页,就必须有一个好的结构。网站 内的所有页面从主页点击不超过 4-5 次。
2.找到页面后能否爬取页面内容?
URL收录的参数太多,整个页面都是Flash,框架结构,可疑的重定向,大量复制的内容可能会让蜘蛛不愿意爬。
3.抓取页面后如何提取有用信息
关键词页面重要位置的合理分布,重要标签的书写,HTML代码的简化,至少兼容性,有助于搜索引擎理解和提炼重要信息。这部分的内容稍后会在“页面优化”上展开。
三、避免蜘蛛陷阱
一些 网站 设计对搜索引擎非常不友好。这些技术被称为蜘蛛陷阱,主要包括以下几种:
1.闪光
绝大多数网页都是Flash,非常不利于搜索引擎抓取和理解页面内容。
2.会话 ID
有的网站会使用session id来跟踪用户访问,会导致URL变化,不利于爬虫爬取。应该使用 Cookie。
3.各种跳跃
搜索引擎不喜欢除 301 重定向之外的任何其他形式的重定向。
4.框架
我不明白对此的解释。但是作者说,如果我不知道什么是取景,那么恭喜,我已经避开了这个陷阱……嗯,第一次被无知祝福。
5.动态网址
网站 的 URL 是数据库驱动的,可以生成带有问号、等号、参数等的 URL。这样的动态 URL 对客户端和蜘蛛一样不友好。
6.JavaScript 链接
使用javascript可以创造出吸引人的视觉效果,但不利于搜索引擎解析。
7.需要登录
网页内容设置为需要登录才能查看。但是爬虫不会填写登录信息,所以只会导致整个页面爬不上去。
8.强制使用cookies
一些 网站 强制用户使用 cookie。如果用户不启用cookies,页面显示将无法正常工作。显然,这也是要避免的。
四、物理结构和链接结构
1.物理结构
物理结构是由网站真实目录和文件的位置决定的结构。
此时我们可以想象我们计算机上的文件夹。
我们经常会在某个硬盘下的某个文件夹中的某个文件夹中存放一些文件。当然,如果这份文件是你的小秘密,你可以把它存储得更深一些……
同理,我们的网站是由网页组成的,每个网页就像一个文件,我们存储在服务器上。所以,一般的物理结构是这样的:
catA/product-a.html
catA/product-b.html
catB/product-a.html
catB/product-b.html
...
2.链接结构
链接结构,也称为逻辑结构,是由网站内部链接形成的网络图。
简单的理解就是我们为网站的不同页面设置了跳转逻辑。比如网站的首页是H,我们指定后,H页面可以跳转到C1和C2页面,C1页面再跳转到P1页面。
其实对于大部分人(比如我的小网站...)来说,我们只需要关心链接结构即可。典型的链接结构是树形结构,如下:
这些代码中的每一个都代表一个 网站 页面。
一个网页的收录是否简单,与页面在链接结构中的位置、离首页有多少点击有关,与目录层次(物理结构)无关。
五、清除导航
清晰导航主要解决这两个问题:
1.让用户知道我现在在哪里
2.让用户知道我接下来要去哪里
从 SEO 的角度来看,网站 的导航系统应该做到以下几点:
1.文本导航
导航使用最常见的 HTML 文本,便于爬取。
2.点击距离和展平
导航是链接所有页面的手,尽可能将所有页面保持在距离主页4.5次点击的范围内。
3.锚文本收录 关键词
考虑在导航中使用关键词,但不要堆叠,2-4个字为宜。
4.面包屑
下图中红框标注的位置可以称为面包屑导航。推荐使用。
5.避免页脚堆叠
建议避免在页脚中堆叠 关键词,这可能会导致搜索引擎惩罚。
六、子域和目录
子域和主域是两个完全不同的网站。主域名获得外链权重,但子域名不会增加。所以对于大多数人(比如我的小网站...)来说,没有必要使用子域。
一个例子如下:
这是两个不同的 网站。
它纯粹是其中的一部分。
七、爬行禁止,收录机制
这一项对于大部分人来说是不需要的(比如我,一个小网站……),所以我只列出来,不详细展开。
有时,我们不希望某些页面被收录(或索引),例如付费内容、仍处于测试阶段的网站,或一些无意义的重复内容。那么我们可以通过以下方式保证页面不被爬取:
1.机器人文件
通过编写 robots 文件,您可以提醒搜索引擎禁止抓取哪些页面。不存在或为空的 robots 文件意味着所有内容都允许被搜索引擎抓取。
但是请注意,robots 文件禁止抓取内容,但该页面的 URL 仍可能被编入索引并出现在结果中。如果您希望该 URL 根本不出现在搜索结果中,则需要使用下面的标记。
2.noindex 元机器人标签
带有 noindex meta robots 标签的页面将被抓取(只要 robots 文件未被禁止),但不会被编入索引 (收录)。
注意:抓取和索引 (收录) 是两个不同的概念。robots文件的作用是禁止爬取,而不是索引,meta noindes的作用是禁止索引(收录)。
3.使用nofollow
nofollow 阻止蜘蛛爬行和传递重量。
外链就像一张信任票,一种权重转移。但是当我们只想建立一个链接,不想传递权重或投信任票时,我们使用nofollow。
一般目的是减少垃圾邮件外部链接。用于博客评论、论坛帖子、社交网站、留言板等。另一个重要用途是广告链接。
八、网址静态
有很多由数据库驱动的网站和程序生成的页面。不像我们平常的小网站,每个页面都是由站长手动创建的。然后 URL 将是动态的,如下所示:
?ct=&z=0&ipn=d&word=%
收录很多参数,不利于搜索引擎爬取。
对于大部分人(比如我,一个小交易者网站...)来说,我们网站的所有页面基本上都是手动创建的,所以基本不存在URL动态问题。所以不会膨胀。
九、网址设计
URL设计应遵循以下几点:
1.网址越短越好
2.避免参数过多
这主要用于动态 URL。尝试使用静态 URL。如果必须使用动态 URL,参数最好在 2-3 之间。
3.目录层次应该尽可能少
这是指物理目录结构。
4.文件和目录名称是描述性的
URL 应该是描述性的,而不是无意义的词。
例如:/finance 比 cd01-z/sub-a 好得多。
5.URL 收录 关键词
URL中出现英文网站关键词,可以稍微增加权重,有利于用户体验。中文网站不必勉强。URL中出现汉字,容易显示为乱码。
6.孩子都是小写
7.连字符用法
搜索引擎将 URL 中的破折号,即连字符 (-) 视为空格,因此单词一般用 (-) 分隔,并且不要使用其他奇怪的符号。
十、URL 规范化
URL规范化是指搜索引擎选择最合适的URL作为真实URL的过程。
例如:
索引.html
这三个 URL 通常引用同一个文件。尽管这些 URL 返回相同的文件(网页),但技术上可以为这些 URL 返回不同的内容。
如果 网站 上同时出现不同版本的 URL,那么搜索引擎 收录 可能会使用两个或多个版本的 URL,这会导致内容重复并导致搜索引擎认为内容质量不高。影响 收录。
解决方法如下;
1.所有内部链接保持一致。网站内部链接使用统一的版本,通常选择带www的版本作为规范URL。
2.在 Google 网站管理员工具中设置您的首选域。
3.使用 301 重定向将所有非规范化 URL 重定向到规范化 URL。
4.使用规范标签,稍后会详细介绍。
5.XML网站提交给搜索引擎的地图始终使用规范的 URL。
十个一、301转
301重定向(或301重定向,301跳转)是用户或蜘蛛向网站服务器发送访问请求时,服务器返回的HTTP数据流头部部分的一种状态码,表示这URL 被永久移动到另一个 URL。
其他常见的状态码如下;
202:一切都很好
404:网页不存在。
302:临时转向。
500:内部程序错误。
URL重定向还有很多其他的方法,但是搜索引擎对除了301重定向之外的其他重定向方法很敏感。
页面 A 使用 301 重定向重定向到页面 B,搜索引擎可以确定页面 A 的地址已经永久更改,或者实际上不存在,搜索引擎会将页面 B 作为唯一有效的目标。页面 A 的权重将转移到页面 B。
除了解决 URL 异常之外,301 重定向还有其他用途:
1.为保护版权,公司拥有多个不同TLD的域名:
为了避免大量重复内容,选择一个主域名,其他域名做301重定向到主域名。
2.比如公司注册了一个全名域名,但是太长不方便客户记忆,所以购买了主域名,另外一个是301重定向到主域名域名。
3.网站的改版,如页面删除、地址变更、URL命名系统变更、域名变更等。
4.动态 URL 也可以执行 301,将旧的动态 URL 重定向到新的静态 URL。
十个一、规范标签
Canonical 标记相当于页面上的 301 重定向。不同之处在于,用户不会被重定向,而是停留在原创 URL 上,而搜索引擎会将其视为 301 重定向,并将页面权重集中在标签中指定的规范 URL 上。. 用于解决 URL 规范化问题。
十个二、复制
重复内容也称为重复内容。指两个或多个具有相同内容或非常相似的 URL。重复可以发生在同一个 网站 或不同的 网站 上。
复制内容的原因:
1.前面讨论的 URL 规范化问题会导致内容重复。
2.代理商或零售商复制产品制造商的产品信息。
3.打印版。许多网站除了提供正常查看的页面外,还提供适合打印的页面版本。
4.网站结构的各种版本。例如,产品列表按价格、评论、上架时间等对页面进行排序。
5.利用Session ID,搜索引擎蜘蛛在不同时间访问网页时给出不同的Session ID,实际网页内容是一样的。
6.页面内容太少。每个页面都有共同的内容,例如导航栏和版权声明。与通用内容一样少的正文内容将导致页面被视为重复内容。
7.转载和抄袭。其他人抄袭或转载您的文章。
8.镜子网站。
9.产品或服务之间几乎没有区别。
10.URL 加上任何代码仍然返回 200 状态代码。
检查页面是否有重复版本的方法:
在页面正文中取出一个句子,加上双引号,在搜索引擎中搜索,从结果中可以看到是否有多个页面收录这句话。一般来说,一个随机选择的句子在另一个不相关的 文章 中完整出现的概率非常低。
复制内容的危害:
大量复制同一网站中的内容会导致权重分散,并可能导致搜索引擎怀疑网站的质量,从而导致处罚。
搜索引擎不会因为 网站 中的少量复制内容而对内容进行处罚或降级。搜索引擎所做的就是从多个页面中选择真正的原创版本,或者用户体验最好的版本。给出应有的排名,其他副本版本不在搜索结果中或排名较低。
一种消除 网站 中重复内容的方法:
1.确保一篇文章文章只有一个对应的URL。
2.不是由于URL规范化产生的同站复制内容,可以选择一个版本允许收录,其他版本使用robots文件禁止爬取,noindex meta robots标签禁止索引,等等。
3.使用规范标签复制内容。
在不同的网站之间复制内容比较麻烦解决,大致有以下三点:
在1.页面添加版权声明,要求转载的网站保留版权声明和原文链接。
2.联系对方,要求添加版权、链接或删除内容,或直接向对方主机、域名提供商或搜索引擎投诉。
3.坚持原创,随着时间的推移,网站的权重会增加,网站上的内容被判断为原创的机率会增加增加。
10二、绝对路径和相对路径
绝对路径是指收录域名的完整 URL。相对路径是指链接页面相对于当前页面的相对URL,不带域名。
只要 网站 正确解析 URL,绝对路径和相对路径本身对排名没有影响。对于大多数人(比如我的小网站...)建议使用绝对路径。
十张三、网站地图
网站地图是必需的,无论大小。主要有两种形式;
1.HTML网站地图,英文为sitemap,s为小写。
网站 地图的 HTML 版本是用户可以在 网站 上看到的页面,列出了指向 网站 上所有主要页面的链接。
2.XML网站地图,英文为Sitemap,大写S。
XML 版本 网站Map 由 XML 标记组成。制作好 XML 映射文件后,有两种方式通知搜索引擎。一种是在站长工具后台提交网站地图文件。二是在robots.txt文件中通知搜索引擎网站map文件位置。
需要注意的是,通知搜索引擎并不能保证一定是收录。XML网站 映射只是辅助方法,不能替代良好的 网站 结构。
十个 四、 内部链接和加权
前面提到的网站结构优化中要解决的最重要的问题包括收录和页面权重分布。对于大多数人(比如我的小网站...)来说,使用经典的树形结构是一种更好的链接和权重分布模型。但是不同的网站的目标是不同的,所以本节主要做一个扩展思路。
1.关键内页
一般来说,网站的首页获得的内链最多,权重最高。然后首页链接到一级分类页面,然后分类依次往下,权重依次递减。
但有时,我们可能希望某个页面有更高的权重,比如一些热销、高利润的产品,或者一些促销页面。解决方案是在主页上添加指向这些关键内页的链接。
2.非必要页面
网站上总有一些页面是用户体验所必需的,而SEO却不是必需的,例如:隐私政策、用户注册页面。如果 网站 上的每个页面都有指向这些页面的链接,那就是在浪费权限。解决方案主要有:
第一种是只在首页显示链接,不链接其他页面。
其次,使指向这些页面的链接不传递权重,使用 Nofollow 标签等。
3.大二级分类
当某些二级品类下的产品数量远大于其他二级品类时,我们通常的做法是列出三级品类。但是这样会导致这些产品页面离首页太远,权重会被稀释。解决的办法就是尽量把这三级分类的链接放在导航或者首页,或者从用户体验的角度,尽量把流行的二级分类放在最前面。
4.页面太多
对于一些大型的业务网站或者信息网站,如果页面太多,就会导致页面太多的问题。网站 会列出“上一页”和“下一页”,但是当页面太多,需要十几甚至几十次点击才能到达时,这些页面基本上不可能是 收录@ > . 解决方案是重新分类页面以减少翻页次数。或者把翻页链接改成其他格式,比如下面这样:
1、2、3、4、5、10、20、30
甚至可以做成两排:
1,2,3,4,5,6,7,8,9,10
20,30,40,50,60
5.单项或多项
多入口是指产品页面的多个链接路径。
优点是它提供了多种渠道来爬取最终页面的收录。东方不亮,西方亮。提供的入口越多,成为收录的机会就越大。
缺点是这些入口页面本身也占用爬取时间和收录页面配额。一个网站的权重大致是固定的,搜索引擎抓取的时间是有限的,收录的总页数也是有限的。要提高整个网站、收录分享的爬取和爬取,必须想办法增加网站的权重。如果 网站 的权重足够高,那么可以驱动的 收录 页数要比实际页数大很多,提供多个条目是最好的办法。
6.相关产品链接
单入口或多入口结构都有一个缺陷,就是过于规整,有时产品页面的某个部分不能是收录。单入口结构更加明显。如果一个分类页面因为导航设计不合理而离首页太远,那么这个分类下的所有产品页面可能都不是收录。或者在博客系统中,发布较早的帖子总是会导致体重随着时间的推移而下降。
解决方法是在产品页面生成相关产品链接。由系统中的某些机制自动生成的其他产品页面的链接。
这种机制的随机性越强,与正常入口的分类差异越大越好。通常的方法是:购买过该产品的用户购买了哪些其他产品;具有统一品牌、制造商、标签等的产品。
相关产品应尽可能随机,以便可以交叉链接否则断开的页面。
7.锚文本分布和变化
最灵活常用的锚文本赋值是在合理的网站结构后,在页面正文中手动或自动添加指向其他页面的链接。这方面要学习的对象就是维基百科。
除了正文,导航中的锚文本也可以更改。顶部导航栏和侧边导航栏可以使用一些语义相似的词作为锚文本,用户一般不会太在意。
8.首页链接 NoFollow
当页面上出现多个指向同一个 URL(如首页)的链接时,第一个链接出现的最重要,而第一个链接的锚文本也是最重要的。
一般页面第一个首页链接是顶部logo,所以logo图片的ALT文本相当于锚文本,需要放在首页目标关键词上。
但是也有人认为图片上的 ALT 文字效果不如真实文字链接锚文本,所以解决方法是在页面上第一次出现的通向首页的链接中添加 NoFollow 属性禁止搜索引擎跟踪。然后将 关键词 作为锚文本链接放在页面上其他合适的位置。
9.深层链接
搜索引擎蜘蛛通过外部链接进入网站后,爬行路线就像往水里扔石头形成的涟漪,从中心向外扩散。因此,为一些离首页较远、不易被蜘蛛抓取的页面适当建几个外链,可以有效解决收录块内所有页面的问题。
十个 五、404 页
当用户访问 网站 上不存在的页面时,服务器通常会返回 404 错误。像这样;
有的站长觉得既然页面不存在,那么301就会转到首页,对搜索引擎不友好,会让搜索引擎觉得上面有很多和首页一样的页面网站。
正确的做法是设计404页面,保持与网站相同的模板样式和logo名称,然后添加网站图、首页链接、推荐页面或搜索框在网站上。
实际上,对于 404 页面,有一个有效的外部链接技巧。
SEO可以在谷歌站长工具的后台看到谷歌抓取了哪些不存在的页面。一般来说,必须有指向该页面的外部链接。然后我们就可以充分利用它,比如联系对方修改地址;通过 301 将错误的地址重定向到正确的页面,或者在不存在的页面上创建一个页面来接收这些权重。
更多。
这篇文章的很多内容其实都是重复的。读完整篇文章,挑出要背的重点。比如关键点是合理的树形结构,所有页面不要离首页太远,尽量保持在4-5次点击以内,深度页面建立外链等等……
本章的所有内容都已写完。根据我自己的情况,我把一些不必要的知识点去掉了,尽量保持完整和重点突出。我已经打字五六个小时了。如果对你有帮助,记得点赞。下篇文章见~
: 傻瓜式声音和破碎的想法