php用正则表达抓取网页中文章( 网站seo优化过程中会涉及到路径的指向问题。)
优采云 发布时间: 2022-02-05 13:10php用正则表达抓取网页中文章(
网站seo优化过程中会涉及到路径的指向问题。)
在网站seo优化的过程中,会涉及到路径指向的问题。网站中的同一个网页只对应一个URL(URL)。标准化简单的url有助于搜索和爬取用户记忆,拒绝多条路径,指向同一个页面,防止网页获取权重分散。网站移动终端建立后,需要对URL进行处理,使PC和移动终端的访问路径一一对应,从而实现正确适配。
多路径的危险
多条路径指向同一个页面
搜索引擎将选择其路径标准之一,这可能不是您希望在搜索 收录 时被捕获的路径。一般来说,不带www的域是整个域名的域,带www的域是这个域的子域。后面会解释要选择的席位的主域名。
不同的 URL 引用相同的内容页面。
结果分散了页面的权重。具有相同页面的两个页面有被视为作弊的风险,必须小心处理。
1.做了伪静态路径,动态路径没有用ROBOTS.TXT屏蔽,导致路径重复
2.四个路径都可以访问网站的主页
//域名
//主域名(二级域名)
//域名空间下的index.html文件
//域名空间下的index.php文件
路径规范化实践
这里需要对路径进行标准化,PC端选择唯一的链接入口:do 301 redirect to;
/index.php /index.html 禁止在后台程序调用,不给任何页面链接;
方法一
去掉自动首页的index.html、index.php
有些程序在访问主域名后会添加一个index.html或index.php的尾部。不难看出原因。如果你做好301定位就可以了,或者如上给出完整的URL路径,否则搜索引擎会有两个地址。都抢。
以下是从 dedecms 主页删除 index.html 的两种方法。
用代码编辑器打开根目录下的index.php文件,找到
//自动生成HTML版本
到最后的代码被替换为
require_once (dirname(FILE) . "/include/common.inc.php");
require_once DEDEINC."/arc.partview.class.php";
$GLOBALS['_arclistEnv'] = '索引';
$row = $dsql->GetOne("选择 * 来自
1`
dede_homepageset
1`
");
$row['templet'] = MfTemplet($row['templet']);
$pv = new PartView();
$pv->SetTemplet($cfg_basedir . $cfg_templets_dir . "/" . $row['templet']);
$pv->显示();
这样可以去掉域名后面的自动index.html,但是并没有解决根本问题,因为仍然可以使用:域名.index.html访问,导致去中心化。dedecms系统中所有文件夹根目录都可以使用:域名/文件夹名/index.html,只要用301一行就搞定了。
方法二
全站 301 将不同的 URL 设置为同一个 URL
您需要在此处使用 .htaccess 脚本。此脚本文件不符合 win 命名约定。可以在本地新建一个htaccess.txt,编写如下代码,传到空间改名为.htaccess。
重写引擎开启
RewriteCond %{THE_REQUEST} ^[AZ]{3,9}\ /index.(php|html|htm)\ HTTP/
重写规则 ^index.(php|html|htm)$ [R=301,L]
当然,如果你写的规则太多,可能就不会成功。注意检查顺序。默认是从上到下执行。此方法有时会在某些服务器上失败。在这种情况下,建议使用第一种方法。
PC端的所有链接都使用标准化的标准:. 为了让蜘蛛爬取该域名下的网址,建议所有的网址都使用绝对路径(相对路径会使蜘蛛在两个或多个域名下“跳来跳去”,影响权重)、绝对路径和相对路径引用< @文章 《URL绝对路径和相对路径SEO优化的重要环节有哪些》。
“短域名”会对后面添加的其他二级域名(如手机域名)造成一定的不便。推荐使用以www为主域名的域名。
PC 和移动 URL 路径规范
如果用空间放PC站和移动站,一般做法是在子目录下安装一个cms(如:)(这样可以完全支持静态和动态页面),当然,类似to Dedecms hypervisor支持移动适配,采用动态浏览,也可以写伪静态。具体方法会在后面的帖子中分享。
有的ISS服务器支持将域名绑定到子目录,将域名解析到子目录(),这样访问移动端的路径是: 这对用户来说不会造成太大的问题,移动端上也没有人看到路径。但是对于搜索引擎来说就不同了,相信这样的做法并不是一一对应的。
<p>如果虚拟主机不支持这样的解析,一般的做法是使用.htaccess重写路径,参考