我搜索“秋寒博客”谷歌：%%%

优采云发布时间: 2021-03-31 02:05

　　我搜索“秋寒博客”谷歌：%%%

　　在通常情况下，通过关键词输入的页面是用户想要的所有内容。对于某些与关键词不太相关的搜索搜索页面（例如列表页面），我们需要根据用户进行搜索关键词指导用户，以改善用户体验并提高网页的展示率。

　　本文的原理是获取源页面，分析源URL的结构，并提取关键字。这些都是相对简单的事情。本文介绍了如何区分几种常见的URL编码方法，然后对其进行相应的解码。由于该应用程序是在ASP中执行的，因此，如果本文中有与代码相关的示例，则它们都将在ASP下进行调试。其他语言中的想法相同，并且实现相对简单。

　　从各种搜索引擎中提取关键字

　　当前的主要搜索引擎全部基于GET请求方法，即URL后面带有一串参数。例如：我搜索了“秋涵博客”

　　：％e7％a7％8b％e5％af％92％e5％8d％9a％e5％ae％a2

　　百度：％C7％EF％BA％AE％B2％A9％BF％CD

　　Bing：％E7％A7％8B％E5％AF％92％E5％8D％9A％E5％AE％A2＆form = QBLH＆filt = all

　　和q =％e7％a7％8b％e5％af％92％e5％8d％9a％e5％ae％a2，百度的wd =％C7％EF％BA％AE％B2％A9％BF％ CD，Bing的q =％E7％A7％8B％E5％AF％92％E5％8D％9A％E5％AE％A2下划线部分为关键词。其他搜索引擎也大致相同。您可以通过URL查看关键词的哪个字段，然后可以通过正则表达式提出关键词。

　　提取主流搜索关键词的规律如下：

　　（？：。+？[\？|＆] p = |。+？= |。+？q = |。+？= |。+？= | \ .tom。+？word = | \。 \ .com。+？word = | \ .com。+？word = | \ .msn \ .com。+？q = | \ .com。+？p = | sina。+？word = | sina。+ ？= | sina。+？= | sohu。+？word = | sohu。+？= | sohu。+？= | 16 3. +？q = |。+？wd = |。+？kw = |。 +？word = | 3721 \ .com。+？p = |。+？q = | soso。+？w = | 11 5. +？q = |。+？q = |。+？= | bing。 +？q = | 11 4. +？kw =）（[^＆] *）

　　以上规则根据互联网上的规则进行了修改，因此它们支持soso，11 5、，bing（Bing），114（或）这些搜索，感谢作者提供。由于上的转载过多，因此未指明原创来源，因此我无法确定原创作者。

　　编码类型的标识

　　和UTF-8

　　从上面的示例中，我们可以看到相同的搜索是针对“秋涵博客”的，但是在对URL进行不同的搜索编码之后，结果字符串也有所不同。在和Bing下面是“％e7％a7％8b％e5％af％92％e5％8d％9a％e5％ae％a2”，而在百度中则是“％C7％EF％BA％AE％B2％A9 ％BF％CD”。我相信了解网页编码的朋友应该了解这种情况。在不同的页面编码（）对相同字符进行编码之后，所得的编码也将有所不同。默认情况下，UTF-8会产生UTF-8编码，默认解码也是UTF-8。等等也是如此。和Bid使用UTF-8编码，而百度使用编码，这会使相同的关键词在不同的搜索条件下产生不同的字符串。

　　可以实现UTF-8和UTF-8的解码，但是如果您不知道目标的编码方法，就不会解码。例如，上面显示的是上面的两个字符串，但是我不知道使用哪种编码方法。当然，第一反应是通过搜索来判断编码方法。这种方法确实是可行和有效的。但是请看上面的规律性，如果您使用此方法，则必须在if后面加上很多or。此方法通常在上使用。我认为这不是最好的方法。我们了解到的信息是：1、％xx％xx格式为URL编码（UTF-8或）； 2、汉字要求两组％xx组成一个汉字，而UTF-8要求三组％xx组成一个汉字。中国文字; 3、如果您使用UTF-8解码对代码进行解码，则会出现乱码。

　　我们无法从编码的长度和范围中区分出编码方法，只能通过其他方法进行判断。基于以上三点，我们可以做一个假设：如果使用UTF-8解码对编码进行解码会怎样？因为UTF-8由三组％xx组成，但由两组％XX组成，所以如果使用UTF-8的解码方法进行解码并且可以成功解码，则解码字符的长度肯定会变成较短。例如：编码的“秋季冷博客”（％C7％EF％BA％AE％B2％A9％BF％CD）用UTF-8解码。如果可以成功解码，则解码的字符长度将为2个半汉字。如果解码不成功，则不用说这是编码方法。

　　好的，到目前为止，我们对如何识别URL的编码类型有了初步的了解，步骤如下：

　　1、获取关键字代码字符串；

　　2、获取代码字符串的组数（x），例如：“％C7％EF％BA％AE％B2％A9％BF％CD为8组；

　　3、使用UTF-8解码方法对获得的代码字符串进行解码；

　　4、如果解码失败（即存在程序错误），请跳至步骤8；

　　5、如果解码成功，则获取解码后的字符串的长度（y），并将其与编码后的字符串总数除以3；

　　6、如果x！= y，则跳至步骤8；

　　7、如果x = y，则结果字符串为关键字；

　　8、使用该方法进行解码，获得的字符串为关键字；

　　在上述步骤中，有几点要注意：

　　1、第一步，您需要转义非中文字符的网址并删除英文；

　　2、 2、 3、第5步中的代码字符串为上述字符串；

　　3、 7、第八步，原创字符串需要解码；

　　在测试过程中，发现从网页跳转到图片时，URL编码方法已更改。该方法相对容易区分，即确定它是\还是％的形式。这相对简单，只在ASP中共享解码功能。

　　以下代码来自CSDN论坛：

　　方法1：

　　。（“ \\”）

　　（str）'解密

　　我，s，c昏昏欲睡

　　s =“”

　　对于i = 1到Len（str）

　　c = Mid（str，i，1)

　　如果Mid（str，i，2) =“ \ u”和我

0

2021-03-31

seo关键解码：网站营销与搜索引擎优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

我搜索“秋寒博客”谷歌：%%%

0 个评论

发起人