我搜索“秋寒博客”谷歌:%%%

优采云 发布时间: 2021-03-31 02:05

  我搜索“秋寒博客”谷歌:%%%

  在通常情况下,通过关键词输入的页面是用户想要的所有内容。对于某些与关键词不太相关的搜索搜索页面(例如列表页面),我们需要根据用户进行搜索关键词指导用户,以改善用户体验并提高网页的展示率。

  本文的原理是获取源页面,分析源URL的结构,并提取关键字。这些都是相对简单的事情。本文介绍了如何区分几种常见的URL编码方法,然后对其进行相应的解码。由于该应用程序是在ASP中执行的,因此,如果本文中有与代码相关的示例,则它们都将在ASP下进行调试。其他语言中的想法相同,并且实现相对简单。

  从各种搜索引擎中提取关键字

  当前的主要搜索引擎全部基于GET请求方法,即URL后面带有一串参数。例如:我搜索了“秋涵博客”

  :%e7%a7%8b%e5%af%92%e5%8d%9a%e5%ae%a2

  百度:%C7%EF%BA%AE%B2%A9%BF%CD

  Bing:%E7%A7%8B%E5%AF%92%E5%8D%9A%E5%AE%A2&form = QBLH&filt = all

  和q =%e7%a7%8b%e5%af%92%e5%8d%9a%e5%ae%a2,百度的wd =%C7%EF%BA%AE%B2%A9%BF% CD,Bing的q =%E7%A7%8B%E5%AF%92%E5%8D%9A%E5%AE%A2下划线部分为关键词。其他搜索引擎也大致相同。您可以通过URL查看关键词的哪个字段,然后可以通过正则表达式提出关键词。

  提取主流搜索关键词的规律如下:

  (?:。+?[\?|&] p = |。+?= |。+?q = |。+?= |。+?= | \ .tom。+?word = | \。 \ .com。+?word = | \ .com。+?word = | \ .msn \ .com。+?q = | \ .com。+?p = | sina。+?word = | sina。+ ?= | sina。+?= | sohu。+?word = | sohu。+?= | sohu。+?= | 16 3. +?q = |。+?wd = |。+?kw = |。 +?word = | 3721 \ .com。+?p = |。+?q = | soso。+?w = | 11 5. +?q = |。+?q = |。+?= | bing。 +?q = | 11 4. +?kw =)([^&] *)

  以上规则根据互联网上的规则进行了修改,因此它们支持soso,11 5、,bing(Bing),114(或)这些搜索,感谢作者提供。由于上的转载过多,因此未指明原创来源,因此我无法确定原创作者。

  编码类型的标识

  和UTF-8

  从上面的示例中,我们可以看到相同的搜索是针对“秋涵博客”的,但是在对URL进行不同的搜索编码之后,结果字符串也有所不同。在和Bing下面是“%e7%a7%8b%e5%af%92%e5%8d%9a%e5%ae%a2”,而在百度中则是“%C7%EF%BA%AE%B2%A9 %BF%CD”。我相信了解网页编码的朋友应该了解这种情况。在不同的页面编码()对相同字符进行编码之后,所得的编码也将有所不同。默认情况下,UTF-8会产生UTF-8编码,默认解码也是UTF-8。等等也是如此。和Bid使用UTF-8编码,而百度使用编码,这会使相同的关键词在不同的搜索条件下产生不同的字符串。

  可以实现UTF-8和UTF-8的解码,但是如果您不知道目标的编码方法,就不会解码。例如,上面显示的是上面的两个字符串,但是我不知道使用哪种编码方法。当然,第一反应是通过搜索来判断编码方法。这种方法确实是可行和有效的。但是请看上面的规律性,如果您使用此方法,则必须在if后面加上很多or。此方法通常在上使用。我认为这不是最好的方法。我们了解到的信息是:1、%xx%xx格式为URL编码(UTF-8或); 2、汉字要求两组%xx组成一个汉字,而UTF-8要求三组%xx组成一个汉字。中国文字; 3、如果您使用UTF-8解码对代码进行解码,则会出现乱码。

  我们无法从编码的长度和范围中区分出编码方法,只能通过其他方法进行判断。基于以上三点,我们可以做一个假设:如果使用UTF-8解码对编码进行解码会怎样?因为UTF-8由三组%xx组成,但由两组%XX组成,所以如果使用UTF-8的解码方法进行解码并且可以成功解码,则解码字符的长度肯定会变成较短。例如:编码的“秋季冷博客”(%C7%EF%BA%AE%B2%A9%BF%CD)用UTF-8解码。如果可以成功解码,则解码的字符长度将为2个半汉字。如果解码不成功,则不用说这是编码方法。

  好的,到目前为止,我们对如何识别URL的编码类型有了初步的了解,步骤如下:

  1、获取关键字代码字符串;

  2、获取代码字符串的组数(x),例如:“%C7%EF%BA%AE%B2%A9%BF%CD为8组;

  3、使用UTF-8解码方法对获得的代码字符串进行解码;

  4、如果解码失败(即存在程序错误),请跳至步骤8;

  5、如果解码成功,则获取解码后的字符串的长度(y),并将其与编码后的字符串总数除以3;

  6、如果x!= y,则跳至步骤8;

  7、如果x = y,则结果字符串为关键字;

  8、使用该方法进行解码,获得的字符串为关键字;

  在上述步骤中,有几点要注意:

  1、第一步,您需要转义非中文字符的网址并删除英文;

  2、 2、 3、第5步中的代码字符串为上述字符串;

  3、 7、第八步,原创字符串需要解码;

  在测试过程中,发现从网页跳转到图片时,URL编码方法已更改。该方法相对容易区分,即确定它是\还是%的形式。这相对简单,只在ASP中共享解码功能。

  以下代码来自CSDN论坛:

  方法1:

  。 (“ \\\”)

  (str)'解密

  我,s,c昏昏欲睡

  s =“”

  对于i = 1到Len(str)

  c = Mid(str,i,1)

  如果Mid(str,i,2) =“ \ u”和我

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线