网站内容搜索(搜索引擎的程序十分强大,通过语义技术、分词技术理解)

优采云 发布时间: 2021-11-12 10:00

  网站内容搜索(搜索引擎的程序十分强大,通过语义技术、分词技术理解)

  我们可以看到搜索引擎看不到的网站的内容。搜索引擎的程序非常强大。通过语义技术和分词技术,我们可以理解网站内容的含义,但是对于搜索引擎来说,还是有很多东西是做不到的,比如图片、Flash等。如果这些技术在网站的构建中被大量使用,搜索引擎将很难理解网站的主题,是的网站的优化将变得非常困难。

  第一个是图片。尽管搜索引擎可以检测到您正在显示图片,但如前所述,它并不知道图片显示的是什么,除非您使用 alt 属性来提供信息。但是,搜索引擎可以识别像素的颜色,并且在很多情况下,它们可以根据JPEG图像中的肉色数量来确定图像是否收录**内容。因此,搜索引擎无法判断图片是描述辛普森还是船、房屋或龙卷风。此外,搜索引擎无法识别图像中的文本。目前,搜索引擎正在尝试使用光学字符识别技术(OCR)从图片中提取文本,但该技术在搜索中并未得到广泛应用。

  二、闪。传统的SEO概念一直认为搜索引擎无法读取Flash文件。这有点过时了。正如谷歌宣布的那样,搜索引擎开始从 Flash 中提取信息。当然,搜索引擎要确认 Flash 中的内容并不容易。最大的问题之一是,即使搜索引擎查看 Flash 文件内部,他们仍在寻找文本内容,但 Flash 是一种基于图像的媒体。对于设计师来说,在Flash中放置文本并没有什么好处(除了对搜索引擎有点好处)。即使HTML和Flash一起使用,HTML文件中可以出现的语义提示(如H标签、粗体等)也没有了。因此,搜索引擎看不到的第二种内容是 Flash 中收录的图像性质的任何内容。Flash 中的此类内容与图像完全相同。例如,当文本被转换为矢量轮廓时,搜索引擎可以获得的文本信息就丢失了。

  第三种,音视频,音视频文件不易被搜索引擎读取。像图片一样,这种数据很难解析。有一些例外,搜索引擎可以提取一些非常有限的数据,例如 MP3 文件中的 AD3 标签、使用带有嵌入 AAC 格式文本描述的图片的增强播客以及章节标记。但归根结底,搜索引擎无法分辨视频文件是关于足球比赛还是森林火灾。搜索引擎也无法读取程序的内容。搜索引擎会寻找人们可以在页面源代码中看到的词。您在浏览器显示的页面上能看到的内容,可能是搜索引擎看不到的——只有搜索引擎才能看到页面源代码中可见、可读的信息。

  第四种是Ajax,很明显的一种人们可以看到但搜索引擎看不到的AJAX。AJAX 是一种基于 Java Script 的方法。从数据库中获取数据后,内容动态显示在页面上,无需刷新整个页面。这种技术经常出现在在线工具中。用户输入一些信息,AJAX 工具获取并显示正确的内容。用户输入信息后,只能通过运行在客户端计算机(用户计算机)上的脚本获取的内容。这种情况会导致许多不同的输出。

  另外,在用户输入信息之前,该内容并不存在于页面的HTML代码中,搜索引擎也无法看到。一些其他形式的 javascript 脚本也有类似的问题。在用户执行某些操作之前,HTML 中没有相关内容。在 HTML 5 标准中,一种称为嵌入标签 (

  更多详情请登录: 热搜:东莞网络公司||||||

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线