解密:了解网络营销,从搜索引擎开始

优采云 发布时间: 2022-09-24 04:27

  解密:了解网络营销,从搜索引擎开始

  搜索引擎是企业开展网络营销的有力武器。搜索引擎营销的本质是利用用户使用搜索引擎的习惯来检索信息,并将满足用户需求的信息展示给用户,从而达到营销效果。下面先介绍搜索引擎的基本知识,然后再讲解搜索引擎营销的相关内容。

  搜索引擎用户必须使用搜索引擎在庞大的信息网络中高效地找到他们需要的信息。下面通过介绍搜索引擎应用的三个对象来介绍它的作用。

  • 信息来源│

  信息来源是指提供信息的组织、机构、企业或个人。对于这些信息提供者来说,搜索引擎的意义在于定向传播。例如,搜索“建筑木材”的用户对近期工程建设的需求量很大。信息提供者可以通过搜索引擎准确定位到这个目标群体,更有效的组织和传播信息。

  • 搜索引擎优化行业│

  SEO(搜索引擎优化)行业可以帮助信息提供者更好地利用搜索引擎传播信息,帮助用户更有效地获取有用的信息。对于信息提供者来说,搜索引擎是SEO的基础。 SEO最重要的技能就是掌握和合理使用搜索引擎的规则。因此,在进行搜索引擎营销之前,有必要了解搜索引擎。

  

  • 信息受众│

  也就是广大网民。对于网民来说,搜索引擎是获取互联网信息的重要工具,可以帮助他们快速找到自己需要的信息。当用户想要找到与“芝麻灰石”相关的文章时,通过搜索引擎,用户可以在不到1秒的时间内找到成百上千的相关网页。

  有很多常用的搜索引擎。目前国内常用的搜索引擎有百度、360搜索、搜狗搜索等。

  (1)百度

  百度是世界知名的中文搜索引擎。百度搜索于2000年1月在北京中关村成立。

  “百度”一词源于宋代诗人辛弃疾所写的“千语案•元熹”,“众望千百度”,象征着百度对中文信息检索的执着追求技术。百度拥有庞大的中文网页库。 2019年,百度用户规模突破10亿。每天有超过7万用户将百度设为首页,用户可以通过百度搜索到更新、更全的中文信息。

  (2)360 度搜索

  

  360搜索是一个全文搜索引擎,是使用最广泛的主流搜索引擎之一。 360搜索收录拥有超过百亿的优质网页,网页搜索速度和搜索质量都很高。

  (3)搜狗搜索

  搜狗搜索产品各有特色,其中音乐搜索的死链接率低于2%,图片搜索具有独特的群图浏览功能。这些功能让搜狗搜索极大地满足了用户的日常需求。

  百度网购是百度旗下的B2B平台,于2018年10月19日正式上线。百度爱采购依托百度大生态和技术,商家可以通过百度爱采购无缝对接百度搜索。

  百度爱采购服务近20w家中小企业,采购搜索量超过10亿次。

  只要商家开通百度爱购账号并发布产品,基本上第二天就可以在百度首页查看关键词,手机上也会显示。可以说在关键词上的排名是非常快的。

  揭密:真棒!搜索引擎幕后技术大揭秘!

  1.写在前面

  今天我要和朋友一起学习一些通用搜索引擎的技术要点。

  鉴于搜索引擎内容量大,每个部分都够写几篇了文章,所以这篇文章只是一个指南,深挖还得老手来做。

  通过本文,您将对通用搜索引擎的基本原理和组成部分有一个更清晰的认识。仔细阅读,你一定会有所收获!

  大家不要胡说八道,赶紧上车!

  2. 搜索引擎初探2.1 搜索引擎分类

  搜索引擎根据使用场景和规模可以简单分为两类:

  一般搜索也称为大搜索,如谷歌、百度、搜狗、神马等都属于这一类。

  垂直搜索也叫垂直搜索,是在特定领域的搜索,比如用QQ音乐搜索周杰伦的歌曲。

  虽然这两类搜索引擎的数据规模和数据特征不同,但都旨在弥合用户与海量信息之间的鸿沟。

  2.2 搜索和推荐

  搜索和推荐经常被比较,但两者之间存在一些差异和联系。

  2.3 搜索引擎评估标准

  我们每天都与搜索引擎打交道。评价一个搜索引擎的好坏可以简单概括为:准确性、及时性、响应速度、权威性等。

  换句话说,搜索引擎了解用户真正在寻找什么,并能快速准确地显示出来。还可以收录及时展示一些热点和突发信息,很好的赢得用户。

  这个目标需要搜索引擎多个模块的配合,是一项复杂的系统工程,并非易事。

  3.通用搜索引擎总览3.1 搜索引擎基本流程

  大白试图用简单的语言来表达一般搜索引擎的大致工作原理:

  1.网络蜘蛛爬虫每天孜孜不倦地工作到收录网页,然后进行存储,让每个站点的页面都有一个镜像,规模百亿/千亿.

  2. 不能直接使用单纯的镜像。需要对其进行处理和切分,建立搜索词与网页的对应关系,这样用户在搜索某物时,就会得到大量的相关信息。网页。

  3. 比如“搜索隐藏的角落”可能找到了100个相关网页,但是网页和搜索词之间的相关性必须强或弱,所以需要对网页进行排序,并且排序策略包括很多,最终将高质量的网页展示给最前面的用户。

  用户看到相关结果后,点击或跳过,搜索引擎根据用户的相关动作进行调整,实现整个闭环流程。

  4.为了更好的理解用户的真实使用,需要了解搜索词的意图,分割词条,替换同义词,纠正语法错误,然后根据这些搜索词获取数据为用户找到心目中的网页。

  例如,如果搜索词是“鹰”,它可能是自然界中的鹰或 NBA 球队:

  3.2 搜索引擎的基本组件

  我们来简单介绍一下各个模块的基本组成和主要功能:

  接下来,我们将简要介绍几个模块的基本内容和技术点。

  4.网络爬虫模块介绍

  网络爬虫模块是通用搜索引擎的一个非常基本的组件。一般由分布式爬虫实现。下面我们来看看这个搬运工是如何实现海量网页发现的:

  网络爬虫的基本流程:

  

  爬取过程中有多种遍历策略:深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站点优先级策略等。

  在工程实践中,需要根据自身情况和搜索引擎的特点,选择某种策略或策略组合。

  网络爬虫需要遵循Robots协议(网络爬虫排除标准),这是网络爬虫和网站之间的君子协定。该网站告诉网络爬虫什么可以被捕获,什么不能通过协议。

  网络爬虫还需要考虑爬取的频率,以防止网站负担过重。总之,搜索引擎的网络爬虫需要谦虚、绅士。

  5.网页内容处理模块

  爬虫模块存储网页内容后,网页内存处理模块开始解析网页内容。主要任务包括:数据清洗、网页内容分词、建立正向索引、建立倒排索引等。

  5.1 数据清洗

  一般来说,网页中除了具体的内容外,还会有很多不相关的东西,比如html标签、推广等,在实际搜索引擎中是没用的。

  内容处理模块会清理无用的数据和标签,为后续分词做准备。

  5.2 中文分词

  通过分词提取清洗后的内容关键词,比如一个网页收录1000个词,分词后大约有50个词,相当于提取了网页的主干,也会分析标题、摘要、正文等。内容的不同部分被赋予不同的权重。

  在分词过程中,会去除停用词、功能词等,如“的、得、地”,从而还原网页的主要内容。

  我们用在线网络分词工具和真实网页模拟这个过程:

  网络分词在线工具:

  爬网:

  可以看到分词后可以标注词频。这些都是后续网页排名的重要来源,但是中文非常复杂,所以分词算法有很多,常见的有:

  5.3 前向索引

  假设我们对每个网页的docid进行唯一的编号,经过上一次分词,一个网页会被分成多个不同权重的实体词。

  所谓正行,是指可以根据docid获取所有属于该网页的内容。这是一个符合我们思想的积极过程。相对来说会有倒排索引。

  我们以《隐秘的角落》剧情介绍页面为例,模拟分词的情况,大致如下(本次分词结果纯属脑补,实际情况以为准):

  5.4 倒排索引

  假设我们已经对10000个网页进行了细分,包括一些公开的搜索词:微山湖、见证虎山、三十年、隐秘的角落等,那么我们将在汇总后创建搜索词->网页映射。

  那么对于搜索词“隐藏的角落”,有很多网页,倒排索引就相当于一个词能拉出多少个文章的过程。

  就像我们想到的食物:火锅、烧烤、烤鸭、炒菜等等,都是一个从点到面的过程,而这个逆向过程在搜索引擎中非常重要。

  5.5章总结

  内容处理模块对抓取的网页进行清洗,提前给爬虫模块新的URL,将内容分词,建立正向索引和倒排索引。

  特别是提到正向索引和倒排索引并不直观,但道理不难理解:

  正指数:一个网页有多少个关键词,具体是属于网页本身的内容集合,也就是一个网页。

  倒排索引:一次搜索关键词对应有多少个相关网页,即备选网页的集合,是一种网页。

  6. 网络排名和用户模块6.1 网络排名的必要性

  因为存储的网页有数百亿,那么一个搜索词可能关联几万、几十万甚至更多的相关网页。

  网页排名需要综合考虑:相关性、权威性、及时性、丰富性等方面。

  搜索引擎要向用户展示优质且相关性强的网页,并放在首位,否则搜索效果会很差,用户不会购买。

  

  其实也一样。例如,搜索引擎返回 10 页结果,每页 10 个,以及 100 个摘要。一般点击第1-3页的用户不会再点击,所以排序内容的头部对搜索结果很关键。

  我们还是以“隐藏角落”的检索为例,百度一共返回了10个页面,其中1-2个页面是强相关的,是比较好的检索结果:

  6.网页排序的2种常用策略

  网页排名策略是一个不断优化和改进的演进过程。我们来看看有哪些排名策略可用:

  这是早期搜索引擎常用的方法。它相对简单,但效果很好。

  简单来说,排名是根据关键词在网页中出现的频率和位置,因为一般认为搜索词出现的次数越多,位置越重要,相关性就越好网页和排名越可靠。前进。

  词频不是简单的次数。判断关键词的相对时间需要一个全局的概念。这就是我们要讲的TF-IDF逆文档频率。我们来看看百度百科的解释:

  TF-IDF(词频-逆文档频率)是一种常用的信息检索和数据挖掘加权技术。

  TF 是词频,IDF 是逆文档频率。

  TF-IDF 是一种统计方法,用于评估单词对文档集或语料库中的文档的重要性。

  单词的重要性与它在文档中出现的次数成正比,但与它在语料库中出现的频率成反比。

  一个栗子:

  “吃”这个词在网页中出现了 10 次。虽然次数高,但是“吃”这个词太常见了,因为它出现在很多其他网页中,所以搜索词“吃”的重要性相对降低了。 .

  链接分析排名认为,一个网页被其他网页引用的次数越多或被引用的权威网页越多,该网页的质量就越高。

  基于链接分析的排名算法有很多种,其中最著名的PageRank算法被谷歌广泛使用,是其核心排名算法。

  看看PageRank算法的基本思路:

  网页的重要性由 PageRank 值来衡量。一个网页的PageRank值体现在两个方面:引用该网页的其他网页的数量和引用该网页的其他网页的重要性。

  假设一个网页A被另一个网页B引用,网页B给网页B所引用的网页分配一个PageRank值,所以网页A被引用的次数越多,其PageRank值就越高。

  另外,网页B越重要,它所引用的页面可以分配的PageRank值越多,网页A的PageRank值越高,越重要。

  其实这个算法说起来很简单:比如写公众号的时候,大V转载就相当于引用。其他公众号转载越多,您的公众号内容质量就越高。

  PageRank算法也存在一定的问题。比如对新页面不友好,新页面暂时没有被大量引用,所以PageRank值很低,PageRank算法强调页面之间的引用关系,可能会影响主题页面本身的内容。对所谓的主题漂移问题关注不够。

  与PageRank算法类似,还有其他算法可以弥补主题关联的问题,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文不再展开。

  6.3 网页反作弊和SEO

  搜索引擎也有28的原理。头部的网页占了很大的点击量,这也意味着巨大的商业价值。

  这里会提到SEO,先看看百度百科对SEO的定义:

  搜索引擎优化也称为SEO,即搜索引擎优化。它是一种通过分析搜索引擎的排名规则来了解各种搜索引擎如何进行搜索、如何爬取互联网页面以及如何确定具体关键词@的方法。 > 对搜索结果进行排名的技巧。

  搜索引擎利用搜索引擎容易引用的方法优化网站,提高网站在搜索引擎中的自然排名,吸引更多用户访问网站,增加网站的流量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。

  道高一尺,魔高十尺,唯有魔能胜魔。

  网页反作弊是搜索引擎需要解决的一个重要问题。常见的有内容反作弊、链接分析反作弊等。

  6.4 用户搜索意图理解

  用户模块直接与用户交互,接收用户的搜索词,准确理解用户的搜索意图。

  其实用户的输入是多种多样的,口语化的,甚至是拼写错误的,不同背景的用户对同一个搜索词的需求也不同,使用无争议搜索词的目的也不同。

  7.全文摘要

  搜索引擎是一个非常复杂的系统工程,涉及到很多算法和工程实现。本文旨在和大家一起简单梳理一下搜索引擎的基本组成和运行原理,是科普文章。

  搜索引擎中的每个模块都不容易做好,也是互联网产品技术黄金的典型代表。深入挖掘一个模块会受益匪浅。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线