内容分享:高效构建基于Python的商品评论文本挖掘网页APP
优采云 发布时间: 2022-10-27 12:27内容分享:高效构建基于Python的商品评论文本挖掘网页APP
职位:数据分析师
行业:大数据
背景
电商行业近年来发展极为迅速,很多传统行业就业但工资不理想的人纷纷转向电商行业。这种趋势造就了越来越多的人在电子商务的价值下使用产品,这是不言而喻的,比如网购等行为。也就是说,大量网购的结果是数据量的增加。面对商品评论等这类大数据和非结构化数据,如何应对?如何从中提取有用的信息?自然语言处理技术给出了答案,从规则抽取到统计建模再到如今非常火热的深度学习,无论是商家还是买家,都能从文本中提取有用的商业价值。本文对某电商平台上AirPods智能耳机产品的销量及相关产品信息进行情感分析和快速词云图构建。情感分析也是自然语言处理的一个方向
除了文本挖掘,本文还打算构建一个web APP。Python是目前比较流行的一种编程语言。使用 Python 构建 Web 应用程序是很常见的,使用 Python 结合 Flask 或 Django 框架通过前后端构建网页。使用这种方法一般需要一定的前端经验来修改 CSS、HTML、JAVASCRIPT 文件。对于没有前端经验的程序员,读者推荐一个友好的基于Python的全流程库streamlit,也就是本文使用的库。使用streamlit,您可以轻松快速地构建一个web APP,然后添加文本挖掘功能。这样,一个小产品就制成了。现在,让我们进入正题。
本文使用Anaconda进行Python编译,涉及的主要Python模块有:
本章分为三个部分:
1.数据探索性分析和产品评论文本提取
2. 产品评论词云可视化和情感分析
3.网页结构设计与实现
4、功能整合与效果呈现
01.数据探索性分析和产品评论文本提取
本文使用的数据是某宁电商平台的商品评论数据。数据字段包括产品名称、价格和评价内容。其中,价格为最近4月份的实时价格。评价内容由近到远按时间顺序呈现。以下是前五行的显示:
需要注意的是,以上五行显示的是第二代AirPods的产品信息。原因是数据本来是分成3张表的,每张表的字段都是一样的,一共3个,2个维度字段和1个度量字段(这个在CDA I课程的数据结构中会提到) . 因此,这个数据是3张表通过垂直合并拼接记录。最后生成的Index是新表生成的主键。
然后可以对数据进行适当的探索性分析,首先习惯性地观察数据的形状、数据类型,是否有缺失值、异常值和重复值。缺失值可以使用pandas库的isnull().sum()函数查看。重复值可以和duplicated().sum()一起使用。由于本文探讨的是产品评论的文字,数据量很小,所以忽略了重复。以下是各部分的结果
数据形状为(1020,3),很容易理解,即1020条记录行和3个字段。数据类型可以和info()函数一起使用,结果如下:
以上结果分析:Non-NULL Count是每个字段的非空值之和。可以看出,评价内容的维度字段有2个空值。右边的 Dtype 表示三个字段都是字符串对象类型。内存使用量是这个产品信息表占用的字节空间,为24kb。在这里额外提醒一下,如果一张表超过5G,也就是Excel软件打不开的时候,可以改变实现方式,使用分布式数据处理包dask库。
从上图中的info信息可以看出,这个产品信息表中有2个空格,即缺失值为2。而重复值计算为19。下一步就是解决缺失值和重复值的方法。考虑到重复值的重复出现会影响后续词频统计的结果,本文考虑剔除重复值。缺失值会影响后续评价分词内容的步骤,所以这里我们选择用空格代替。整个代码如下。刚开始使用Python的朋友可以把这段代码牢记在心,这几乎是每一次数据分析的必备。
import pandas as pd
# 读取数据
df = pd.read_excel('苏宁易购_airpods系列.xlsx')
df.isnull().sum() # 缺失值汇总
df.duplicated().sum() # 重复值汇总
df.info() # 表格信息abstract
df.dtypes #数据类型
df['评价内容'] = df['评价内容'].fillna(' ') # 空格填充
df = df.drop_duplicates() # 剔除重复值
在这三个领域中,最重要的要提取的是评价内容,因为本文的目的是建立一个产品评价的文本信息挖掘系统,包括情感分析和词云图可视化。每个用户ID的评价内容不一致,需要进行聚合操作。整合所有评价内容,去掉停用词,最后形成一个句子。这句话虽然不流畅,但对后面的词频统计没有任何影响。
评价内容的整合是由 Python 的内置函数 split() 完成的。首先使用 Pandas 库中的 tolist() 函数将评价内容字段的记录转为列表,然后将列表转为字符串。这里需要 split() 函数。结束。用空格字符串作为连接符连接列表中的每个元素。最后截取一部分效果如下:
下一步是删除停用词。无论是中文 NLP 任务还是英文 NLP 任务,停用词都需要这一步。这一步不仅可以去除大部分噪声,还可以节省计算资源,提高效率。去除停用词的算法其实很简单。就是遍历需要统计挖掘的文本。如果文本中有属于指定停用词的词,则将其排除。显然,这里需要一个停用词数据库。停用词数据库有很多,比如百度的停用词表、哈工大停用词表、四川大学机器智能实验室停用词表等。本文选择哈工大停用词表是因为该表在电子商务领域的词比其他表更好。
去除停用词的具体代码和做法会在情感分析部分讲解。
02. 产品评论词云可视化与情感分析
上一部分我们提取了商品信息表中每个ID的商品评价内容,同时进行整合去除停用词,得到一个干净的txt数据集。接下来,您可以进行文本挖掘。首先是产品评论词云图的构建。
Python中有很多用于构建词云图的库。常用的有Wordcloud标准的词云图可视化库,pyecharts的词云图API。在为前者构建词云图的时候,新手用户经常会遇到很多问题,比如pip安装失败、编码错误、字体使用错误等等。另外,它的使用其实是相当困难的。后者是浏览器中常用的交互式图表。它以其代码大小和高封装性而闻名。听起来更符合本文的主题,但本文不考虑。原因是后来Streamlit使用的web开发库通常不使用pyecharts来展示交互式图表。
因此,本文介绍了新兴的词云图形可视化库stylecloud,它基于wordcloud。使用这个库,初学者可以用最少的代码绘制各种词云图,并且支持形状设置。话不多说,直接上代码:
start = time.time() #记录初始时间
# 先在内部画出词云图并保存到image文件夹
stop_words = open('哈工大停用词表.txt','r',encoding='utf8').readlines() # 读取停用词
stylecloud.gen_stylecloud(text=txt, collocations=True, # 是否包括两个单词的搭配(二字组)
font_path=r'C:\Windows\Fonts\simkai.ttf', # 指定字体
icon_name='fab fa-jedi-order',size=(2000,2000), # 指定样式
output_name=r'img\词云图.png', #指定输出图像文件路径
custom_stopwords=stop_words) # 指定停用词表
end = time.time() # 记录结束时间
spend = end-start # 画图时间总长
代码分析:
首先导入 stylecloud 库,然后使用 .gen_stylecloud() 对象初始化绘图对象(类)。
另外,本文还设置了一个时间间隔,因为描述著名的词云图需要很长时间,如果文字很长,可能到一分钟。因此,有了时间的概念,用户传输数据会更加友好。
这样,我们就构建了一个词云图,将在网页的下一部分应用。这里我们以二代Airpods为例,先展示效果图。
词云图构建完成后,就轮到情感分析了,这对于干净的产品评论信息的情感分析非常有用。对于商家来说,可以清楚的知道买家使用这款产品的感受和评价,以便后期对产品进行优化,对想要购买这款产品的人来说更有用。本文将统计 AirPods 产品评论的正面和负面情绪词。
使用的库是cnsenti,这是一个中文情感分析库。在 NLP 任务领域,大部分库和示例都是英文的,所以这个中文库对于经常挖掘中文文本的人来说是个好消息!
我们先介绍一下这个库。cnsenti模块分为两部分,一是本文使用的情感分析对象Sentiment,二是未使用的情感分析对象Emotion。用于情感分析的字典是知网,支持自定义。情感分析使用大连理工大学情感本体数据库,可以计算出7个情感词在文本中的分布情况。由于本文仅使用情感分析对象类,有兴趣的读者可以自行学习情感分析类。
AirPods产品评论信息的情感分析,默认情况下,只能使用2句代码。是的,就是这么方便!
senti = Sentiment()
result = senti.sentiment_count(txt)
txt 是我们的目标文本。首先,我们需要调用情感分析类 Sentiment()。如果没有设置参数,则表示使用默认条件进行初始化。然后使用 sentence_count() 函数计算正负情感词的统计量。以第二代AirPods为例,结果如下:
上述结果表明,总共有 18128 个词和 625 个句子。正面情绪词2221个,负面情绪词322个。
在情感分析类中,除了 sentence_count() 函数外,还有 sentence_calculate() 函数。有什么区别?这样可以更准确地计算出文本的情感信息。相比sentiment_count只统计文本中正负情感词的个数,sentiment_calculate还考虑情感词前后是否有强度副词修饰,情感词前后是否有否定词。同样以AirPods产品为例,使用这个函数,得到的结果是
可以看出,识别出的正面词应该使用加权的方法将频率提升为数值。
03.网页结构设计与实现
下一步是设计网页的结构。创建网页的第一件事就是构建一个想法图来确定功能是什么,那里有什么控件,以及控件的放置位置。对于功能,本文的主题是产品评论信息的文本挖掘,首先整合产品评论的初始文本并去除停用词。然后使用stylecloud库构建词云图,最后进行情感分析。此外,作者还希望完成以下功能:
确保功能如上。通过以上函数,本文可以判断哪些写控件可用:
文本控件用于存储介绍、正负情感词的比例、词云图的构建时间。图像(图)控件用于存储本地存储的词云图,以便在网络上显示。dataframe控件是用来展示原表结构类型数据侧边栏的控件,相当于我们平时在各大网站中看到的侧边栏目录,不过本文在侧边栏的作用不同。侧边栏下的文本控件。selectbox单项下拉选择框控件存储了各种型号的AirPods,相当于完成了类型分析功能的radio单选按钮控件。存储展示类型:原创表结构数据类型或文本挖掘结果展示。
按照常规的网页结构,必须设计控制位置的空间排列。但是对于新手来说,下一个超级web app的构建streamlit就不需要考虑了。
streamlit的official()配置文件如下:
在共享数据应用程序上构建的最快方法,在可共享的 Web 应用程序上显示数据,以 python 编程语言实现,无需前端经验。Streamlit 是第一个专门针对机器学习和数据科学团队的应用程序开发框架,它是开发自定义机器学习工具的最快方式,可帮助机器学习工程师快速开发用户交互工具。同时基于tornado框架,封装了大量交互组件,还支持大量表格、图表、数据表等对象的渲染,支持光栅化响应式布局。Streamlit 的默认渲染语言是 markdown;此外,Streamlit 还支持 html 文本渲染,
读者可能好奇做网站,认为前后端都用Python+streamlit 是很常见的事情。事实上,在streamlit建立之前,使用python的web creator一般前端使用html、css、JavaScript,后端使用python、Flask、Django。如果不使用 Python,则前端和后端都使用 D3。
所以本文使用的Python+streamlit前后端对新手创建web应用非常友好!
接下来先展示streamlit的快速使用:
先用 pip install streamlit 安装库,然后在命令行输入 streamlit hello。这时候会弹出一个窗口。这是内置的开放帮助文档。里面有各种各样的例子。以下是部分截图:
第一个是记录帮助信息的页面,里面存放着各种连接
然后在下拉框中选择plotting demo,点击显示如下:
这是一个加载了记录栏并且可以交互的绘图程序。
综上可以发现,运行streamlit并不是在anaconda等python编译器中运行,而是通过在命令框cmd中输入streamlit run .py文件来运行程序。
有兴趣的读者可以去streamlit的官网看看,学习一下。
04. 功能整合与效果呈现
最后一部分是本文的web app构建和功能集成部分。先编码
import streamlit as st
import pandas as pd
from cnsenti import Sentiment
import stylecloud
import time
st.title('AirPods智能耳机商品评论分析系统')
st.markdown('这个数据分析系统将以可视化形式挖掘某电商公司下苹果三种AirPods型号的商品评论信息')
st.markdown('Apple AirPods是苹果品牌的*敏*感*词*。目前有市场上销售主流是3中机型:**AirPods2代**、**Airpods pro**、**AirPods三代**。这款耳机的主要特点是:耳机内置红外传感器能够自动识别耳机是否在耳朵当中进行自动播放,通过双击可以控制Siri控制。带上耳机自动播放音乐,波束的麦克风效果更好,双击耳机开启Siri,充电盒支持长时间续航,连接非常简单,只需要打开就可以让iPhone自动识别。')
st.sidebar.title('数据分析系统控件')
st.sidebar.markdown('选择一款型号/可视化类型:')
DATA_URL=('苏宁易购_airpods系列.xlsx')
# @st.cache(persist=True) #如果只有一份数据,就可以用这个持久化,加快效率
def load_data():
data=pd.read_excel(DATA_URL)
return data
df = load_data()
df['评价内容'] = df['评价内容'].fillna(' ') # 填充缺失值
<p>
select = st.sidebar.selectbox('选择一款型号',df['商品标题'].unique())
# 在下拉框中得到选择的型号值
state_data = df[df['商品标题'] == select]
# 创建单项按钮选项值
select_status = st.sidebar.radio("可视化类型", ('表结构数据','文本挖掘'))
if select_status == '表结构数据':
st.text('该电商公司近期售卖产品的相关数据(以表结构化显示)')
st.dataframe(state_data)
if select_status == '评论可视化':
# 判断商品正负情感值
txt_list = state_data['评价内容'].tolist()
txt = ' '.join(txt_list)
senti = Sentiment()
result = senti.sentiment_count(txt)
start = time.time()
# 先在内部画出词云图并保存到image文件夹
stop_words = open('哈工大停用词表.txt','r',encoding='utf8').readlines()
stylecloud.gen_stylecloud(text=txt, collocations=True,
font_path=r'C:\Windows\Fonts\simkai.ttf',
icon_name='fab fa-jedi-order',size=(2000,2000),
output_name=r'img\词云图.png',
custom_stopwords=stop_words)
end = time.time()
spend = end-start
# 显示情感正负值在网页端
if result['pos'] > result['neg']:
st.markdown("#### 该商品的正负情感值比为{}:{},呈积极信号".format(result['pos'],result['neg']))
if result['pos'] < result['neg']:
st.markdown("#### 该商品的正负情感值比为{}:{},呈消极信号".format(result['pos'],result['neg']))
# 显示词云图
st.image(r'img\词云图.png',caption = '词云图')
st.text('运行时长:{} s'.format(spend))</p>
代码分析:
引入包后的前五行是设置这个网页应用的标题,这是一个AirPods智能耳机的产品评论和分析系统。然后下面是关于节目录制的简要信息的字幕。还存储了对 Apple 智能手机 AirPods 的简要介绍,以及它的独特之处。另外st.sidebar()函数将目标从主页面转移到侧边栏,在侧边栏中填写需要填写的信息。
之后,第一部分解释了加载数据、数据探索性分析、去除重复值和填充缺失值的操作。
select = st.sidebar.selectbox('select a model', df['product title'].unique()) 这句话是利用产品信息表中去重的产品标题,也就是第三代AirPods型号作为下拉框单选框选择的值。选择这个值后,可以使用pandas进行条件过滤,最后使用st.dataframe()函数显示表结构类型。
select_status = st.sidebar.radio("可视化类型", ('表结构数据','文本挖掘')) 表示设置单选按钮的值,即主页面显示哪个页面,即表格类型数据,或文本挖掘结果:词云图和情感分析结果。
if语句的设置如下:根据state_data结果,提取的数据是AirPods三代之一,然后写下首页显示的表格数据类型或情感分析,根据相关这一代车型的产品信息。然后if语句判断select_status是表结构数据还是文本挖掘,因为在本文的初始设置中,主页面只显示了两个可视化。
后一个 if 语句是为文本挖掘提供的,即用于情感分析。如第二部分所述,本文计算了正负情感词的比例。如果是正向情感词(positive情感词),则运行st.markdown("####本产品正负情感值比例为{}:{},呈现正向信号".format(result[' pos'], result['neg'])), 显示正信号。相反,这是一个负面信号。
这是对时间模块的参考。这个参考计算了词云图的构建时间,大概是30s。这种性能测试和评估在工作中也经常使用,因为工作中的数据与本文示例的大小不一样。
词云图构建的代码在第二部分也有提到,这里直接嵌入即可。同时,st.image 函数用于读取和显示本地图像。
此外,streamlit 还有一个友好的点就是它可以支持编写markdown 代码。以上文字控件大部分都是用markdown编写的,经常使用markdown的读者可以研究一下。
测评:三分钟科普 | 搜索引擎优化?和俺本地化有什么关系?(一)
前言
如果你去一些LSP(Language Service Provider)的官方网站,你会发现他们经常在网站本地化业务下覆盖一个叫做“搜索引擎优化”的服务。
T先生的这篇文章文章将简要介绍搜索引擎优化(SEO)的概念及其与本地化的关系,然后介绍SEO的实现方法。T先生预计会用2-3次推送来介绍SEO这个难的话题。
本文主要以科普为目的。所有信息均来自互联网采集、汇总、筛选和汇编。如有错误请后台留言。谢谢你的支持。
本地化的概念可以简单地解释为“调整产品以适应目标区域用户的使用习惯”。本地化的存在是为了服务于“最大化产品利润”的目的。对于一个国际化的产品来说,本地化过程中最重要的一点(之一)就是语言。
Common Sense Advisory (CSA) 和 Lionbridge 进行了市场调查,结果显示,72.4% 的消费者倾向于购买带有母语产品信息的产品。72.1% 的消费者在购买产品时只浏览其母语的 网站 内容。
本地化行业标准委员会 (LISA) 的一项研究还指出,公司每在本地化内容上花费 1 美元,就可以收回 25 美元。
上述两项研究有力地支持了内容本地化的重要性,但他们忽略了一点:如何让您精心本地化的产品能够被广泛的潜在用户群发现?
在互联网时代,消费者查找信息的首选是使用搜索引擎。但是,搜索引擎不一定会立即在搜索结果的首页上展示公司的产品。如果我们自己的产品不能出现在首页怎么办——换个角度看,作为消费者,我们还有多少耐心和时间翻页呢?
这是需要搜索引擎优化(SEO)的地方。这是一种通过提高在无偿搜索引擎结果中的排名来增加网站流量和品牌曝光度的技术。
SEO不仅依靠搜索引擎的原理来提高排名,更重要的是研究人们在网上搜索什么,人们期望得到什么样的答案,人们使用什么样的关键词,以及人们想要得到什么样的服务内容。如果所有这些都被理解,公司可以定制他们的产品,以更好地匹配他们潜在用户群的搜索习惯——理想情况下,用户会在主页上看到你为他们提供的内容。
除了了解用户,您还需要了解机器。搜索引擎就像一个黑匣子——我们一直在使用它,却不知道它是如何工作的。这一次,T先生用简单的语言尽可能清楚地解释了它。
1 搜索引擎原理简介
搜索引擎的工作原理大致可以分为三个部分:
1、爬取:在网上检索内容,找到内容对应的code/URL。
2、索引:将爬取过程中发现的内容有序存储;如果页面在索引中,它将显示为相关的搜索结果。
3. 排名:按照相关性降序排列搜索结果。
在爬取过程中,搜索引擎通过一组程序(称为“爬虫”或“蜘蛛”)发现/更新 Internet 上的内容。所谓内容,可以指网页、图片、视频、网页附件——它们都有一个叫做统一资源定位器(Uniform Resource Locator,URL)的“ID号”。爬虫找到网页内容和对应的URL并存储,然后根据网页内容中的其他URL跳转到其他内容。
搜索引擎存储的内容就像一本字典,索引是拼音或部首搜索。爬取的内容需要分析并存储在索引数据库中。专门分析数据库中网页的文本内容。
当用户进行搜索时,搜索引擎会从索引数据库中检索高度相关的内容并对其进行排名。这种基于相关性对搜索结果进行排名的方法称为排名。一般认为网站的排名越高,搜索引擎认为网站与查询的相关性越高。
1.1 告诉搜索引擎:“过来”
有时公司不希望某些页面出现在搜索引擎中,例如页内广告、过期内容、私有内容等。网站开发人员可以通过一些方法告诉爬虫不要抓取此类页面的内容(例如 robots.txt)。当然,公司在推广产品时,肯定希望产品描述页面被搜索引擎抓取。因此,如果您希望内容被搜索引擎发现,首先要确保它可以被爬虫访问并且可以索引。否则,就像隐形一样。
以谷歌为例,使用高级检索方式“site:”可以返回一个站点在谷歌索引中的所有结果。通过谷歌搜索控制台(Google Search Console)还可以实现更准确的索引结果查询和监控。这其实是搜索引擎优化的第一步:检查你的网页是否被索引,哪些被索引,重要页面是否被索引。
抓取预算
爬取预算可以理解为搜索引擎爬虫在离开站点之前爬取的平均 URL 数量。合理的爬取预算可以让爬虫爬取更重要的页面,避免在无用的信息/页面上浪费时间。同时,这也意味着用户搜索时内容相关性可以更加集中。
最后,用户在构建网站时还是需要通过HTML代码来指导搜索引擎如何处理你的页面。这样的指令称为元指令或元标记。它们通常存在于 HTML 页面的标签中。有兴趣的读者可以自行了解。
1.2 搜索引擎:坐成一排吃水果
搜索引擎用于根据内容相关性对结果进行排名的技术基于复杂的算法。谷歌几乎每周甚至每隔几天都会更新其排名算法。如今,机器学习和自然语言处理也在帮助搜索引擎获得更好的排名。
RankBrain 是谷歌搜索引擎核心算法的机器学习组件。机器学习也是一种通过大量数据不断改进预测的技术。换句话说,它总是在学习。因为它一直在学习,所以搜索排名结果不断提高。
用户与搜索结果的交互也会影响搜索引擎的改进。一般有四个因素:
这四个指标构成参与度指标。
不同的搜索引擎需要自己的SEO
不同的搜索引擎有不同的排名算法。理论上,国际产品的本地化需要针对不同的搜索引擎实施SEO策略,但谷歌占据了国际市场的绝大部分份额。在预算有限的情况下,产品优先为谷歌做SEO。但放眼中国大陆,SEO需要瞄准百度。
一家公司看完后,可以通过一些方法让其网站被搜索引擎捕获,检测网站的流量。接下来,T先生将介绍如何合理安排网站的内容,让用户在使用关键词进行搜索时,网站能被搜索引擎准确捕捉并呈现给用户-满意的内容。
2 关键词研究
在搜索引擎输入框中输入关键词,回车,就会呈现上千条结果,而我们往往只浏览前一两页的结果。
关键词研究有助于提高对目标市场的理解,以及客户在产品本地化过程中如何搜索内容、服务和产品。一般关键词研究主要是回答以下三个问题:
人们在寻找什么?
有多少人搜索它?
人们希望如何呈现信息?
在进行关键词 研究以优化搜索结果之前,首先,我们的产品是做什么的?我们的客户是什么样的?我们的目标是什么(高点击率?高销量?高下载量?)?
例如,美国西雅图的一家素食和无麸质“健康”冰淇淋连锁店计划进行 SEO。有哪些需要考虑的关键点?
人们在寻找什么冰淇淋、甜点、小吃?
谁在寻找这些产品?
人们什么时候在寻找冰淇淋、小吃、甜点等?
人们如何找到冰淇淋?
人们为什么要寻找冰淇淋?
潜在客户在哪里 - 本地?全国?全世界?
虽然产品制造商有 10,000 种方法可以将他们的产品炒作大肆宣传,但客户的搜索方式才是最重要的。有一个用于分析 关键词 搜索的工具。输入一个关键词后,会给出几个相似的关键词/短语,并呈现它们的月平均搜索量变化图。
2.1 关键词,长尾,季节和地区
关键词 的数量和平均每月搜索频率符合长尾理论。20% 的 关键词 每月的搜索量可以达到 10 万次或更多,而其余 80% 的 关键词(它们是长尾)的平均每月搜索量可能不到 1 万次。因此,专注于几个关键词进行内容优化是一个合理的选择。
同时,大厂早早占据了最高最高频率关键词。作为小型企业/初创公司,最好选择频率稍低的关键词/短语。影响。例如,一家小型冰淇淋店完全有理由放弃冰淇淋等高频词,并投资于更具体的关键词如有机牛奶和*敏*感*词*淇淋进行优化。
季节和地区也可能影响 关键词 研究。例如,《送给女朋友的圣诞礼物》的检索量在10-12月势必会大幅增加。提前计划更新内容 网站 可以让企业抢占先机。谷歌的关键词分析工具Google Keyword Planner,可以细化到市、省、国家三级,让开发者进行关键词研究。例如,半挂车在德克萨斯州更常被称为“大型钻机”,在纽约被称为“拖拉机拖车”,显示了术语对 SEO 策略的影响。
2.2 消费者的目的
谷歌将用户的搜索行为概括为大致四种类型,分别对应用户的各种检索目的,即:
当用户将目的放在输入框的搜索格式上时,谷歌总结了以下五种类型:
您可以根据以上类别,绘制出更精细的用户意图,然后布局您的 SEO 策略。自搜索引擎诞生以来,全球所有互联网用户的搜索行为已经进行了数万亿次。谷歌可以依靠这些数据提供几乎完美的搜索结果,商家也可以使用这些数据进行“完美”的 SEO。
本节中的信息取自 Google Quality Rater Guidelines:
这篇文章文章,T先生分两章简要介绍了SEO的准备工作,下一篇文章与SEO实践相关:SEO是通过安排网页内容和代码设计来实现的。请期待它。谢谢~