采集相关文章(本文转载自微信**运营喵是怎样炼成的(图))
优采云 发布时间: 2021-12-23 18:03采集相关文章(本文转载自微信**运营喵是怎样炼成的(图))
本文转载自微信*** 操作喵是怎么做出来的?
自从“大数据”这个词流行起来,与数据相关的一切便如雨后春笋般涌现。网络爬虫、Web采集、网络挖掘、数据分析、数据挖掘等。有些词在某些时候是可以互换的,这使得它更难理解。在竞争激烈的营销行业中,深入全面地了解这些术语将有利于业务改进。
什么是数据采集?
8月,写了一篇关于外部数据分析的文章文章,《作为一个合格的“增长黑客”,一定要注意外部数据的分析!外部数据跳出了原企业原有的内部数据分析(用户数据、销售数据、流量数据等),往往会给产品、运营、营销带来意想不到的结果。启蒙为数据驱动的业务增长打开了一扇窗……
Data采集是指从网上资源中获取数据和信息。它通常可与网页抓取、网页抓取和数据提取互换。采集是一个农业术语:采集田间成熟的作物,具有采集和搬迁行为。数据采集是从目标网站中提取有价值的数据并以结构化的格式放入数据库的过程。
针对这种情况,笔者将继续从数据采集、数据清洗、数据分析、数据可视化到另一个案例的全过程进行分析,力求清晰展现外部数据分析的强大威力。以下是本文的写作框架:
要进行数据采集,需要一个自动搜索器解析目标网站,捕获有价值的信息,提取数据,最后将其导出为结构化的格式以供进一步分析。因此,数据采集不涉及算法、机器学习或统计。相反,它依赖于诸如 Python、R 和 Java 之类的计算机程序来运行。
有很多数据提取工具和服务提供商提供数据采集工具和服务。Octoparse 是一个易于使用的网页抓取工具。无论您是初学者还是经验丰富的程序员,Octoparse 都是 采集 网络数据的最佳选择。
1 分析背景
1.1 分析原理---为什么选择分析虎嗅网络
在当今数据爆炸、信息质量参差不齐的互联网时代,我们无时无刻不在处于互联网社交媒体的“信息洪流”中,难免被其上的信息洪流“拖累”,也就是说,社交媒体上的信息对现实世界中的每个人都有重大影响。社交媒体是我们间接了解客观世界和主观世界的窗口。我们无时无刻不在受到它的影响。关于“社交媒体”的内容,请参考《干货|如何用社交聆听从社交媒体中“提炼”出有价值的信息?》,以下也节选自文章:
什么是数据挖掘?
结合以上两种情况,我们可以得出结论,通过社交媒体,我们可以观察现实世界:
数据挖掘经常被误解为获取数据的过程。虽然两者都涉及到抽取和获取的行为,但是采集集合数据和挖掘数据还是有本质区别的。数据挖掘是指从数据库中的大量数据中揭示隐藏的、以前未知的和潜在有价值的信息的重要过程。数据挖掘主要基于人工智能、机器学习、模式识别、统计、数据库、可视化等技术。它以高度自动化的方式对企业数据进行分析,进行归纳推理,从中挖掘出潜在的规律,帮助决策者调整市场策略。降低风险并做出正确的决定。
因此,社交媒体是真实主客观世界的一面镜子,它将进一步影响人们的行为。如果我们分析该领域优质媒体发布的信息,不仅可以了解该领域的发展过程和现状,还可以在一定程度上预测人们在该领域的行为。
针对这种情况,作为互联网从业者,我想分析一下互联网行业的一些现状。第一步,寻找互联网行业具有重要影响力的媒体。上次分析《人人都是产品经理》(请参考《干货|作为一个合格的“增长黑客”,一定要注意对外部数据的分析!),这次笔者想到了虎嗅网。
虎嗅网成立于2012年5月,是一个聚合优质创新信息和人的新媒体平台。平台专注于贡献原创,深入、犀利、优质的商业信息,围绕创新创业进行分析交流。虎嗅网的核心是关注互联网与传统行业的融合、一系列明星企业(包括上市公司和创业企业)的风风雨雨、行业大潮的力量和趋势。
因此,分析平台上发布的内容对于研究互联网的发展历程和现状具有一定的实用价值。
在著名的剑桥分析丑闻中,他们采集并分析了超过 6000 万 Facebook 用户的信息,并圈出了“不确定自己投票意图的人”。随后,剑桥分析采取了“心理导向”策略,用煽动性信息轰炸这些人,以改变他们的选票。它是数据挖掘的典型但有害的应用。数据挖掘发现他们是谁以及他们做什么,从而帮助做出正确的决策和实现目标。
数据挖掘有以下几个要点。
1、分类。
1.2 本文的分析目的
从数据集中提取描述数据类的函数或模型(通常称为分类器),并将数据集中的每个对象分配给一个已知的对象类,以预测未来数据的分类。
分类目前在业务中被广泛使用,例如银行*敏*感*词*的信用评分模型。利用数据挖掘技术,建立*敏*感*词*申请人信用评分模型,有效评估*敏*感*词*申请人,降低坏账风险,保证*敏*感*词*业务盈利。数据挖掘是如何进行的?采集大量客户背景、行为和信用数据,计算年龄、收入、职业、教育程度等不同属性对信用的影响权重,从而建立科学的客户信用评价数学模型. 基于此模型,银行可以有效识别“好客户”和“坏客户”。换句话说,从您提交*敏*感*词*申请的那一刻起,银行就可以做出决定:
2、 聚类
笔者在本项目中的分析目的主要有四个:
它不同于分类技术。在机器学习中,聚类是一种无监督学习。换句话说,聚类是一种在事先不知道要划分的类的情况下,根据信息相似性原理对信息进行聚类的方法。
例如,亚马逊根据每个产品的描述、标签和功能将相似的产品组合在一起,以便客户更容易识别。
3、返回
(1)沪湘网内容运营分析,主要是对发帖量、采集量、评论量等的描述性分析;
(2) 通过文字分析,对互联网行业的一些人、公司、子领域进行有趣的分析;
(3) 展示文本挖掘在数据分析领域的实用价值;
回归用于预测和建模数值和连续变量。
(4) 将无序的结构化和非结构化数据可视化,展现数据之美。
例如,预测明天的温度是一个回归任务;预测明天是阴天、晴天还是下雨是一项分类任务。回归在商业中的主要应用包括房价预测、股票趋势或测试结果。
4、 异常检测
检测异常行为的过程,也称为异常值。常见原因有:数据来自不同的类别、自然变异、数据测量或采集错误等。
银行使用这种方法来检测不属于您正常交易活动的异常交易。
1.3分析方法---分析工具和分析类型
5、联想学习
联想学习回答了“一个函数的值如何与另一个函数的值相关联”的问题。
例如,在杂货店,购买汽水的人更有可能一起购买品客薯片。购物篮分析是关联规则的一种流行应用。它可以帮助零售商确定消费品之间的关系。
本文作者使用的数据分析工具如下:
Python3.5.2(编程语言)
Gensim(词向量,主题模型)
可以说,数据挖掘是大数据的核心。数据挖掘的过程也被认为是“从数据中发现知识(KDD)”。它阐明了数据科学的概念,并有助于研究和知识发现。数据挖掘可以高度自动化地对互联网上的各类数据进行分析,进行归纳推理,从中挖掘出潜在的规律,帮助决策者调整市场策略,降低风险,做出正确的决策。
Scikit-Learn(聚类和分类)
Keras(深度学习框架)
Tensorflow(深度学习框架)
解霸(分词和关键词提取)
Excel(可视化)
Seaborn(可视化)
新浪微信舆情(感性语义分析)
散景(可视化)
Gephi(网络可视化)
情节(可视化)
使用以上数据分析工具,笔者将进行两种数据分析:第一种是比较传统的基于数值数据描述的统计分析,比如时间维度上的读数和采集分布;另一个是本文的亮点——深度文本挖掘,包括关键词提取、文章内容LDA主题模型分析、词向量/关联词分析、DTM模型、ATM模型、词汇散点图和词聚类分析。
2数据采集和文本预处理
2.1Data采集
作者使用爬虫采集从虎嗅网首页到文章(不是全部文章,但首页显示的信息是主编精心挑选的,是很有代表性),数据采集的时间间隔为2012.05~2017.11,共41121篇。采集的字段为文章标题、发布时间、采集量、评论量、正文内容、作者姓名、作者自我介绍、作者发帖量,然后作者手动提取4个特征,主要是时间特征(时间点和星期几)和内容长度特征(标题字数和文章字数),最终得到的数据如下图所示:
2.2数据预处理
在数据分析/挖掘领域有一条黄金法则:“垃圾进,垃圾出”。做好数据预处理对于获得理想的分析结果至关重要。本文的数据规制主要是对文本数据进行清洗,处理的项目如下:
(1)文本分词
进行文本挖掘,分词是最关键的一步,直接影响后续的分析结果。作者使用 jieba 对文本进行分割。它有3种切分模式,分别是完整模式、精确模式和搜索引擎模式:
·精准模式:尽量把句子截得最准确,适合文本分析;
·完整模式:扫描句子中所有能组成词的词,速度很快,但不能解决歧义;
·搜索引擎模式:在精确模式的基础上,对长词再次进行分词,提高召回率,适用于搜索引擎分词。
现以《新浪微信舆情聚焦社交化大数据场景化应用》为例,三种分词模式的结果如下:
【全模式】:新浪/微舆论/新浪微舆论/聚焦/聚焦/社交/大数据/社交大数据/化/场景/应用
【精准模式】:新浪微信舆情/聚焦/聚焦/社会化大数据/之/场景/应用
【搜索引擎模式】:新浪、微信、新浪微信、焦点、焦点、社交、大数据、社交大数据、场景、应用
为了避免歧义,切出符合预期效果的词汇,作者采用了精确(分词)模式。
(2)去停词
这里的去停词包括以下三类:
标点符号:,。!/, *+-
特殊符号:❤❥웃유♋☮✌☏☢☠✔☑♚▲♪等。
无意义的虚词:“the”、“a”、“an”、“that”、“you”、“I”、“them”、“want”、“open”、“can”等。
(3) 去除高频词、生僻词并计算Bigrams
高频词和稀有词的去除用于后续的主题模型(LDA、ATM),主要是去除对区分主题意义不大的词,最终得到类似停用词的效果。
Bigrams是自动检测文本中的新词,基于词之间的共现关系---如果两个词经常相邻出现,那么这两个词可以组合成一个新词,比如“数据” ,” “产品经理”经常一起出现在不同的段落中,所以“data_product manager”是由两者合成的新词,但两者之间有一个下划线。
3 描述性分析
在这部分,作者主要对数值数据进行描述性统计分析。它是一种更常规的数据分析,可以揭示一些问题并意识到它们。四类数据分析请参考《干货》|作为一名合格的“增长黑客”,一定要注意外部数据的分析!“第一部分。
3.1 帖子、评论和采集数量的趋势
从下图可以看出,2012.05~2017.11期间,首页发帖数每季度略有波动,波动在1800左右,进入2016年,发帖数量大幅增加。
另外,一端(2012年第二季度)和另一端(2017年第四季度)没有完全统计,所以帖子数量很少。
下图显示了这段时间的采集和评论数量的变化。评论数变化不惊,波动不大,但采集一直在上涨,尤其是2017年二季度达到顶峰。采集数量一定程度上反映了文章的干货和价值。只有那些文章读者认为有价值的才会被保留和采集。经过反复阅读,包括英祖花,这说明虎嗅文章质量在提升,或者说阅读量在增长。
3.2发表时间规律分析
作者从时间维度提取了“周”和“周期”的信息,即开篇提到的“人工特征”的提取,现做文章关于“周”和“周”的分布号“时间”交叉分析,得到下图:
上图为热图,色块颜色由暖变冷表示值由大变小。很明显,你可以看到中间有一个颜色清晰的区域,也就是“6点~19点”和“周一~周五”所包围的矩形,也就是发帖时间主要集中在工作日的白天。. 另外,周一到周五,6:00到7:00是发帖高峰期,这说明Husniff的内容运营商倾向于在工作日的凌晨发布文章,也就是也符合它的人群定位——TMT领域的工作者、创业者、投资人,很多都有晨读的习惯,喜欢在坐地铁、坐公交的时候看虎嗅消息。上午9点到11点还有一个高峰,提前回复午休时间的读者阅读,17:00到18:00提前回复下班时间的读者阅读。
3.3 相关分析
作者一直很好奇文章的评论数、采集数、标题词数与文章的词数之间是否存在统计上的显着相关性。基于此,作者绘制了两张能够反映上述变量之间关系的图表。
首先,作者在标题字数、文章数和评论量之间做了一个气泡图(圆形气泡换成了六角星,但本质上是气泡图)。
上图中,横轴为文章字数,纵轴为标题字数。评论数通过六角星的大小和颜色来体现。颜色越暖,数值越大,五角星越大,数值越大。从这张图可以看出,评论量较大的文章大部分分布在文章6000字和标题20字组成的区域。Tigersniff网站上的大部分商业信息文章都具有原创的特点和深度。文章的长度意味着事情背后的来龙去脉可以说清楚,标题一定要吸引人。引起广大读者的阅读,
接下来,作者将采集量、评论量、标题字数、文章字数绘制成3D立体图。X轴和Y轴分别是标题字数和正字数,Z轴是采集量和评论量形成的平面。,通过旋转这个3维Surface图,我们可以找到采集数、评论数、标题字数和文章字数之间的相关性。
请注意,上图中的数字表示与前面的相同。从暖到冷的颜色代表数值从大到小。通过旋转每个维度的横截面,可以看到标题中的字符数在5000字以内,标题中的字数为15个字。左右藏书评所形成的断面出现“华山”陡峭的山峰,所以这里的藏书评语是最大的。
3.4个城市提及分析
在这里,作者构建了一个全国1-5线城市的词汇表,提取预处理文本中的城市名称,根据提及频率Maps绘制出反映城市提及频率的地理分布图,然后间接理解每个城市的互联网发展状况(一般城市的提及与互联网行业、产品和职位信息相联系,可以在一定程度上反映该城市互联网行业的发展趋势)。
上图反映的结果更符合常识。北京、上海、深圳、广州、杭州等一线城市被提及次数最多,是互联网产业发展的重要城市。值得注意的是,长三角大片地区(长三角城市群,包括上海、南京、无锡、常州、苏州、南通、盐城、扬州、镇江、江苏泰州、杭州、宁波、和浙江宁波)嘉兴、湖州、绍兴、金华、舟山、台州、合肥、芜湖、马鞍山、铜陵、安庆、滁州、池州、安徽宣城)人气高,直接说明这些城市是在虎嗅网。信息 文章 有更多提及,
长三角城市群是“一带一路”与长江经济带的重要交汇点。是中国参与国际竞争的重要平台和经济社会发展的重要引擎,是长江经济带发展的先导区和中国城镇化基础最好的地区之一。
接下来,笔者将提取文中城市间的共现关系,即城市间两次同时发生的频率,在一定程度上反映了城市间的经济、文化、政策等相关关系,共现频率越高,两者联系越紧密,提取结果如下表所示:
以上结果绘制成如下动态流程图:
上一篇:以虎嗅网络4W+文章的文本挖掘为例,详细介绍一套完整的数据分析过程聚类算法k-means 下一篇:Python机器学习(八)的数据)什么是分类,什么是聚类?