基于兴趣轻博客网站拓扑特点剖析.doc 6页

优采云 发布时间: 2020-08-20 23:15

  基于兴趣轻博客网站拓扑特点剖析.doc 6页

  基于兴趣轻博客网站拓扑特点剖析 摘要:为了了解新型在线社会网路——轻博客网站的拓扑特点,该文以国外最大的轻博客网站——点点网为研究对象,根据用户间兴趣关系建立兴趣网路,从小世界效应、无标度特点和中心度等角度对该网路进行了实证剖析,为进一步认识和研究轻博客网站奠定了基础。 关键词:轻博客;社会网路剖析;复杂网路;拓扑特点;中心性 中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)22-5033-04 根据Garry Tan 2013年一月的*敏*感*词*表明,2007创立的轻博客网站Tumblr早已赶超Facebook,成为日本年轻人访问最多的社交网站[1]。随着Tumblr的迅速崛起,国内也出现了各类类Tumblr的网站。2011年,许朝军创立了点点网,此后新浪Qing网,网易的lofter、人人网的人人小站、盛大推他等一批Tumblr的追随者都朝着轻博客的方向大步前进。轻博客这些新型的在线社会网路(Online Social Network, 简称OSN)极可能迎来一个高速发展期。同时,轻博客在中国还是一个新生事物,国内尚未见相关研究。因此,结合社会网路剖析和复杂网路理论,研究轻博客网站的拓扑特点,不仅能建立*敏*感*词*对OSN拓扑特点的理论探求,而且有助于了解轻博客中人际关系和信息传播的特点,同时也对实现轻博客舆论的检测、引导、控制等提供重要根据和基础。

   1 点点网的数据采集 本文选定国外典型的轻博客网站——点点网作为研究对象,这是因为相比其他,被称为“Tumblr中文版”的点点网是最纯粹的轻博客,其网路结构特点具有太强的代表性。 1.1面向点点网的网路爬虫 采集网站数据的方式有基于API的数据采集和基于网路爬虫的数据采集。通过调用网站提供的API接口可以实现网站数据的方便抓取与解析,但也要注意:一是API内容开放不全面,例如点点网API是在2011年12月才对外开放,API的种类也极少,目前不到30个;二是API服务商对用户的API接口调用频度与查询的返回结果的最大数目有限制,点点网就规定查询的返回结果不超过20个;三是使用API接口须要解决用户认证问题,如果待获取用户条目太多则会占用大量系统开支等待用户授权许可。因此,该文在开源软件Heritrix的基础上,采用基于网路爬虫的数据采集技术来获取点点网的数据。 从图1可以发觉,点点网在整篇轻博文下边都有“热度”,标注喜欢、转载和推荐该文的用户列表。查看源码,发现“热度”是一个内嵌网页,页面源码中内容比较少,更多的内容实际上是采用AJAX(Asynchronous Javascript and XML)技术[2]加载下来的。

  如果直接用Heritirx原有的抓取方式,抓取不到真正的用户列表。所以,必须对Heritirx的Extracotr类进行扩充,扩展后的新类DiandianExtractor重载extract方式,在抓取页面、抽取链接的时侯,直接对“热度”部分进行剖析,通过Selenium WebDriver API驱动浏览器内核PhantomJS,模拟浏览器获取AJAX内容,得到和页面呈现一致的页面内容,再通过Jsoup解析页面内容,并把剖析结果存到MYSQL数据库里。至此,AJAX页面采集问题得到真正解决。 1.2 数据集 据点点网自身统计数据显示,目前点点网注册用户数早已达到1919万,帖子数达到3547万,数据采集量非常庞大且处于动态变化之中,要获取整个网路的拓扑数据非常困难,因此本文采用滚雪球采样法,依据“兴趣标签”,随机选择两个标签下边的“杰出轻博客”的某篇轻博文作为*敏*感*词*,利用点点网用户之间的兴趣关系进行广度优先搜索。搜索页面的URL富含“post/”和“n/common/comment”,前一种页面主要由某用户发表的所有博文组成;后一种页面包括所有“喜欢”、“转载”、“推荐”该用户博文的其他用户列表。

   数据采集器最终抓取逾600万页面,总容量接近60G。通过对这逾600万页面信息的实时抽取,共1898356条记录储存到MySQL数据库里。其中,数据表结构包括id、username(用户名)、inname(链入用户名)、type(链入用户是哪种类型用户:喜欢、转载还是推荐)、link(该记录从那个链接得来的)。经过去重(从数据表中删掉username和inname都相同的记录),得到825057条可用记录用于后续网路拓扑检测。 2 点点网的拓扑特点 2.1网路拓扑检测 3 结论 本文选定国外最大的轻博客平台——点点网作为研究对象,根据采集下来的点点网样本数据,构造一个基于“发文←喜欢、转载和推荐”互动的兴趣关系网路。通过开源工具Pajek统计点点网的拓扑特点,如平均路径宽度、聚集系数、出入度分布、连接度相关性及中心性等,发现点点网存在小世界效应和无标度特点,网络中存在中心节点,即少量用户在信息发布和传播中起着至关重要的作用,这为进一步研究轻博客的人际关系和信息传播特点奠定了基础。 参考文献: [1] *敏*感*词*. 影子大亨Tumblr的成功之道 [EB/OL]. [2013-02-21]. http:///p/201458.html?ref=weixin0222m. [2] 罗兵.支持AJAX的互联网搜索引擎爬虫设计与实现[D].杭州:浙江大学,2007:14-40. [3] Alan Mislove, Massimiliano Marcon, Krishna P.Gummadi. Measurement and Analysis of Online Social Networks[C]// IMC'07: Proceedings of the 7th ACM SIGCOMM Conference on Internet Measurement. New York: ACM Press, 2007: 29-42. [4] Feng Fu,Lianghuan Liu,Long Wang.Empirical analysis of online social networks in the age of Web 2.0[J]. Physica A, 2008(387):675–684. [5] 樊鹏翼,王晖,姜志宏,等.微博网路检测研究[J].计算机研究与发展, 2012,49(4):691-699. [6] Albert R, Barabasi A L.Statistical mechanics of complex networks[J]. Reviews of Modern Physics, 2002, 74(1):47-97. [7] Wilson C,Boe B,Sala A,et a1.User interactions in social networks and their implications[C]//Proceedings of the 4th ACM European Conference on Computer Systems.New York:ACM, 2009:205-218. [8] 陈静,孙林夫.复杂网路中节点重要度评估[J].西南交通大学学报,2009,44(3):426-429.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线