社会网络的舆情信息分析与可视化
作者:许星 席鹏富 秦天
来源:《计算机光盘软件与应用》2013年第12期
摘 要:社交网络作为一个虚拟社会,人们在网络上的行为与现实生活的行为具有共性。当前,分析网络用户的行为规律,例如人们在网络上的个体流行程度和活跃程度等已经成为了研究热点。但是,目前的研究还局限于定性或者半定量的统计性质分析,缺少理论以及背后机理分析。本文主要介绍了网络数据的抓取,实现数据的可视化以及舆情信息的分析三个方面。 关键词:社交网络;据抓取;可视化;舆情信息分析 中图分类号:TP393.09 1 前言
社交网络作为一个虚拟社会,人们在网络上的行为与现实生活的行为具有共性。同时,社交网络作为复杂网络的一种,研究其网络结构性质同样具有重要的意义。但是,目前的研究还局限于定性或者半定量的统计性质分析,缺少理论以及背后机理分析。目前公安舆情监控主要集中在各大新闻、论坛、贴吧、问答、电子报、视频、博客中等,但是忽视了与社交网络信息传播规律的结合。社交网络本身比较抽象,对于节点数比较多的网络,在计算机中通常是以各种数据格式进行存储,很难以直观的方式展现,更难以动态的观察网络的发展变化过程。如果仅用数据表格或文字的形式来表示网络,理解起来非常困难,导致网络所包含的有价值的信息不能直观的体现出来。 2 背景及现状 2.1 社会性网络研究
社会性网络服务(socialnetworkservice,SNS)是Web2.0体系下的一个技术应用架构。SNS通过网络聊天、博客、播客和社区共享等途径,实现个体社交圈的逐步扩大,最终形成一个联结“熟人的熟人”的大型网络社交圈,充分反映出人类社会的六度分离特征。在国外,首屈一指的SNS网络———Facebook拥有超过千万的用户,成为全世界最大的社交网站。社交网络作为一个虚拟社会,人在SNS网络上的行为与现实生活的行为具有共性。分析网络用户的行为规律,例如人在SNS网络上的个体流行程度和活跃程度等已经成为了研究热点。 2.2 可视化研究
计算机最早多用于科学计算和数据处理,但由于技术的限制,对数据主要只能进行批量处理,而不能进行交互处理或对计算过程进行有效的控制,对相关数据的显示与处理过程的表示存在一定局限性,一些海量数据集或复杂过程就难于直观地表达出来。随着科学研究领域的不
龙源期刊网 http://www.qikan.com.cn
断扩大,在超级计算机、飞行器、气象、医学和勘探等领域产生了大量的数据,一种能处理和解释这些海量数据的技术,科学计算可视化就此产生。
科学计算可视化(visualizationinscientifieeo,nputing,简称VISC)是指应用计算机图形学和图像处理技术,将科学计算过程中产生的数据或产生的结果数据,转换为人们容易理解的图形图像形式,并在屏幕上显示出来。科学计算可视化把科学计算过程中的数据或结果转变成人的视觉可以感受到的计算机图像,这些图像可以将大量的信息有机地组织在一起,形象地显示数据所表示的内容及其相互间的关系,从而可以使许多抽象的、难于理解的方法、原理和规律的表示变得简单直观,许多繁冗枯燥的数据可以一种生动明了的形式呈现出来。
数据可视化技术主要包括五种,分别是:标准2D/3D显示技术、基于几何的技术、基于图标的技术、基于层次的可视化技术和基于层次的可视化技术,其中标准2D/3D显示技术就是将数据画成折线图、条形图、柱状图、饼图、散点图、分位数图、回归曲线图。基于几何的技术是几何画法或者几何投影的方式表示数据集中的数据用线或曲线来表示数据各维变量的联系。包括地形图、散点图、映射追踪图和平行坐标等方法。其中聚类结果的平行坐标如图1所示。
基于图标技术的基本思想是用一个简单图标的各个部分来表示数据各维的属性,基于图标可视化方法包括枝形图、颜色图标和形状编码等等。该技术适用于维属性值在二维空间内具有良好展开属性的数据集。基于层次的可视化技术是将高维数据空间划分为若干个子空间,这些子空间仍然以层次结构的方式组织并以图形表示。基于层次的可视化方法多利用树形结构,可以直接应用于具有层次结构的数据,也可以对数据变量进行层次划分,在不同层次上具有不同属性值。基于层次的可视化技术主要有维、树图、维嵌套等等。面向像素的技术是将每个数据项的数值对应一个带颜色的屏幕像素,使用不同的窗口分别表示不同的数据属性。这种技术主要利用圆周分割模型、递归模型、螺旋模型等方法分布数据,其目的是在屏幕窗口上显示尽量多的数据。
2.3 社会性网络舆情研究
舆情的分析可以归为两类,静态发现和动态发现。静态发现是指比较传统的方法,例如问卷调查,电话调研等,因为时间和空间的限制,这种方式已经逐渐被动态发现所取代,动态发现是指对电子文本数据的自动分析,通过收集报纸,杂志,网络文本等数据,然后对其进行分析发现舆情。通常,分析的手段主要包括文本的分类和聚类,分类是指将文本分到指定的类中,如将一篇报道西藏问题的文本分到政治这个类别中;聚类是指按相似性将文本以组的形式聚在一起,组内的成员之间的相似度高于组内和组外成员之间的相似度。但是舆情是变化的,具有动态性、传染性、突发性等特点,某个事件可能诱发另外一个事件的爆发,今天不是舆情的事件到了明天就有可能成为一个舆情,因此单纯的聚类和分类对于舆情的潜在发现还是很不足的。最近几年,随着数据挖掘的兴起,越来越多的研究机构将数据挖掘的方法引用到了舆情发现,关系数据挖掘成为了一个热点,通过关联分析可以发现事件之间潜在的联系,对于舆情事件传染性的发现还是卓有成效的。
龙源期刊网 http://www.qikan.com.cn
3 研究过程与方法
首先对新浪微博的数据进行抓取,然后将采集来的信息进行预处理和加工,归整成具有同一数据格式的数据集,使得便于理解,易于显示。使用图形显示方法,并通过显示设备可视化数据,最后借用斯坦福大学研制的protovis插件实现社交网络的可视化。 3.1 数据抓取以及存储
微博信息采集,利用文献[8]中提出的新浪微博数据挖掘方案即基于API与网页解析方案相结合的方法。OpenAPI是指一种微博服务商将自己提供的服务封装成一系列API接口,通过调用这些数据接口可以获取微博内容、评论、用户、关系等信息。其中新浪和腾讯提供的API最为丰富,而且新浪微博是国内最大的在线社会网络,因此本文信息采集的来源定为新浪微博。为了均衡服务器的负载,微博服务商对不同用户设置了不同的API接口调用频率与查询范围。新浪微博不仅限制了一次请求最多只能返回5000个结果和普通授权用户每小时接口最多只能使用1000次,而且拒绝短时间内高频率的API接口调用。因此在采集微博信息中我们采用了基于API与网页解析方案相结合的方法,如图2所示。
(1)获取器:通过调用API接口返回JSON格式文件方式收集博主信息;
(2)爬虫器:通过分布式爬虫方法抓取微博内容,并利用Dom解析html和抽取信息。 其中n个获取器和爬虫器分别运行在n个slaver机器上,调度器运行在master机器上。 本系统利用词频-逆向文本频率TFIDF向量表示法来表示微博内容的特征向量。在不考虑词间次序和文本结构的前提下,这种表示方法针对微博内容中的所有词(在文本切词阶段对去除@微博用户和短链接的微博内容,通过庖丁解牛分词处理取得词语),所以本质上讲它也是一种微博内容的词集表示法。类似于结构化数据库的一条记录,一条微博内容的TFIDF特征向量某种程度上反映了该微博的内容特征。以一个矩阵来表示所有微博内容集合文本信息,矩阵中的列集为特征集,行集为所有已爬取的微博内容集合。如图3所示,微博内容写入HBase库,微博索引写入索引库,特征矩阵写入特征库。 3.2 实现可视化
在该项目中,我们利用protovis插件在火狐浏览器上把数据库中的数据可视化出来。 3.2.1 平行坐标图
下面介绍我们利用可视化技术来处理数据的优势,图3是通过关键字查找数据库,得到相关微博数据的部分截图。从图中我们可以看出数据都是一条一条罗列出来,很难从中发现数据的规律和隐藏的信息。在图4是通过平行坐标图对图3的数据展示,可以从纵列上很清楚地观察到数据的规律,例如通过第三列(讨论数)和第四列(转发数),可以发现大部分微博的讨
龙源期刊网 http://www.qikan.com.cn
论数分布在0到532之间,转发数分布在0到274之间,仅有个别微博的讨论数和转发数异常高,也就是说这条帖子的讨论数和转发数远远多于其他帖子,那么这些微博肯定是被网友关注度最高的微博,因此这些微博和发帖人应当引起我们的注意。从第二列(发帖人id)中也可以发现由几个密集度很高的段:1209961141至1264710047、1407057203至1461806109等等,这些id对应的发帖人是讨论这些敏感关键字的比较频繁的人,应引起足够重视。
下面是我们利用斯坦福大学研制的protovis插件代码中的一小部分,这段代码是把点连接成平行线的代码。 //平行线
vis.add(pv.Panel) .data(Consensus)
.visible(function(d)dims.every(function(t) (d[t]>=filter[t].min)&&(d[t] .add(pv.Line) .data(dims)
.left(function(t,d)x(t)) .bottom(function(t,d)y[t](d[t])) .strokeStyle(\"#ddd\") .lineWidth(1) .antialias(false); 3.2.2 力导向图
将从微博上采集来的数据利用力导向图的方法进行分析,这一方法主要用于话题追踪、人物追踪、地域追踪、机构追踪、作者追踪和社群分析。如图5所示。
从图5中可以看到微博中每个状态的评论量,各条状态之间联系的建立关系,转发的状态源自哪里,从而可以找到主要的责任人进行询问。(大球表示发布的帖子,围绕在大球周围的小球表示参与讨论的人)
龙源期刊网 http://www.qikan.com.cn
4 结语
社交网络与传统的Web网络在信息传播方式上存在着根本的不同:传统的Web网络是以信息内容为主体进行传播,社交网络是以人为中心,依靠人与人之间的好友关系进行信息的传播。如今,人们在获取信息的时候更加在乎信息的来源,这种获取信息的方式将关注的重心放在人们会从谁那里获取信息,又会与谁分享信息。我们的研究成果可以将社交网络方便、直观地表示出来,从而可以量化地描述社交网络中的传播行为,揭示它的特性,具有重要的理论和应用价值。通过可视化分析工具,关联出抓取来的数据之间的隐含关系,应用到公安相关机构,可以避免公安机关盲目地去关注那些与案件无关的数据,而是能够更清晰的发现问题集中出现在何处,能够更加集中的进行下一步的调查,为破案提供了便利条件,进一步提升公安队伍的现代信息化水平。 参考文献:
[1]马连浩.Web文本聚类技术及聚类结果可视化研究[D].大连交通大学,2007.DOI:10.7666/d.y1404800.
[2]谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2012,26(1):73-83.DOI:10.3969/j.issn.1003-0077.2012.01.011.
[3]吴江宁,王桂才.文本聚类分析结果可视化方法研究[J].情报学报,2011,30(2):115-120.DOI:10.3772/j.issn.1000-0135.2011.02.001.
[4]申莹.针对确定话题的离散文本舆情聚类与可视化研究[D].武汉理工大学,2011. [5]LarsGeorge.HBase:TheDefinitiveGuide[M]:O'ReillyMedia,2011. [6]项斌.网络舆情检测系统设计与实现[D].成都:电子科技大学,2010.
[7]陈旭.基于社会网络的WEB舆情系统的研究与实现[D].成都:电子科技大学,2010. [8]廉捷,周欣,曹伟.新浪微博数据挖掘方案[J].清华大学学报,2011,51(10). 作者单位:中国人民公安大学网络安全保卫学院,北京 102623
因篇幅问题不能全部显示,请点此查看更多更全内容