您的当前位置:首页正文

基于网络社交媒体的子话题检测技术综述

2024-06-15 来源:客趣旅游网
JournalofComputerApplications

计算机应用,2020,40(6):1565-1573文章编号:1001-9081(2020)06-1565-09

ISSN1001⁃9081

CODENJYIIDU2020⁃06⁃10

http://www.joca.cnDOI:10.11772/j.issn.1001-9081.2019101871

基于网络社交媒体的子话题检测技术综述

3*

理姗姗1,杨文忠2,,王

婷1,王丽花1

(1.新疆大学软件学院,乌鲁木齐830046;2.新疆大学信息科学与工程学院,乌鲁木齐830046;

(∗通信作者电子邮箱ywz_xy@163.com)

3.社会安全风险感知与防控大数据应用国家工程实验室(中国电子科学研究院),乌鲁木齐830000)

摘要:在当前多种平台崛起的互联网背景下,与传统媒体相比,网络社交媒体中的数据具有传递速度快、用户参

与度高、内容覆盖全等特点,其中存在着人们关注并发布评论的众多话题,而一个话题的相关信息中可能存在更深层次、更细粒度的子话题,针对该问题进行基于网络社交媒体的子话题检测技术的研究,这是一个新兴且不断发展的研究领域。通过社交媒体获取话题及子话题信息并参与讨论,这一方式正全方位、深层次改变着人们的生活,但是该领域技术还不成熟,且相关研究在国内尚处于起步阶段。首先,简述网络社交媒体中子话题检测的发展背景和基本概念;其次,将子话题检测技术分为七大类,对每类方法均加以介绍、对比和总结;然后,将子话题检测方式分为在线检测和离线检测两种方式,并将这两种方式进行对比,列举通用技术及两种方式下的常用技术;最后,概括了该领域当前不足及未来发展趋势。

关键词:子话题;话题检测和追踪;网络社交媒体;话题层次;子事件中图分类号:TP181;TP391文献标志码:A

Surveyofsub-topicdetectiontechnologybasedoninternetsocialmedia

3*

LIShanshan1,YANGWenzhong2,,WANGTing1,WANGLihua1

2.CollegeofInformationScienceandEngineering,XinjiangUniversity,UrumqiXinjiang830046,China;

(ChinaAcademyofElectronicsandInformationTechnology),UrumqiXinjiang830000,China)

3.NationalEngineeringLaboratoryforPublicSafetyRiskPerceptionandControlbyBigData

(1.CollegeofSoftware,XinjiangUniversity,UrumqiXinjiang830046,China;

Abstract:Thedataininternetsocialmediahasthecharacteristicsoffasttransmission,highuserparticipationand

completecoveragecomparedwithtraditionalmediaunderthebackgroundoftheriseofvariousplatformsontheinternet.Therearevarioustopicsthatpeoplepayattentiontoandpublishcommentsin,andtheremayexistdeeperandmorefine-grainedsub-topicsintherelatedinformationofonetopic.Asurveyofsub⁃topicdetectionbasedoninternetsocialmedia,asanewlyemerginganddevelopingresearchfield,wasproposed.Themethodofobtainingtopicandsub⁃topicinformationthroughsocialmediaandparticipatinginthediscussionischangingpeople’slivesinanall-roundway.However,thetechnologiesinthisfieldarenotmatureatpresent,andtheresearchesarestillintheinitialstageinChina.Firstly,thedevelopmentbackgroundandbasicconceptofthesub-topicdetectionininternetsocialmediaweredescribed.Secondly,thesub-topicdetectiontechnologiesweredividedintosevencategories,eachofwhichwasintroduced,comparedandsummarized.Thirdly,themethodsofsub⁃topicdetectionweredividedintoonlineandofflinemethods,andthetwomethodswerecompared,thenthegeneraltechnologiesandthefrequentlyusedtechnologiesofthetwomethodswerelisted.Finally,thecurrentshortagesandfuturedevelopmenttrendsofthisfieldweresummarized.

Keywords:sub-topic;TopicDetectionandTracking(TDT);internetsocialmedia;topichierarchy;sub-event

随着互联网媒体技术的飞速发展,众多社交媒体平台随之兴起,例如新浪微博、推特等平台,这些网络平台反映了社会、政治、经济和文化等各领域的热点话题,成为继广播、电视之后最普遍的信息传输方式。其中很多平台都有话题专栏合集,但一般只停留在对话题检测这一层面,却忽略了话题下更

0引言

细粒度、更深层次、更全角度、更多侧面的内涵。作为随话题检测的发展演变而生的一个新的研究方向,子话题检测旨在解决上述不合理问题,进一步分析同一话题下的组成结构、演化过程和内部关系。在内容上,它有利于全面分析某个话题所包含的不同内容及其关系;在结构上,它有利于建立话题的演化模型,研究发展趋势,更加清晰地掌握网络中话题信息的

收稿日期:2019⁃11⁃01;修回日期:2019⁃12⁃12;录用日期:2019⁃12⁃17。基金项目:国家重点研发计划项目(2017YFC0820702⁃3);国家自然科学基金资助项目(U1603115,U1435215);社会安全风险感知与防控大数据应用国家工程实验室主任基金资助项目。

作者简介:理姗姗(1996—),女,河南周口人,硕士研究生,主要研究方向:自然语言处理、文本数据挖掘、信息安全;杨文忠(1971—),男,河南南阳人,副教授,博士,CCF会员,主要研究方向:网络舆情、情报分析、信息安全、无线传感器网络;王婷(1996—),女,新疆阿克苏人,硕士研究生,主要研究方向:自然语言处理、文本情感分析、信息安全;王丽花(1995—),女,河北邯郸人,硕士研究生,主要研究方向:自然语言处理、文本意图检测。

1566计算机应用第40卷

构成情况。自孕育期(1997—2006年)之后,子话题检测技术经2012历了概念提出期(2007—2009年)、受到关注期(2010—不同的发展动因及发展结果。

年)和兴起与发展时期(2013年以后),在不同阶段具有技术的完善,20世纪90舆情监控部门将信息来源转向网络,年代,随着计算机软件、硬件的发展及互联网与传统媒体(电视、广播、报纸、杂志等)相比,网络社交媒体的内容具有规模庞大、形式多样、传播迅速等特点,使得收集并组织相关信息变得愈发困难,话题检测的需求由此而生,其概念源于话题检测与跟踪(TopicDetectionandTracking,TDT)项目[1],此时机器学习(MachineLearning,ML)已成为新的学科并应用于数据分析与挖掘,从而为子话题检测的孕育产生打下基础。进入21世纪之后,互联网中社交媒体逐渐丰富,话题检测技术取得了长足的进步,互联网舆情及信息安全领域的应用需求也随之不断发展,一些学者为全面了解话题各个方面,开始对话题进行细粒度探索,“话题层次”“子话题”等概念被提出(在国外,Nallapati等[2]首次给出在新闻话题内进行事件检测与关系发现的概念;在国内,李军等[3]率先提出“子话题”的概念),并采用聚类、主题模型等技术进行子话题检测。

进入2010年以后,众多社交媒体平台涌现,话题检测成为研究热点,此时子话题检测相关研究也随之进入研究者的视线并受到关注,机器学习、人工智能学术活动空前活跃,自然语言处理技术初步完善。研究者们利用统计分析、知识发现等手段分析数据进行子话题检测,除初始技术外,分类、基于图模型的方法、2012体学习等相关领域不断发展,年进入大数据时代以来,基于突发状况的方法等技术也很普遍。自数据挖掘、话题检测得到深入研究并取得自然语言处理、多媒了丰硕成果,但随着网络社交媒体平台中信息日益变化,它面对着更新的挑战:实时获取热点话题不同方面的内容、全面掌握网络舆情趋势等需求空前旺盛,对话题检测及演化分析的要求也不断提高。现有的话题粒度及层次已无法满足多方面的需求,因此子话题检测技术进入了兴起与发展阶段,研究者们不断探索创新,提出了基于多模态的方法、基于多种技术结合的方法等技术进行子话题检测。

目前,对有关社交媒体子话题的检测技术并没有系统的阐述和介绍。已有的国内外相关综述性文献,如文献[4-9]仅涉及对话题检测技术进行总结,只完成了话题检测层面综述性工作,而对于话题下子话题的概念没有统一的定义,对子话题检测相关技术也没有全面的分类说明。故本文概括当前研究中子话题相关概念,将网络社交媒体子话题检测技术分为基于突发状况的技术、基于分类的技术、基于聚类的技术、基于主题模型的技术、基于结构图的技术、基于多模态特征的技术和其他检测技术,逐类给出了详细介绍,并进行总结和比较;同时,将子话题检测方式按实时性要求分为在线检测和离线检测,对二者作出对比并列举通用技术及不同方式的常用技术;最后,提出了当前研究的不足及对未来发展的展望。

1.11

研究背景及相关概念

当前互联网数据增长飞快。截至研究背景

2019年6月,我国网民规模达8.54亿人,较2018年年底增长2598万人;互联网普及

率达61.2%,较2018年年底提升了1.6个百分点[10]

。越来越多的人将互联网视为获取知识、传递信息、发表评论和交流看法的最佳媒介,通过各类社交媒体平台,人们可以在网络上实时获取新闻资讯和各种相关报道,发表相应的评论来对自己

感兴趣的内容提出见解,并由此形成层出不穷的种种话题。

随着用户竞相参与,话题的热度在不断飙升,其相关信息的数量也在激增。

网络社交媒体中的大多数内容都是由用户自发创造的,包括文字、图片、音频和视频等多种表现形式。针对这些数据,传统的话题检测多把话题当作一个整体,往往忽略了话题下子话题的存在及子话题关系演变的刻画。同一个话题下的数据是复杂多样的,包含很多隐藏内容,且可能含有多个联系紧密、相似性很高的子话题,如何更有效地从海量数据中找到用户感兴趣的话题,并挖掘相关话题下的子话题,帮助用户全面准确地了解话题详细内容及演化的各个方面,是研究领域内一个新的难题。1.2话题、相关概念

事件、子话题和子事件这几个术语将贯穿全文。在最初研究阶段,“话题”和“事件”含义相同[11],一个“话题”指由某些原因、条件引起,发生在特定时间、地点,涉及特定的参与者,且可能产生一些必然后果的一个事件。对于“子话题”这一术语,13在国内已有的研究中使用的比较多,例如文献达同一概念,]等,而在国外通常以例如文献[“子事件”[3,12-14-16]等。下面对国内外研究中所提来进行描述,但实质上是表出的相关概念加以陈述和总结。1.2.1话题话题检测和追踪相关概念

检测和追踪(TDT)是美国国防高级研究计划局DefenseAdvancedResearchProjectsAgency,DARPA)于1996年开展的研究项目,其目标为实现按话题查找、组织和利用来自多种新闻媒体的多语言信息[2],包括新闻报道的切分、新事件识别、报道关系识别、话题识别、话题跟踪和层次话题检测

等子任务[17]

。其中的“话题”概念不再等同于信息检索中的,并非某一个“领域”,而是表示一个相对具体的“事

件”[12]。某些情况下“话题”与“事件”可以通用,不作严格的区分[18]

。为了区别于语言学上的概念,TDT评测会议对相关要

素进行了定义[19]

关联的后续事件或活动构成。

1)话题(topic,)陈述如下:

:由一个种子事件或活动,和全部与之直接件的子句,2)报道(story):新闻片断,包含两个以上独立陈述某个事时间、3)事件与话题关系紧密。

(event):由特定原因、条件引起,发生在某些特殊1.2.2地点,并可能伴随特定后果的特例。互联网社交媒体信息的话题内容具有多元性、子话题检测相关概念

演化性等特点,大多数关于话题检测的研究仅集中于静态地识别信息数据中存在的话题,却忽略了一个主话题下可能存在的子话题层次,或是忽略了随着时间的推移话题内容可能产生的扩充和演变。目前中外相关领域对子话题的研究中,对“子话题”或是“子事件”的概念没有一个统一的定义,下面描述几种具有代表性的定义。

在中文领域,李军等[3]定义“子话题”是话题内一组相关事件或活动的集合。洪宇等[5]定义“话题”由一个种子事件以及后续直接相关的事件或活动组成,“子话题”是针对其中某一事件的相关描述,“事件”则定义为发生于特定时间和特定

地点的事情。吕楠等[20]

定义“子话题”为话题的一个方面:话题{TT在i时刻的状态Ti由若干个子话题组成,记为Ti1i,T2i,…,T=ni21]}提出了,每个子话题“子话题”Tji代表话题在i时刻的某一个方面。程葳等[概念:关于同一事件或活动的相似报道集合称为“子话题”;一个子话题可以包含多篇报道,

(“主题”第6期理姗姗等:基于网络社交媒体的子话题检测技术综述

1567但唯一从属于一个话题;一个话题可以包含多个子话题。王

巍[22]

定义“话题”由一个种子子话题和其他相关子话题构成,认为“子话题”等同于“子事件”。代翔等[13]把“话题”“子话题”“事件”划为三个层次,定义“子话题”作为衔接“话题”与“事件”的桥梁,能够相对清晰地呈现某一类具体事情。

在国外研究领域,Nolasco等[14]定义“事件”是受时间和相关位置限制的一个重要事情,“子事件”是通过组合关联关系与另一个事件关联的事件,Srijith等事件包括两个或多个子事件。

[23]

在文献中给出“子话题”的定义为:子报道检测将与同一现实事件相关的推文分成与不同子事件相关的类,与

这些子事件相关的讨论话题称为子话题。Abhik等[24]

提出:“子事件”Panem等是在某特定事件中按时间或位置分隔的较小事件。

[25]

在文献中定义“话题”与现实世界中的重大事件相关,“子话题”则是此类事件细粒度的一个方面。Wu等[26]定义“子事件”rel(事件,事件是由事件的演变产生的,假设存在关系rel,若关系*)为真,则表示“事件*”是“事件”的子事件。2本文概括了常用的网络社交媒体子话题检测技术,子话题检测技术

将其分为基于突发状况的技术、基于分类的技术、基于聚类的技术、基于主题模型的技术、基于结构图的技术、基于多模态特征的技术和其他检测技术七大类别,并做出总结和对比。子话题检测技术分类如图1所示。

2.1

Fig.1Classification图1子话题检测技术的分类

ofsub-topicdetectiontechnologies

基于突发状况的检测方法是用于社交媒体平台子话题检基于突发状况的技术

测的一种常见技术,最初被应用于突发事件检测,后被应用至话题检测领域,并不断深入探索,现在也被用于进行子话题检测。该方法有两种思路,即基于增加的方法和基于异常值的方法,研究者们首先提出了基于增加的方法,随后针对其存在的不足提出了基于异常值的改进思路。2.1.1基于增加的方法其基本思想为:基于增加的方法

新发生事件迅速吸引了人们的注意,使得社交媒体中与之相关的发文和讨论内容突然增加,因此在子话题的检测中可以考虑评论发布数量或相关词汇频率的增加。在外文领域早期的研究中,研究者们通过比较当前时间片推文数据量与前一时刻的数据量,认为若当前时间片数据量突然增加,这一现象可能反映一个重要子话题的产生,从而来识别自然灾害[27]、政治事务[28]和体育赛事[29]2.1.等话题中的子话题。2基于增加的方法可能会出现漏检错误:基于异常值的方法

在网络社交媒体中,由于不同的用户对话题的关注点和关注度均不相同,即使发生了子事件,可能仅有部分用户参与讨论,其数据量并未大

幅增加,此时基于增加的方法就无法检测出实际存在的部分

子话题。基于异常值的方法观察相关话题下当前时间片与所有历史时间片的推文数据量并统计比较,认为与常规数据相比,当前推文速率是一个异常值时,Chen等就产生了子话题。

[30]

使用推特流数据在线检测子事件,使用卡尔曼滤波器、高斯过程和概率主成分分析三种统计方法,将子事件识别过程定义为异常检测问题。Zubiaga等[31]对足球赛事实时总结时,将当前的发文速率与历史所有发文速率进行比较,采取基于异常值的方法进行子事件的检测。实验结果证明,该方法平均覆盖了84%的子事件和100%的关键子事件类型。与基于增加的方法相比,其优点是考虑到特定话题有特定的受众,且在推文速率保持不变时也能检测到赛事中存在的连续子事件。

2.2分类是一种有监督的学习方法,基于分类的技术

其任务是在预先给定的类别标记集合下,根据文本内容判定它的类别[32]。基于分类的子话题检测算法用分类器来判断文档是否属于特定子话题,基本思想是按照某种规则给样本贴标签,通过学习得到分类器,再对未知类别的样本进行区分归类。常用的分类算法有决策树算法、贝叶斯算法、神经网络算法、逻辑回归算法、支持向量机等。

Sakaki等[33]提出了一种监控推文和检测目标事件的算法,基于推文中的时间、空间特征(关键字、单词数量以及上下文等)来设计推文分类器,可以估计灾难事件位置的中心和轨迹。Badgett等[34]提出了一种自动提取子事件的两阶段方法:在第一个阶段用一个引导人工神经网络来识别可能包含子事件短语的句子;在第二阶段识别出符合预定连词模式的短语,完成子事件提取。Bekoulis等[35]利用推特流的时间顺序并考虑其序列性质,将社交媒体流中的子事件检测问题构造为序列标记任务,本质上是对线性序列中每个元素根据上下文内容进行分类的问题。Chierichetti等[36]使用一个逻辑回归分类器,Araki以推文和转发率为特征进行研究完成子事件检测;等随后

[37]

对其进行了改进,提出了一个多分类逻辑回归模型,Aldawsari并使用一组丰富的特征识别子事件及确定子事件的关系。等[38]在2019年提出通过有监督的逻辑回归模型来自动识别子事件,并融入了一些语言和叙事特征,以及少量的特征修改。

为训练一个无偏的子事件分类器,需要丰富的先验知识,必须提供大量的样本,并断定所有的待分类样本都一定对应一个类别。但这并不符合实际要求,尤其是面对海量数据时,若想通过数据预处理来满足分类算法的要求,代价会很大,此时可以考虑使用聚类算法。2.3聚类是一种非常重要的非监督学习技术,基于聚类的技术

其任务是按照某种标准或数据的内在性质及规律,将目标样本分成若干个簇,保证每个簇内的样本相似性尽可能大,且不同簇间的样本相似度尽可能小。聚类技术被广泛应用于数据挖掘、统计学、机器学习等领域,且在子话题检测领域的最初阶段就被纳入采用。随着子话题检测研究的发展不断完善,常见的聚类算法有基于划分的聚类算法、基于增量式的聚类算法、基于层次的聚类算法和基于密度的聚类算法等。

张小明等[39]通过引入子话题的方法提高话题检测的准确率,使用基于增量聚类的算法进行自动话题检测,实验表明该方法的召回率为0.80、准确率为0.84、F1值为0.84,能迅速检测话题,且以较小的误差(小于10%)检测出话题数量。代翔

1568计算机应用第40卷

等[13]为解决主题建模分类结果粒度过粗的问题,在主题建模之后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题,通过实验表明,与Single-Pass算法和K-means聚类算法相比,基于层次聚类得到的结果更具有真实性。

2.4在子话题检测领域,基于主题模型的技术

早期的研究中多使用向量空间模型(VectorSpaceModel,VSM),但其在语义探索和表示上有许多Semantic欠缺之处,因此研究者们提出了潜在语义分析(Latent改Semantic进,提Analysis出了概,LSA率潜)模型。随后,在语义分析(引入概率统计方法对其Probabilitistic概率生成模型,Analysis针对这一不足,,PLSA)模型。但是相关领域专家们又提出了沿用PLSA模型并非完整的Latent广泛的文档主题生成LDA特的优越之处,模型是统计主题模型的典型代表,LDA(LatentDirichletAllocation)模型,因此已成为自然语言处理领域内新的研究在文本建模上具有独热点。

2.4.1向量空间模型基于向量空间模型的方法

(VSM)是用空间向量表示文本信息的数学模型,可通过计算向量之间的相似性来度量文档间的相似性,其Frequency⁃Inverse最常用的词权重设置方法是词频-逆空间模型在文本检索、Document信息过滤、Frequency信息提取、,TF-IDF文文件索引、)档赋频权率。(Term分类、向量聚类等问题中都得到了广泛应用。

由于同一话题内的事件往往非常相似,导致话题内的事件检测精确度较差。为了克服这一缺陷,张阔等[40]使用向量空间模型,根据词频赋权,用层次聚类算法挖掘每个事件的核心词元,利用核心词元完成话题内事件检测与关系发现。针对在新闻话题中报道突发、热点相似且子话题层次丰富的现象,周学广等[41]提出了基于依存连接权VSM的子话题检测与跟踪方法,使用关联词邻接图方法改进VSM,引入词语之间的连接权值,通过依存树分析构造有向节点,在外部引入领域命名实体词典并放大相应权值,从而完成子话题检测与跟踪。该方法能迅速地在特定领域信息范围中检测热点话题,但需要外在的领域词典,2.4.2因而应用场景过于局限。向量空间模型应用十分普遍,基于PLSA及其改进方法

但其没有能力探究隐藏在字、词背后的涵义,无法处理一词多义和一义多词问题,而潜在语义分析(LSA)方法的引入能减轻类似的问题。LSA基于奇异值分解(SingularValueDecomposition,SVD),能将高维度的词汇-文档共现矩阵映射到低维度的潜在语义空间,使得表

面毫不相关的词体现出深层次的联系[42]

,但LSA缺乏严谨的数理统计基础,而且SVD非常耗时。

为此Hofmann[43-44]提出了基于概率统计的PLSA模型,并用期望最大化算法(Expectation-Maximizationalgorithm,EM)学习模型参数,通过一个生成模型来为LSA赋予了概率意义上的解释。该模型假设:每一篇文档都包含一系列潜在话题,文档中每一个单词都不是凭空产生,而是在这些潜在话题的指引下通过一定概率生成的。图2为PLSA模型,其中:d、Z、W分别表示文档、主题和词语;M和N分别表示文档数和词数。

通过在传统的PLSA基础上引入背景语言模型,能降低背景词对子话题的干扰[45],周楠等[46]在此基础上发现子话题关键词,结合外部知识库生成事件子话题的标签。通过实验表明,该算法相较K-means和LDA等方法具有更好的性能,通过

其生成的子话题标签可以发现事件共性,反映子话题热度的

趋势,比传统方法具有更好的准确性和概括性。该算法在发现子话题时,能有效克服同一话题下文档的相似性问题,但是采用监督的方法生成子话题标签,当处理庞大的数据量时可能面临计算量巨大、计算复杂度高、时间开销大等问题。

Fig.图22

PLSAPLSA模型

model

用的数据生成模型,PLSA作为LSA的变形,可用于信息检索和自然语言处理等许多具有更坚实的数学基础及易于利领域。但是PLSA代,计算开销很大。为了克服模型也会线性增加,PLSA并非完备的概率模型,变得十分庞大;当文档数量增加时,PLSA的不足,其中领域专家们又提EM算法反复迭出了一些其他的主题模型,其中包括应用最为广泛的LDA主题模型。

2.4.3率生成模型。图LDA基于由BleiLDA等及其改进方法

[47]在PLSA的基础上提出,是一个完整的概3表示LDA模型,其中:θ代表文本-主题概率分布,φ代表主题-词概率分布,α和β分别表示θ和φ的超参数,W表示词语,M、N和K分别表示文本数、词数和主题数。

Fig.图33

LDALDA模型

model

李军等[3]基于LDA模型进行子话题划分,证明LDA模型较VSM模型性能更优越,但是在聚类时忽略了子话题之间的

联系。对此,楚克明等[48]

提出了基于LDA模型新闻话题的演化方法。通过话题抽取、话题过滤和话题关联三个步骤找到一对多或多对多的子话题之间的演化关系,体现了话题在内

容上的变化。Nolasco等[14]

在社交网络中收集数据,使用LDA算法和主题标注方法从原始文本进行子事件挖掘,该方法可以自动检测给定事件的子事件,并为其分配代表性标签来进行描述。

的方法之一,LDA主题建模是大批量文本数据中进行话题检测最有效但也存在一定局限性,例如结果过于笼统、可读性差等。为解决上述问题,研究者们对LDA模型做出了改

进。Huang等[49]

率先探讨了词分配对LDA检测话题能力的影响KPLDA。Ge等[50]提出了基于关键词的LDA(KeyPhraseLDA,关键短语代替独立词作为特征,)模型的中文新闻热点子话题发现和推荐方法,基于KPLDA模型对语料库进采用行训练,得到主题短语分布,通过聚类完成子话题发现。实验证明:KPLDA训练时间消耗多于KPLDA,但KPLDA模型的热点子话题发现质量和准确性均优于LDA。苏婧琼等[51]LDA法精确区分各个子话题的问题,建模结果较泛化及传统相似度计算方法语义性欠缺、针对提出了一种基于LDA和诱导无划分(DerivedPartition,DP)的子话题划分方法,采用LDA对

第6期理姗姗等:基于网络社交媒体的子话题检测技术综述

1569文档集建模,综合考虑全覆盖模型在表征文档时的描述能力,

使用诱导划分实现子话题划分。该方法对子话题划分的效果很好,但诱导划分的时间复杂度和空间复杂度都很高。李湘东等[52]提出一种基于LDA和知网语义词典(HowNet)相结合的多粒度子话题划分方法,用LDA模型对不同源的新闻集进行初划分,结合HowNet来计算新闻文档之间的相似度,通过增量聚类算法实现子话题划分。

胡艳丽等[53]基于在线主题模型(OnlineLDA,OLDA)利用先验知识抽取网络信息中隐含的子话题,定义子话题演化类型,根据语义相似度和时序关系建立子话题关联。Srijith

Tab.1模型VSMLSAPLSALDA

2)向量维度意义明确

优点

1)表示简单、可操作性和可计算性强表1

等[23]提出分层主题模型HDP(HierarchicalDirichletProcess),

能实时准确检测话题下多数子话题,非常适合子话题检测任务。李静远等[54]提出了抑制背景噪声的LDA子话题挖掘算法,预先抽取专题文档集合的共同背景知识,有效解决了共同背景下专题文章集合的子话题挖掘难题。Banu等[55]提出了一种前景动态主题建模方法,提取噪声内容并从语料库中提取前景推文,在其上构建模型,通过避免噪声数据检测子话题,随时间的推移抽取生成子话题的摘要。2.4.4各种主题模型的比较

对各类主题模型的比较如表1所示。

Comparisonofdifferenttopicmodels缺点

1)向量矩阵高度稀疏2)未考虑特征项之间的联系,造成语义的丢失2)SVD非常耗时1)无法生成未知的文档3)容易出现过拟合问题1)话题数量需要指定2)检测结果可理解性差

不同主题模型比较

3)实现了语言问题向数学问题的转化1)将词和文档映射到潜在语义空间,提高了信息检索的精确度2)可以解决一词多义和一义多词的问题1)为LSA赋予了概率意义上的解释1)完整的概率生成模型

3)新数据加入时需重新计算特征权值,维护成本高1)缺乏严谨的数理统计基础2)随着文档数量增加,模型越来越复杂

2)拥有更坚实的数学基础,能为信息提取提供更好的词汇匹配2)对于每一个主题均可找出一些词语来描述

2.5

基于结构图的技术

随着子话题研究的深入,研究者们发现传统的文本表示方法将词语单独考虑,缺少结构化信息,随后有专家提出使用结构图的方法来表示社交媒体信息:图的点代表词,边表示词与词之间的语义关系,通过构建图来识别文本信息的关联关系,完成话题及子话题的检测。

Liu等[56]构建了话题相关的事件结构图,通过对事件图划分形成子话题。Katragadda等[57]使用时间演化图从推特数据流中检测子事件,定义了用于识别两个图簇关系的度量,并引入事件生命周期模型来映射所识别的关系来检测子事件。Meladianos等[58-59]在推文数据集中检测演化事件中的子事件,将较短时间间隔内连续的推文表示为一个加权的单词图,使用图退化的概念来识别子事件,实验证明基于结构图的方法可以有效地捕捉子事件。2.6基于多模态特征的技术

2.6.1基于单文本数据特征的方法

王巍[22]根据搜索引擎的某个话题结果进行子话题划分,提出了基于关键词和基于时间信息的两种子话题聚类方法。但是在基于关键词的划分方法中并未分析子话题的内容特征;在基于时间信息的划分方法中并未考虑相同时间可能涌现多个子话题的情况。为此,仲兆满等[60]提出融合内容和时间特征对中文新闻子话题聚类的方法,重点分析了子话题内容特征的表现规律,研究了子话题特征词的权重计算和降维方法。

Abhik等[24]通过使用社交媒体数据的多个特征分两步进行子事件检测:首先,将每个特征单独考虑,形成聚类并对其赋权;然后,将所形成的聚类解以主加权方式组合,得到最终的聚类结果。张瑞琦[61]将整合去重后的关键特征映射到话题空间上形成初始话题;然后,对初始话题进行聚类得到子话题,并进行子话题关键特征的抽取。2.6.2基于多模态数据特征的方法

除文本数据以外,网络社交媒体中图像、音频或视频形式的数据也蕴含大量信息,在进行子话题检测时值得纳入考虑。

[62-64]

Pohl等对社交媒体中的文本、图像、视频等多模态数据,采取聚类算法识别与危机相关的子事件,证明了对多模态数据使用聚类技术检测子事件的可行性。

多用户网络社交媒体平台信息中存在数据异构和时间不同步等问题,因此跨媒体库的子事件检测任务准确率不高。

[65]

Zaharieva等提出多用户图像集中的媒体同步与子事件检测,利用上下文中时间、位置信息以及图像内容来挖掘多模态数据集,研究在数据未同步情况下使用聚类算法检测子事件的可行性。Qian等[66]提出一种基于社交媒体的事件汇总方法,使用用户文本图像共同聚类的方法,从多种媒体类型(用户、文本和图像)的微博中共同发现子事件,通过实验证明,与单一文本聚类方法相比,该方法具有优越性。2.7其他检测技术

上述方法并不互相独立,为提升子话题检测的准确率和实用性,许多研究者对各种方法进行探索、结合与改进,提出了一些诸如结合在线和离线的方法、结合概率论和数理统计的方法、结合有监督和无监督的方法等其他检测方法。

Panem等[67]结合离线方法和在线方法,提出了基于推特子话题检测的实体实时跟踪方法,探索了基于语义和基于概念空间表示来解决动态聚类问题的方法。在离线阶段,通过训练数据获得种子集群,然后在在线阶段使用种子集群来对推文进行集群测试,定期清理团簇以保持其纯度,从而提高子话题检测的准确性,保证系统的高效性和实用性。

另一些研究者引入概率论和数理统计的方法进行子话题检测,魏明川等[68]提出一种基于吸收马尔可夫链的子话题发现方法,该方法将聚类生成的话题关键词组合生成子话题,用吸收马尔可夫链对子话题进行吸收衍化,重排序生成最终子

3)对短文本处理效果不好1570计算机应用第40卷

话题。实验结果表明,该方法能同时保证生成子话题的重要性和多样性。Khurdiya等[69]使用条件随机场模型从推文中识别、提取和构建围绕大型热点事件的小型子事件结构图。

针对话题检测多停留在二维平面集合操作,而忽略了话

[70]

题及子话题可能存在的层次关系问题,韩冰等结合生物学知识,引入觅食基础上改进的蚁群算法,通过改进相似度度量方法以及状态转换函数来改进现有的蚁群算法,并利用改进的蚁群聚类算法实现新闻话题的子话题自动划分。

Chen等[71]结合有监督和无监督技术,首先提出了用于子事件检测的无监督深度神经网络,使用一种新的编码器-存储器-解码器框架进行社交媒体子事件检测,该模型以数据驱动的方式学习,通过为每条推文选择最合适的子事件表示来完成子事件检测,从而最大限度提高文本重建概率。

Tab.2检测方式

优点

表2

在社交媒体子话题检测的任务中,本文按照对实时性的

要求将其分为离线检测和在线检测两种方式。话题检测最初是应用在离线的静态文本上的,在进行子话题检测时,离线检测是指先将相关数据获取到本地,随后再对其进行处理和检测。随着社交媒体的发展,更多用户希望不仅能检索历史事件,还能实时获取最新的热点事件和焦点话题,同时进一步了解相关话题下的不同子话题,这产生了在线子话题检测的应用需求。离线检测和在线检测两种方式的通用技术包括基于聚类的方法、基于主题模型的方法、基于结构图的方法等,但面向不同场景,二者所采用的技术也有不同,在3.1节和3.2节中对它们分别作详细介绍,其对比如表2所示。

3子话题检测方式

Comparisonoftwosub-topicdetectionmethods缺点

常用技术

两种子话题检测方式对比

在线检测具有及时性、可对数据实时分析当前时间片信息不全面、检测准确率低下基于突发状况的方法

离线检测准确率高、可分析子话题演化过程建立全局认知无法完成实时检测任务基于聚类的方法、基于主题模型的方法

在线子话题检测

社交媒体的信息具有实时性、更迭迅速的特点。在线子话题检测常用的技术主要是基于突发状况的方法,常使用无监督或半监督学习方法检测数据的显著变化。此外,还有一些研究者使用滑动窗口技术对在线数据流处理的方法、基于聚类的方法、基于主题模型的方法、基于结构图的方法等技术来完成在线子话题检测任务。

程葳等[21]针对互联网新闻的特点提出了在线话题检测算法,提出子话题概念,建立具有子话题层和话题层的双层检测结构和基于滑动窗口的跟踪策略,解决信息冗余、议题发散和话题漂移等问题,实验表明该方法的最小错误代价为0.1388,远低于传统single-pass算法的0.3719。Saravanou[72]

等提出一种对通用文本流以在线方式进行子话题检测和描述的方法DeLi(DetectionanddeLineation),结合社交网络的结构与内容属性,通过跟踪用户节点和内容节点的连通图检测事件和子事件,并选择最中心的内容节点来表示这些子事件,实验表示该方法在精度(0.15)、召回率(0.49)、F-Score(0.22)和运行时间(139s)上都表现优越。Tokarchuk等[73]通过实时微博监控框架进行子事件检测:首先,使用自适应微博爬虫爬取数据;然后,采用可以实时完成的流划分方法,通过突发检测算法来分析时间特征;最后,从每个划分的流中提取内容特征并重新组合以提供子事件的最终概括。实验证明该框架能更全面准确地识别子事件,在召回率(44.44%)和精确度(9.57%)上均有良好的表现。

Gonçalves等[74]模拟在线子话题检测的实验,比较K-means、非负矩阵分解(NonnegativeMatrixFactorization,NMF)、LDA和动态主题模型(DynamicTopicModel,DTM)几个算法的性能,把归一化互信息(NormalizedMutualInformation,NMI)、调整兰德系数(AdjustedRandIndex,ARI)和归一化折损累积增益(NormalizedDiscountedCummulativeGain,NDCG)@10作为评估指标,并得出结论:NMF为最优聚类方法(0.740,0.421,0.5767);其次是K-means算法,其中使用余弦距离的K-means方法(0.726,0.387,0.5771)优于使用JS散度(Jensen-Shannondivergence)的K-Means方法(0.736,0.406,0.5771);由于缺乏文本元素和训练模型的文档,LDA(0.613,0.228,0.4426)和DTM(0.658,0.267,0.4688)表现

3.1

较差。

3.2离线子话题检测

通常网络社交媒体平台中的话题具有生命周期,且同一话题在热度降低以后隔一段时间可能随其他话题再次被提起,因此话题和子话题可能阶段性地分布在不同时间段的社交媒体数据中,且每次出现都伴随着大量的相关信息。基于这种特性,在线子话题检测往往只能局限地识别出当前的子事件,而不能检测出构成话题的全部子话题内容以及话题演化的过程。因此在没有时效性和及时性的要求时,为提高检测准确率,全面而具体地反映话题及子话题的内容和演化历程,当前大多数的子话题检测均采用离线的处理方式进行。

在离线处理中,数据是已知的,可以统计从最近几个月到一两年甚至更久的已有信息,进行数据的建模和历史信息的统计分析。通过相关的数据元信息(例如地理位置、文本内容、关键词等),可以对话题的局部或全局做出明确的认知。离线子话题检测方式以存储在本地的离线数据为基础,结合机器学习、数据挖掘、文本分析等进行子话题的检测,常用技术有基于聚类的方法、基于主题模型的方法,也可以采用基于分类的方法、基于特征的方法、基于结构图的方法等。

通过对以上研究成果的分析,本文得出结论:将多个不同子话题作为同一话题下的纵向挖掘深入拓展,通常能更为有效地描述某一话题的不同侧面,反映同一事件中不同子事件的发酵和演化过程,以便全面掌握全局信息。当前,对于社交媒体平台中子话题检测研究已有了一些初步进展,但还存在以下几个方面的问题。

1)话题检测粒度过于粗糙:对话题检测的研究较多,而针对某一特定话题下的子话题检测研究较少。当前的研究多是把话题当成一个整体,而忽略了内部结构和其联系,欠缺对子话题层次的深入细化。

2)同一话题下子话题之间的相似性:在子话题检测任务中,各个子话题同属于一个主话题,拥有相同的背景,因而具有很强的相似性,当前普通的话题挖掘方法对于具有相同背景的子话题数据集合检测效果不好,检测结果区分度受限。

3)在线检测技术的不足:网络社交媒体的用户规模和信

4结语

第6期理姗姗等:基于网络社交媒体的子话题检测技术综述

1571息量持续增长,相应产生实时变化的数据流和海量的数据集,

以在线方式快速准确检测子话题仍值得关注。

本,存在特征稀疏性问题,4)文本特征选择问题:需要充分挖掘短文本中更多特征及社交媒体平台中的数据多为短文重要性关系,数据,5)提高处理效率和结果的准确率。

但网络社交媒体中图像、数据多模态问题:当前子话题检测研究主要围绕文本音频或视频等形式的数据也蕴含大量信息,在子话题检测任务中能发挥重要作用。

一平台的单源数据。现阶段网络中各社交平台相互紧密关联6)跨平台检测问题:大部分子话题检测研究都是针对某,话题传播途径也全面覆盖多种平台。因此,子话题检测过程中应增加更多的数据来源,类、主题模型)7)子话题的呈现问题:以便全面反映网络中的话题及子话题内容。

检测出的话题一般用无序的词语或短语表示,当前广泛应用的各类方法(例如聚语义理解性较差。所以,提供语义清晰、逻辑通顺的高质量子话题呈现成为备受关注的一个用户需求,可以考虑结合领域词汇集或外部知识库扩充主题词,或抽取相关语句进行描述,抑或是利用可视化技术实现直观呈现。

值等作为评估指标,8)评估指标问题:许多学者将其借鉴用于子话题检测任务在话题检测中常用准确率、召回率和F中,虽能一定程度衡量系统的准确性,但仍有局限。而针对不同的子话题检测方法,相应地也涌现出不同的评估方法和指标,如聚类方法常用NMI、ARI作为评价指标,基于主题模型的方法常用困惑度作为评价指标等,这些指标在一定程度上完成了对不同方法的评估与比较,但是目前还没有一个可以普遍适用的完整而成熟的评估系统。参考文献(References)

[1]

tionALLANandJtracking,CARBONELLcs.pilotcmu.studyJ,edu/yiming/Publications/allanfinalDODDINGTONreport[EB/OLG,]et.[al.2019Topic-tdt1--02detec⁃

http://nyc.lti.final-12-]re⁃.[2]

port.pdf.

newsNALLAPATItopics[CR]//,ProceedingsFENGA,FUoftheC,13thetal.ACMEventConferencethreading,onwithin

mationandKnowledgeManagement.NewYork:ACM2004Infor⁃446:[3]

李军,-453.

索与内容安全学术会议论文集李涓子.新闻专题内子话题划分[C]//第四届全国信息检2008:442-451.(LIJ,LIJZ.(上)Subtopic.北京:division中国中文信息学会,[innewsspecial

trievalC]//Proceedings[4]

mationandInformationoftheContent4thNationalsecurityConference(IonInformationRe⁃张晓艳,Processing索王挺.话题发现与追踪技术研究SocietyofChina,2008:).442Beijing:ChineseInfor⁃[J-]451..计算机科学与探)

technologies,2009,3(tiersofComputeron4):topic347-357.Sciencedetection(ZHANGandTechnologyandtrackingXY,WANG,2009[J],.3(JournalT.Research4):347of-357.Fron⁃of

[5]

洪宇,张宇,刘挺,等.话题检测与跟踪的评测及研究综述[J].中

)文信息学报,et2007,21(6):71-87.(HONGY,ZHANGY,LIUT,[6]Informational.TopicProcessingdetection,and2007tracking,21(6)review:71-87.[J])

.JournalofChinese147王卫姣-149..(话题追踪技术研究综述WANGWJ.Researchstatus[J].软件导刊,4):[7]

[孙国梓,J].SoftwareGuide,2013,12(4):147-of149.topic)

tracking2013technology

,12(研究进展黄斯琪,HUANG[J].金陵科技学院学报,张禹森,等.基于数据挖掘的微博话题检测方法

2014(1):15-20.(SUNGZ,detectionSbasedQ,ZHANGondataYminingS,et[al.J].ResearchJournalonofJinlingMircoblogInstitute’stopicof

[8]TechnologyATEFEH,2014(1):15-tion132inTwitterF,KHREICH[J].ComputationalW.20.A)

surveyIntelligenceoftechniques,2015forevent,31(detec⁃1[9]

彭敏,-164.):技术研究综述官宸宇,朱佳晖,217.tection(PENGM[,JGUAN].武汉大学学报等.面向社交媒体文本的话题检测与追踪CY,ZHUJ(理学版)H,etal.,2016,62(3):197-[10]

versity中统国(and计互Naturaltrackinginsocialmediatext[J].JournalAsurveyofWuhanontopicUni⁃de⁃报联告[网EB/OL络Science信息].中Edition),2016,62(3):197-217.)

[2019心.-第0844-30次].中http国:互//www.联网cnnic.络发展net.状况(hlwfzyj/hlwxzbg/hlwtjbg/201908/P020190830356787490958.statisticalChinaInternetNetworkInformationCenter.The44thChinapdf.cn/30[11]

P020190830356787490958.].httpreport://www.oncnnic.Internetnet.developmentcn/hlwfzyj/hlwxzbg/hlwtjbg/201908/[EB/OL].[2019-08-FISCUSevaluationJGingoverview,DODDINGTONpdf.

[M]//ALLANGR.J.TopicTopicdetectionDetectionandandtracking[12]

Springer:Event-basedInformationOrganization,INRE12.BostonTrack⁃张仰森,,究综述段宇翔,2002:17:黄改娟,-31.等S[J].中文信息学报,.2019社交媒体话题检测与追踪技术研,33(7):1-10,30.(ZHANGYand,DUAN[13]

mationtrackingYmethodsX,HUANGinsocialGJ,mediaetal.[Asurveyontopicdetection代翔,Processing,2019,33(7):1-10J],.30.Journal)ofChineseInfor⁃华南理工大学学报黄细凤,唐瑞,HUANG(自然科学版)等.基于层次聚类的子话题检测算法,2019,47(8):84-95.(DAI[J].onofhierarchicalXF,TANGclusteringR,et[Jal.].SubtopicX,Journalofdetectionalgorithmbased[14]NOLASCOTechnology(NaturalScienceEdition),2019South,47China(8):University84-95.)modeling[15]

SystemsSARAVANOU,inD2019social,OLIVEIRA,mediapostsJ.[SubeventsJ].FuturedetectionGenerationthroughComputertopicandProceedingsdelineationA93of,:KATAKIS290-303.

eventsandIsub,VALKANASG,etal.Detection[16]

gineering.ZHAOPiscatawayoftheIEEE-eventsinsocialnetworks[C]//:IEEE34th,InternationalConferenceonDataEn⁃realTwitter-timeS,[17]

org/ftp/arxiv/papers/1106/1106.andsensorsZHONGsportsofL,WICKRAMASURIYA2018:1348-1351.

J,etal.Humanasgamessocial[EB/OLandphysical].[2019events-03-20:]acasestudyofWAYNEfulofresearchCL.enabledMultilingualbycorporatopic4300.pdf.

.https://arxiv.anddetectionevaluationandtracking:success⁃[18]

Evaluationthe2nd陈儒华Conference.InternationalStroudsburgConference:onACLLanguage[C]//Proceedings,2000:1487Resources-and科技大学,.中文微博子话题构建技术研究与实现tion2013:3-6.(CHENGRH.Research[andD].implementa⁃长沙:1493.国防[19]NationalonbuildingJAMESUniversitysubtopicsofDefenseforChineseTechnologyMicroblog,2013[:3D-]6..Changsha:tion[20]

2002OrganizationA.Topic[DetectionM].NorwellandTracking:Kluwer:EventAcademic-Based)

PublisherInforma⁃,吕楠,:1-16.析LUO算J法罗军勇,Y[,J]LIU.计刘尧,Y算,机等工.程基于话题三层结构模型的话题演化分,2009,35(23):71-72,75.(LYUN,[21]

(tion程葳,23)analysis:algorithmetal.[TopicJ].threeComputerlayermodelEngineeringbased,topic2009evolu⁃,35机工程,龙志祎71-72,topicdetection2009.75.,面向互联网新闻的在线话题检测算法)35algorithm(18):28[J].计算for-30.Internet(CHENGnewsW[,J]LONG.ComputerZY.OnlineEngi⁃

(例如可以将知乎中的帖子分享至微博)1572计算机应用第40卷

[22]

neering王巍,2009,35(18旦大学,.基于关键词和时间点的网络话题演化分析):28-30.)

ics2009:7-8.(WANG[D].上海:复[23]versitybasedSRIJITH,2009onkeywordsandtimeW.pointsEvolution[D].analysisShanghaiof:InternetFudanUni⁃top⁃tectionPK:,7HEPPLE-8.)M,BONTCHEVAK,etal.Sub-storyde⁃[24]

mationABHIKProcessinginTwitterwithandManagementhierarchical,Dirichlet2017,53processes(4):[J].Infor⁃hazardsDtheusing,TOSHNIWALfeaturesofsocialD.Submedia-event989-1003.datadetection[Cduringnatural[25]

York22ndInternationalConferenceonWorld]Wide//ProceedingsofPANEM:ACM,2013:783-788.Web.Newtime2014usingS,subBANSAL-topicdetectionR,GUPTAonMTwitter,etal.Entitytrackinginreal-[26]ChamEuropeanWU:SpringerConference,2014:528onInformation[RetrievalC]//Proceedings,LNCS8416.ofthenaturalQ,[27]2016hazardsMAS,LIUonsocialY.Sub-533.

media-eventdatadiscoveryandretrievalduringEARLE,19([J].WorldWideWeb,tion[28]physics:earthquakeP2S),:BOWDEN277-297.

monitoringDCin,GUYasocialM.worldTwitter[J]earthquake.Annalsofdetec⁃Geo⁃EOMysisY,H2011,PULIGA,54(6)M:,708SMAILOVIĆ-715.J,et[29]PLoSofZHAOOnethe,dynamics2015ofcollectiveattentiontoal.politicalTwitter-partiesbased[anal⁃J].[30]

[realS,ZHONG,10L(,7WICKRAMASURIYA):ArticleNo.e0131184.

J,etal.SportSense:2019-time-03-detection20].http:of//arxiv.NFLgameeventsfromTwitter[EB/OL].[CHENtificialC]//ProceedingsC,TEREJANUoftheG.2018Suborg/abs/1205.IFIP-eventdetection3212.

onTwitternetwork[31]

ChamIntelligenceApplicationsandInternationalInnovationsConference,IFIPAICTonAr⁃ZUBIAGA:SpringermarizationA,2018:50-60.519.ingsof,scheduledSPINAD,eventsAMIGÓfromE,Twitteretal.Towardsstreams[realJ-timesum⁃[32]

NewofYorkthe:23rdACMACM,2012Conference:319-onHypertextandSocial].Proceed⁃Media.[苏金树,J].软件学报,张博锋,2006徐昕,.17基于机器学习的文本分类技术研究进展320.(9):1848-1859.(SU[33]

[XUSAKAKIJ].X.JournalAdvancesofSoftwareinmachine,2006,learning17(9):1848basedJ-1859.textS,ZHANGcategorizationBF,TwitterT,OKAZAKIM,MATSUOY.Earthquake)

shakesProceedingsusers:real-timeeventdetectionbysocialsensors[C[34]

Web.ofthe19thInternationalConferenceonWorldWide]//BADGETTNewYork:ACM,2010:851-860.

twoEmpirical-phaseapproachA,HUANG[C]//R.ProceedingsExtractingofsubeventsthe2016viaConferenceaneffectiveon[35]

ACLBEKOULIS,2016Methods:inNaturalLanguageProcessing.Stroudsburg:tectionProceedingsfromG906Twitter,DELEU-911.

streamsJ,DEMEESTERasT,etal.Sub-eventde⁃of[36]

Technologies.theAssociationoftheasequencelabelingproblem[C]//for2019ComputationalConferenceoftheNorthAmericanChapterCHIERICHETTIStroudsburgtectionF,KLEINBERG:ACL,2019LinguisticsJ,KUMAR:745-750.

:HumanLanguageR,the[37]

Menlo8thviaInternationalcommunicationConferencepatternonanalysisWeblogs[C]etal.Eventde⁃and//ProceedingsSocialofARAKIParkforJ,:LIUAAAIZ,PressHOVY,2014E,et:51al.-60.

Media.nationaleventConferencecoreferenceonresolutionLanguage[C]Resources//DetectingProceedingssubeventstructureandEvaluation.ofthe9thInter⁃Par⁃

[38]

isALDAWSARI:ELRA,2014discoursenualandnarrativeM:,4553FINLAYSON-4558.

features[MCA.Detectingsubeventsusing[39]

StroudsburgMeetingoftheAssociation]//Proceedingsofthe57thAn⁃[张小明,:ACL,2019:4780-4790.forComputationalLinguistics.CHAOJ].软件学报,李舟军,2012巢文涵,23(.基于增量型聚类的自动话题检测研究6):1578-1587.(ZHANGXM,mentalW[40]

1587.clusteringH.Research[J].ofJournalautomaticofSoftwaretopicdetectionLIZJ,,2012,based23(6)on:incre⁃1578-张阔,)计算机研究与发展,李涓子,吴刚,等WUtopicsG,etal.Term-2009.基于关键词元的话题内事件检测committee,46(2[J].-):245-252.(ZHANGK,LIJZ,[41]

2009周学广,,[46J(]2.):Journal245ofComputerbasedResearcheventidentificationandDevelopmentwithin,跟踪方法高飞,F[J].孙艳,-252.通信学报,等).基于依存连接权2013,34(8):1VSM的子话题检测与dency,SUNY,etal.Sub-topicdetectionandtracking-9.(ZHOUbasedXonG,depen⁃GAO[42]

Communicationsconnection石晶,,weights2013,34for(8)vector:1-9.spacemodel[J].Journalon发展,戴国忠based2007,44(.基于2):242PLSA-248.模型的文本分割)([J].计算机研究与[43]

velopmentonPLSAHOFMANN,2007model[J].JournalSHIJof,DAIComputerGZ.TextResearchsegmentationandDe⁃ceedingsonoftheT.,44(2):242-248.)

22ndProbabilisticlatentsemanticindexing[C]∥Pro⁃[44]YorkResearchandDevelopmentAnnualInternationalinInformationACMSIGIRRetrieval.ConferenceHOFMANN:ACM,ceedingsT.1999NewProbabilistic:50-57.

[45]Intelligence.ofthe15thLUSanFranciscoAnnual:Conferencelatentsemanticanalysis[C]//Pro⁃MorganKaufmannonUncertainty,1999inArtificiallisticY,topicMEImodelsQ,ZHAI:anC.:289-296.empiricalInvestigatingstudytaskofperformanceofprobabi⁃[46]

formation周楠,ETDU-TAG杜攀,Retrieval[J].靳小龙,,2011,14(2):178-203.PLSAandLDA[J].In⁃计算机学报,等.面向舆情事件的子话题标签生成模型2018,41(7):1490-1503.(ZHOUN,sub[47]puters-Ptopics,JINofXpublicL,etal.ET-TAG:ataggenerationmodelforthe[48]

[BLEI,opinionevents[J].ChineseJournalofCom⁃D2018,41(7):1490-1503.)

楚克明,J].JournalM,NGofMachineAY,JORDANLearningResearchMI.Latent,2003Dirichlet,allocation用与软件,李芳based2011.基于,28(LDA4):模型的新闻话题的演化4[3J:]993.计算机应-1022.[49]warenewstopicevolution-[7,J]26..(ComputerCHUKMApplications,LIF.LDAmodel-HUANG,2011newsC,M28,(WU4):C4-7andSoft⁃Y.,26.Effects)

[50]

tionaltopicGEandB,CongressdiscoveryHUC,onHUBig[CS,Data.]//Proceedingsofwordoftheassignment2015IEEEinLDAInterna⁃foretal.PiscatawayChinesenews:IEEEhot,subtopic2015:374discovery-380.modelrecommendationElectrical[C]methodbasedonkeyphraseandtheLDA[51]

Press,//Proceedingsofthe2018InternationalConferenceon苏婧琼,,2018:Control,AutomationandRobotics.Paris:Atlantis究LIU[J]刘建霞,349-358.谢珺,等.面向新闻文档的子话题划分方法研newsJ.X小型微型计算机系统,,XIEJ,2017,38(8):1850-1855.(SUJQ,[52]

2017李湘东,,documentsetal.Researchofsub-topicdivisionmethodin38([J].JournalofChineseComputerSystems,题划分方法巴志超,8):1850[J].黄莉-1855.计算机应用研究,.基于)LDA模型和2015,HowNet32(6):1625的多粒度子话-1629.(LI

第6期理姗姗等:基于网络社交媒体的子话题检测技术综述

1573XbasedD,onBALDAZCand,HUANGL.Multi-granularitysubtopicdivision[53]

ers,2015,32(6):1625HowNet-1629.[J])

.ApplicationResearchofComput⁃胡艳丽,化学报,白亮,张维明M.Modeling2012,and38(analyzing10).:一种话题演化建模与分析方法1690topic-1697.evolution(HUY[L,J]BAI.ActaL,ZHANG[J].自动AutomaticaW[54]

Sinica李静远,,2012,38(10):1690-1697.)

法[J].华南理工大学学报丘志杰,刘悦,等.(自然科学版)抑制背景噪声的,2017LDA,子话题挖掘算45(3):54-60.(withLIJY,QIUZJversitybackground,ofTechnologynoiseLIUY(restraint,etal.Natural[LDAScienceJ].JournalsubtopicEditionofdetection)South,2017Chinaalgorithm,45(Uni⁃54BANU-60.)

3):[55]

subalConferencetopicSHdetection,CHITRAKALAonAdvancesmodel[C]S.in//TrendingProceedingstopicElectrical,ofanalysisElectronicsthe2ndInternation⁃usingnovel,Informa⁃[56]

LIU2016tion,W:Communication157,WANG-161.

andBio-Informatics.Piscataway:IEEE,basedConferenceoneventonInternetnetworkD,XUand[WC],etal.Asub-topicpartitionmethodington,DC:IEEEComputerWeb//ProceedingsSocietyApplicationsof,2012:194andthe7th-199.Services.International

Wash⁃[57]

KATRAGADDAtectionS,BENTONR,JointConferencefromtweetson[NeuralC]//ProceedingsRAGHAVANNetworks.Piscatawayofthe2017V.Sub:IEEEInternational-eventde⁃2128-2135.

,2017:[58]

MELADIANOSgeneracy-basedPreal,NIKOLENTZOS-timesub-eventG,detectionROUSSEAUinTwitterF,etal.stream

De⁃[SocialC]//ProceedingsMedia.MenloofParkthe8th:AAAIInternationalPress,2015Conference:248-257.onWeband[59]

MELADIANOSal.P,XYPOLOPOULOSC,NIKOLENTZOSGzationAnenceoninoptimizationInformationTwitter[C]approach//RetrievalProceedingsforsub-,LNCSofeventthe10772.2018detectionEuropeanandsummari⁃,etCham:SpringerConfer⁃,[60]

2018仲兆满,:481-493.

子话题聚李存华,类[J].戴红伟,计算机等科.学融合内容与时间特征的中文新闻与探索,2013,7(4):368-376.(subtopicZHONGtiersofintegratingZM,LICComputercontentH,DAIScienceandHW,etal.ClusteringChinesenewsandtimeTechnologyfeatures[J,].2013Journal,7of(Fron⁃368-376.)

4):[61]

[张瑞琦.基于关键特征聚类的TopN热点话题检测方法研究ingonD][Top.北京:D].NBeijinghot北京理工大学,topics:BeijingdetectionInstitutemethod2015:4ofTechnologybased-5.(ZHANGonkey,2015featuresRQ.Research

:4-5.cluster⁃[62])

eventPOHLdetectionD,BOUCHACHIAinemergencyA,HELLWAGNERmanagementusingH.Automaticsocialmediasub-[WideC]//Web.ProceedingsNewYorkof:theACM21st,2012International:683-686.

ConferenceonWorld

[63]POHLsisInternationalmanagementD,BOUCHACHIAJournalviadetectionA,ofInformationofHELLWAGNERsub-eventsinsocialH.Supportingnetworks[cri⁃J].andPOHLManagementingD,BOUCHACHIA,2013,5(A3),:HELLWAGNER20-36.

SystemsforCrisisResponse

[64]H.Onlineindex⁃[65]

[ZAHARIEVAJ].andNeurocomputingclusteringof,social2016media,172:data168-for179.

emergencymanagementeventdetectionMin,RIEGLERmulti-userM.imageMediacollectionssynchronization[C]//Proceedings

andsub-ofUnderstandingthe2ndACMfromInternationalMultimedia.WorkshopNewYorkon:HumanACM,-centered2015:13Event[66]QIANX,LIM,RENY,etal.Socialmediabasedeventsummari⁃-18.zationbyuser-text-imageco-clustering[J].Knowledge-BasedSys⁃[67]

temsPANEM,2019S,,BANSAL164:107R-121.

timeusingsub-topicdetection,GUPTAonMTwitter,etal.[CEntity]//Proceedingstrackinginreal-

2014ChamEuropean魏明川,:SpringerConference方法[J]朱俊杰,,2014.中文信息学报,张瑾,:等528on.-基于吸收马尔可夫链的子话题发现533.

InformationRetrieval,LNCS8416.ofthe[68]

ZHUJJ,ZHANGJ,etal.2014An,algorithm28(1):41for-46subtopic,55.(WEIdetecting

MC,basedtionProcessingonabsorbing,2014Markov,28(1chain):41[-J46].,Journal55.)

ofChineseInforma⁃

[69]

KHURDIYAcompilationofAevents,DEYandL,subMAHAJAN-eventsfromD,Twitteretal.[ExtractionC]//Proceed⁃andingsWebofIntelligencethe2012andIEEE/WIC/ACMIntelligentAgentInternationalTechnology.ConferencesPiscatawayon:

[70]IEEE韩冰,,南汪波2012.:504一种基于改进蚁群算法的子话题划分方法-508.

[WANG大学学报(自然科学版),2016,30(6):473-478.(HANJ].B济

,rithmB.Asubtopicpartitionbasedonimprovedantcolonyalgo⁃gy),[2016J].,Journal30(6):of473University-478.)

ofJinan(ScienceandTechnolo⁃

[71]CHENframeworkG,forXUsubN,-eventMAOdetectionW,etal.inAnsocialencodermedia-memory[C]//-Proceed⁃decoderingsandofKnowledgethe27thACMManagement.InternationalNewonYorkConference:ACM,on2018Information

:1575-[72]1578.

SARAVANOUandA,KATAKISI,VALKANASG,etal.Detectiongineering.ProceedingsdelineationPiscatawayoftheofIEEEevents:IEEE34thandInternationalsub-eventsinConferencesocialnetworksonData[CEn⁃]//

[73]

TOKARCHUK,2018:1348-1351.

puzzleL,WANGX,POSLADS.Piecingtogetherthe12detection:Improving(11usingadaptiveeventmicroblogcontentcoveragecrawling[forJ]real.PloS-timeOnesub,-2017event

):ArticleNo.e0187401.

,[74]

GONÇALVEStopicdiscoveryGalgorithms,MARTINSforF,realMAGALHÃES-timeinformationJ.Analysissummarization

ofsub⁃[ACMC]//,Proceedings2018:1855-1856.

oftheWebConference2018.NewYork:DevelopmentThisworkProgramispartiallyofChinasupported(2017YFC0820702bytheNational-3),KeytheResearchNationalNat⁃and

toryuralScienceFoundationofChina(U1603115,U1435215),theLabora⁃

SafetyDirectorRiskPerceptionFoundationandofControlNationalbyBigEngineeringData.

LaboratoryforPublicestsincludeLIShanshannatural,languagebornin1996processing,M.S.candidate.Herresearchinter⁃

security.

,textdatamining,informationresearchYANGWenzhong,bornin1971,Ph.D.,associateprofessor.His

informationinterestsWANGsecurityincludeTing,,bornwirelessInternetin1996sensorpublic,M.network.opinion,intelligenceanalysis,S.candidate.Herresearchinter⁃

mationestsincludeWANGsecurity.

naturallanguageprocessing,textemotionalanalysis,infor⁃estsincludenaturalLihualanguage,borninprocessing1995,M.,S.textcandidate.intentionHerdetection.

researchinter⁃

因篇幅问题不能全部显示,请点此查看更多更全内容