知网论文查重知网论文查重

论文在线投稿
论文范文大全
知网论文查重 zaolun.COM

基于微博的社会舆情研判与预警体系构建

万方网论文查重

摘 要:本研究以新浪微博为主要舆情采集平台,对微博系统内海量信息进行日常性和持续性的抓取、跟踪与搜集。本论文针对微博信息传播特点,充分利用网络信息挖掘技术、计算机中文信息处理技术、数据挖掘技术等应用技术,研究微博舆情监测关键技术及实施方案,力求构建适应微博特点的网络舆情预警机制。

关键词:微博;舆情;研判;预警

1 引言

近年来我国各类突发事件频发,社会稳定性显著降低,这不仅直接导致社会经济生活及人身财产安全的重大损失,也极大地危害到社会的稳定与发展。中国社科院在其出版的《社会蓝皮书》一书中,将微博定义为"杀伤力最强的舆论载体",体现了微博舆论的强大影响力。

本研究来源于北京市大学生科研创新项目《基于微博的社会舆情研判与预警》的子项目,试图以新浪微博为对象,研究微博舆情监测关键技术及实施方案,具体内容包括:博文自动抽取、中文分词、文档清洗(去停用词)、中文计算机表达、文档情感倾向判别、意见领袖识别、综合舆情判断等内容。

2 研究过程

2.1 微博数据的自动获取

网络舆情数据获取是网络舆情分析的前提。面对互联网的海量信息,迫切需要一种技术来帮助人们自动从网络上获取相关信息,从而可以极大地提高人们获取信息的速度和广度。网络爬虫(WEB Crawler)是搜索引擎的重要组成部分之一,其作用是为搜索引擎从网络中下载所需的网页。相比网络爬虫,新浪微博的开放API接口可以更加简洁的获取相应的数据,本研究即采用新浪微博的API接口作为数据挖掘工具。

① OAUTH认证:使用新浪API前首先须完成用户认证。新浪微博API采用OAUTH认证为用户提供了一个安全的、开放而又简易的标准。

② 新浪微博API接口定义:新浪微博API调用接口形如:http: //api.t.sina.com.cn/statuses/followers.json? source=appkey&user_id=11051&count=200&cursor=1200。该命令分别指定了新浪API服务器地址、接口信息具体内容及方法;OAUTH认证信息、用户数字ID、返回记录的首位置及记录条数。

③ 微博数据抽取器的主要功能包括:用户登录验证,获取follower微博列表,获取回复列表,获取私信列表,获取收藏列表等。

2.2 文本分词处理及矢量化表示

① 中文分词及词性标注:由于英文文本每个单词间用空格分开,计算机很容易识别。但对于中文文本,词语之间无区分字符,需根据语义语法来分断。中科院的中文分词系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)分词准确率较高,本研究选取ICTCLAS进行分词。

② 中文文本表示模型:常见的文本表示模型主要有布尔模型、向量空间模型、概率语言模型等。布尔模型采用布尔向量来表示文本,但不能定量反映特征项对于文本的贡献程度;概率模型用概率值来表示词在各类文本中出现的概率,但无法处理语言中的长距离依赖;向量空间模型采取TF-IDF值表示特征项的权值。词频TF(Term Frequency)指某一特征词在当前文本出现的相对次数;逆文档频率IDF(Inverse Document Frequency)用于评估特征词的重要性。由于该模型简易高效,本研究即采用此法表示中文文本。

2.3 文本清洗(去停用词)

停用词是指文本中出现频率很高,但实际意义又不大的词。停用词大致有两类,第一类包括语气助词、介词等,如常见的“的”、“地”之类;另一种是在所有文档中大量出现的词,,如“顶”之类。本研究中使用停用词表实现对停用词的过滤功能。

2.4 文本情感倾向判断

舆情立场判别可通过判断博文的感情倾向得到,最常见的是根据其包含的褒贬词汇来进行计算。为获得文本的情感极性,需首先提取情感词,本研究基于情感词词典的方法来提取情感词。

① 极性词典的构建:词语除可表达特有的概念外,还能传达一定的感情色彩。感情色彩大体分为褒义和贬义两种,褒义如“好,聪明、优秀”等,贬义如“坏、鄙夷、恶魔”等。具有褒贬义的词语集合称为极性词典,本研究的极性词典主要取自《知网》 (HowNet),包括程度级别词语、正负面评价词语、正负面情感词语等。

② 倾向性分析算法与实现过程:词语中还有些极性修饰词,处理时,可给这些修饰词设置不同的强度系数。如定义极性褒义、贬义的原始强度分别为:+1,-1,再定义极性修饰词“极其/最”的强度系数为2,则总的情感极性=词语极性*强度系数。另有些特殊情况需考虑:句式反转规则,适用于汉语中表示否定和反问句式,如:“不、不是、非、并非、难道、岂不”引导的句子,另遇到双引号或单引号括起的情感词,均应对原话中的褒贬义进行反转。感情强化规则:汉语的感叹号等可表示情感的增强,故可用感叹号的数量来表示感情色彩的强度。

2.5 意见领袖识别

社会突发事件发生后,微博中会往往会产生群体情绪,其间意见领袖对群体情绪的演化及舆情研判影响极大。据拉扎菲尔德的定义,意见领袖指在某一主题内特别活跃且有极大影响力的用户,所以本研究从如下两个方面分析微博意见领袖:用户影响力和用户活跃度。

① 用户影响力:微博中有三种交互行为可以作为影响力考虑因素。转发行为,信息被转发的次数越多,产生的影响越大;评论行为,信息得到的评论越多,意味着信息影响的范围越广; “@“行为,一个用户被提及的次数越多,意味着这个用户对其他用户的吸引力越大。

② 用户活跃度:意见领袖要对其他人施加影响,仅仅发布信息而不参与互动交流是无法影响到人们的观点和意见。包括:原创微博数量,代表用户表达自己思想的愿望;自回帖行为,反映用户之间的交流活跃度;回复他人帖子数,反映对其他用户的言论关注度;活跃天数,反映用户对事件的关注持久度。

2.6 舆情指标体系

由网络的海量个体信息中发掘群体行为规律,对确定突发事件的发展状态以及对衍生事件的预警具有重要价值,可以实现对社会事件高效的辅助决策。本研究将指标评价体系划分为:舆情主体、舆情信息、舆情传播和舆情受众4个指标,细述如下:

舆情主体指标:是指微博所有者的相关个人身份信息指标。

舆情信息指标:舆情信息指标反映了该舆情的敏感程度、危害程度以及受到关注的程度。

舆情传播指标:舆情传播指标反映了该舆情在传播过程中的扩散效果。

舆情受众指标:舆情的受众指标反映了受众所处的地域,对舆情的共鸣及回应态度。

3 结论

本文依据微博传播特点,借助网络信息挖掘、计算机中文信息处理等原理及技术,构建了一个微博舆情自动监测系统的实施方案,并对其关键技术进行研究。该方案涉及到博文自动抽取、中文分词、文档清洗(去停用词)、中文计算机表达、文档情感倾向判别、意见领袖识别、综合舆情判断等各专项技术,从而可为基于微博内容的网络舆情自动监测及预警提供准确的依据。

参考文献

[1]王晓龙,关毅.计算机自然语言处理[M].北京:清华大学出版社,2005.

[2]刘丰;基于微博的突发事件检测和信息传播建模[D];哈尔滨工业大学;2011年

[3]晓龙;突发事件的互联网信息传播规律研究[D];哈尔滨工业大学;2011年

[4]陈友,程学旗,杨森. 面向网络论坛的突发话题发现[J]. 中文信息学报. 2010(03)

作者简介

张利民,(1964-),女,甘肃兰州人,1986年毕业于西北师范大学政法学院,获得学士学位,副教授;主要研究方向:汽车技术服务与营销。

邹姝阳,(1990-),女,甘肃兰州人,2013年毕业于中央财经大学,获得学士学位,目前硕士就读于香港中文大学新闻与传播学院,主要研究方向:财经新闻,企业传播。

万方通用版论文查重
维普编辑部版论文查重

AI论文范文,输入题目即可生成万字论文,附赠查重报告,可选开题报告、任务书

AI论文2万字符 AI开题报告 AI工作报告 AI满分作文 AI个人总结