摘要:近年来,网络舆情热点数据挖掘受到广泛关注。获取社交媒体数据、找出舆情热点相对容易,但现有的网页舆情热点数据挖掘方法存在系统开销大、时效性差等问题。从社交媒体日益流行的短链接入手,分析其在挖掘网页舆情热点中的价值,并在此基础上提出一种网页舆情热点数据挖掘方法。
关键词:
社交媒体短链接;舆论热点;数据挖掘

1 互联网舆论热点及现有数据挖掘方法
1.1 互联网舆论热点
舆论是指公众对现实社会和社会中各种现象和问题所表达的信念、态度、意见和情感表达的总和。它相对一致、强烈和持久的过程会产生影响。
随着个人电脑、智能手机等设备的普及以及新兴市场互联网接入的不断增长,互联网已成为人们获取和传播信息的主要渠道。据英国《经济学人》杂志2010年估计,全球网络信息总量的年复合增长率已达到60%,而且还在加速。美国国际数据公司(IDC)提出了“数字宇宙”的概念,预计到2020年,“数字宇宙”规模将超过40ZB。通过互联网这种新的传播载体,传统舆论有了新的表现形式,即网络舆论,具有传播迅速、信息多样、互动方式等特点。

网络舆论热点是网民思想、情感和兴趣诉求在互联网上的集中体现,是网民热切关注和集中讨论的焦点。是社会舆论热点在互联网上的映射,反过来又会对现实社会产生深远的影响。因此,越来越多的政府部门、企事业单位越来越重视网络舆论热点。
1.2 网页舆情数据挖掘方法
从浩瀚的网络舆情中筛选出热点舆情的前提是尽可能多地获取网络舆情数据。网络舆情数据的主要来源有:网站、论坛、博客、社交媒体等。其中,微博等社交媒体普遍嵌入搜索引擎,对外开放API接口。针对性的数据爬虫技术比较成熟,大部分都有自己的热门话题排名等功能。因此,我们获取社交媒体数据,找出舆论热点并不难。本文将网络舆情数据挖掘的范围集中在除社交网络之外的网页数据上。目前,网络舆情数据的挖掘主要依靠搜索引擎,主要分为以下三类:

(1)搜索索引/目录):手动或半自动收集信息,手动形成摘要和分类,实现目录浏览和检索功能。这种方法费时费力,信息量小,更新慢,不适合现在的网络开发。
(2)全文搜索引擎):这个引擎一般都有自己的索引器,俗称“蜘蛛”、“机器人”或“爬虫”(Crawler),通过链接从互联网上提取各个网站的信息,并建立数据库,实现对整个网站的数据采集。互联网公共网页。对于互联网上出现的新数据,全文搜索引擎通过一系列优化算法提高采集效率。常见的策略包括: ①根据被爬取的网页中包含的外部链接,任何被采集系统识别为未记录的站点或内容都将被分配一个爬取任务; ②识别各站点的网页更新率,调整采集频率; ③根据每个站点或内容站点的分类属性来确定采集或解析的准确性。

目前全文搜索引擎的采集策略是最优化的网络舆情数据采集机制,但其缺点是需要大量投入。由于其目标是尽快收集全球所有互联网公共网页数据,因此对数据量和收集频率提出了极高的要求。目前,全球主流的全文搜索引擎谷歌每年投入超过百亿美元来维护其庞大的收藏系统和搜索产品的维护与开发。同时,由于采集面过于广泛,缺乏针对性,其数据采集的时效性也大打折扣。即使收集到数据,也只能通过同一主题的聚类算法[7]粗略判断网络热点。因此,全文搜索引擎全拓扑获取策略不适合那些数据需求明确,只关注互联网极少数网页舆情热点数据需求的人。
(3)元搜索引擎(META Search Engine)。这类引擎在接收到用户的关键字查询请求时,会同时在多个其他引擎(通常是全文搜索引擎)上进行搜索,并会结果汇总整理后反馈给用户,由于直接使用其他引擎的搜索结果,元搜索引擎在系统开发和维护方面成本极低,但也存在全文搜索的不足引擎在时效性和网络舆情热点算法方面,这里不再赘述。
2 短链接及其价值
2.1 短链接概念
短链接,也称为URL缩短(URL缩短),是一种在互联网上使用的技术,可以有效地缩短一个URL的长度,但仍然允许访问原始网址[8]。它通常包括短链接生成和地址重定向两个过程。短链接服务提供商将向用户提供一个界面,该界面包含一个脚本,该脚本包含要缩短的目标长地址。系统经过防滥用、URL过滤验证等后会生成一个随机字符串,并将该字符串与目标地址进行关联。某些表单关联地存储在数据库中,并返回与该字符串关联的短链接。当用户访问短链接时,服务商通过数据库匹配得到对应的目标长地址,并利用301、302或META等域名重定向技术引导用户访问目标网站[9].
短链接的广泛使用是由于 Twitter 和微博等社交媒体在全球范围内的流行以及它们对发布内容长度的严格限制