1.6 社交网络分析的主要研究方向

1.6.1 信息传播

在社交网络中,不同用户之间的信息传播是以用户之间的社交关系为基础的。社交网络是以真实存在的用户朋友关系为基石,通过考虑“六度分隔”理论等,不断扩展网络中用户个体的社交范围,形成一个大规模的社会化网络,最后搭建而成的一个具有新特性的信息传播平台。从传播学的定义来看,社交网络信息传播过程中的信源与信宿、传播信息、传播范围、传播媒介、传播方式等都有自己的特殊性。社交网络中不同用户之间的信息传播过程和现实生活中的传染病感染过程非常类似。在社交网络中,当信源发送或分享一条消息时,朋友们会在不同时刻看到该消息,而且感兴趣的人会以一定的概率转发它。

1.6.2 情感分析

社交网络情感分析属于观点挖掘的范畴,它根据用户在社交网络中的行为(如评论、口碑等),以逻辑学、语言学、心理学理论为基础,采用自然语言处理等方法,分析用户对实体(如产品、服务、个人、事件等)表达的观点、情绪、态度。虽然对自然语言处理方法的研究已有多年,但情感分析仍然是热点,原因有二:(1)在线社交网络情感分析有着广泛的应用,尤其是在工业界。(2)随着网络社交媒体的发展,在线社交网络的情感分析面临一些新挑战和新视角,如数据的海量性对情感分析算法的影响。

情感分析最常见的应用是分析在线评论中消费者对产品及服务的观点。Twitter和Facebook是许多情感分析应用的焦点,最普遍的应用利用Twitter和Facebook数据检测特定品牌的声誉。同时,情感分析也可应用到政治领域,如追踪社交网络上选民对候选人的演讲和行为的看法。另外,在金融市场上,社交网络情感分析也有着普遍的应用,如情绪分析系统利用从多个在线平台收集的讨论企业的文章,分析总体情感分值,并将该分值应用到交易系统中。

1.6.3 热点事件分析

社交网络的信息传播主要建立在庞大的用户群体基础上,传播形式较为新颖,且能够满足当代人碎片化的阅读需求,较大程度地提高了信息传播的有效性和受众的活跃度。社交网络环境中的用户可以自由创建内容,用户之间可以自由进行话题互动,媒体信息与用户之间由传统的单向式传播转变为多对多双向式传播。社交网络具有交互性、参与性、公开性等特征,为信息传播提供了跨时空和低成本的媒介。社交网络承载着大量的信息和受众群体,成为热点事件爆发的主要信息源。热点事件主要基于现实社会中的某种现象或问题产生,而且事件的发生具有很强的偶然性。当社会事件在网络上被曝光后,可能会引发用户较多的关注并被用户快速传播,进而成为热点事件。用户会参与话题互动(如评论、点赞、转发等)来表达自身的价值观念及诉求,进而促进信息的传播。同时,社交网络是信息传播的重要渠道,对用户的情绪和价值观有一定的影响。因此,研究社交网络热点事件的传播机理及传播影响因素具有一定的理论与现实意义。

1.6.4 影响最大化

社交网络影响最大化问题作为信息传播问题中的一个重要问题,蕴含着巨大的商业价值,如个性营销、谣言控制和链路预测等。影响最大化问题进入学术界是在 2001 年,当时 Domingos 和 Richardson 提出用马尔可夫随机场来模拟信息传播过程,并给出了一个启发式的解决方案,给学者们打开了一道新的大门。2003 年,Kempe 等人将影响最大化问题定义为一种 top-k 的离散最优化问题,即找出影响传播范围最大的k个种子节点。此外,他们还提出了两种基本的传播模型——线性阈值模型和独立级联模型,证明了在这两种传播模型下,影响最大化问题是一个不确定多项式(Non-deterministic Polynomial,NP)困难问题。他们提出了一个近似比为1-1/e的 Greedy 算法,这个算法可以得到影响最大化问题最优解 63%的近似解。根据影响最大化问题目标函数的子模性,Leskovec 等人提出了 CELF(Cost-Effective Lazy-Forward)算法,该算法的主要思想是:对于任意边e=(uv),若节点u在上一轮的边际收益小于等于节点v的边际收益,则从当前轮开始,节点u的边际收益不用计算。为了得到好的算法精度和时间效率,学者们不再只考虑节点的单一环境因素和单一特征。Zareie 等人提出度量节点的影响力需要考虑直接影响、间接影响、直接覆盖、间接覆盖四个因素,他们采用多目标决策分析中的TOPSIS(Technique for Order Preference by Similarity to an Ideal Solution)方法综合考虑这4个因素,并且提出了MCIM(Multi-CriteriaInfluence Maximization)算法。虽然MCIM算法考虑了节点与邻居的直接与间接影响,也考虑了不同节点的邻居覆盖问题,但针对的只是节点的度。

1.6.5 链路预测

链路预测的基本研究思路如下:首先,计算节点之间的相似性;然后基于相似性度量的大小,预测不存在连边的节点对被链接起来的概率大小;再后,将数据集分成训练集和测试集两部分,通过良好的评价指标来研究最佳算法。一般来说,相似性度量研究方法分为基于局部信息的算法、基于全局信息的算法和基于准局部信息的算法三种。基于局部信息的算法根据节点间的相似性来选择邻居节点进行预测,这类算法执行起来通常非常有效,多数情况下适合于大规模网络应用。例如,共同邻居指标(Common Neighbor,CN)指标关注两个节点是否处在同一个环境下;Jaccard 相似性指标在任意两点之间的共同邻居数量的基础上,引入节点度来刻画相似性;Adamic Adar(Adamic-Adar,AA)指标认为度小的共同邻居节点的贡献大于度大的共同邻居节点的贡献;资源分配(Resource Allocation,RA)指标考虑网络中不直接相连的节点通过共同邻居传递资源;优先链接(Perferential Attachment,PA)指标认为新链接连接节点的概率正比于两个节点的度的乘积;吕琳媛等人对几种基准指标进行了研究,研究发现所有共同邻居对节点对的贡献相同,并且基于这一假设提出了局部朴素贝叶斯(Local Naive Bayes,LNB)模型,该建立在 AA、CN 和 RA 算法的基础上,且精度有所提高。

1.6.6 社区发现

社区发现是研究网络社区结构必不可少的方法。社区发现会采用各种方法挖掘社交网络中的潜在社区。目前,对社区发现方法的研究越来越多。DBLP (DataBase systems and Logic Programming)的统计数据显示(见图1.4),学术界对社区发现的研究呈递增趋势,因此社区发现已经逐步成为复杂网络分析中的重点研究方向之一。通过对社交网络进行社区发现,可以分析社区结构、计算节点影响力、寻找核心节点、进行兴趣推荐等。

社交网络的社区发现算法主要分为静态社区发现方法和动态社区发现方法。目前关于复杂网络的社区发现方法的研究主要集中于静态社区发现方法。传统的静态社区发现一般分为两类,即非重叠社区发现和重叠社区发现。非重叠社区发现通过相关算法使得网络中的每个节点只属于一个社区,不存在任何节点同时属于两个或以上社区的情况;重叠社区发现的情形与之相反。非重叠社区发现算法主要包括基于图分割的算法、基于层次聚类的方法、基于模块度(Modularity)的优化算法、基于标签传播的算法、基于模型推断的算法等。重叠社区发现算法主要包括基于团过滤的算法、基于边划分的算法、基于局部扩展的算法、基于标签传播的算法、基于模型推断的算法等。

图1.4 2015—2021年公开发表的关于社区发现的相关论文数量统计