1　绪论

1.1　选题背景和研究意义

1.1.1　选题背景

2020年，我国证券市场进入了30周年的而立之年。“2020年A股市值年度报告”显示，截至2020年底，共有4 140家公司在深圳证券交易所或上海证券交易所主板上市，市值总规模创历史新高，达到79.72万亿元，较2019年的59.29万亿元上涨20.43万亿元，涨幅高达34.46%，相当于我国2020年全年GDP的78.5%。通常来说，证券市场是国民经济的“晴雨表”，其走势往往能够比经济周期提前几个月。证券市场常态波动是其具备流动性、充满套利空间的原因，同时也是投资者逐利的机会；但是异常波动可能会带来市场恐慌，演化为系统性风险，甚至成为金融危机爆发的导火索。因此，证券市场的稳定不但是重要的民生问题，而且是国民经济健康发展的重要基石。

传统金融学研究中，有效市场假说（efficient markets hypothesis，EMH）（Fama，1965）认为，证券市场的波动由“新信息”驱动，投资者依据“新信息”不断更新对市场的看法并调整投资行为，从而推动证券价格围绕其内在价值小范围波动。近代行为金融学认为，由于非理性投资者对信息的认知偏差和处理信息的不完全理性，其产生的情绪化投资行为会引起证券市场的波动（De Long et al.，1990；Shleifer et al.，1997）。尽管传统金融学和近代行为金融学对信息如何影响证券市场走势有不同的观点，但是二者都认同证券市场的波动与相关媒体信息的发布、传播和吸收紧密联系（De Long et al.，1990；Fama，1965；Rechenthin et al.，2013）。

在互联网技术持续普及并得到广泛应用的今天，互联网中的媒体信息量与传播速度日渐剧增，进一步加剧了媒体信息对证券市场波动的影响力。事实上，互联网媒体对证券市场的影响是一把双刃剑。一方面，其广泛且迅速的信息传播能力有利于降低市场参与者之间的信息不对称程度，从而提高证券市场有效性和维护市场稳定。另一方面，互联网上存在着大量的片面、违规甚至虚假信息，这些信息不但严重冲击了股价，而且极大打击了投资者对证券市场信息透明性和真实性的信心，从而降低证券市场的融资能力和社会资源配置能力。例如，2011年6月13日，原《内蒙古商报》社长编造了《内幕惨不忍睹：伊利被掏空》一文，并发布到网上，在短短的55分钟内，导致伊利股份股票由涨停变为跌停，市值蒸发约10亿元。

事实上，目前业界已经初步成立了多只基于社交媒体分析的对冲基金，例如DCM Capital、Twitter-based Hedge Fund、Cayman Atlantic。总体而言，这些基金通过分析媒体信息内容来感知公众情绪、消费者意愿和投资者行为，来指导投资者进行投资，它们都取得了不错的业绩。特别是Cayman Atlantic管理资本，其年收益回报率达到了9.72%。值得一提的是，2017年10月18日，美国IBM公司支持的EquBot推出了一款名为AIEQ的交易型开放式指数基金（ETF），这是人类历史上首款旨在完全脱离人工干预，利用人工智能预判证券市场波动的指数基金。截至2020年1月31日，AIEQ以15.22%的年收益率战胜了标准普尔500（S＆P500）指数。

早期的传统金融学研究主要利用基于新闻数量的计量分析法来研究媒体与证券市场波动的关系。具体而言，基于新闻数量的计量分析法是将新闻发布的数量作为新闻影响力的度量方式，来研究新闻对证券市场的影响（Chan，2003；Mitchell et al.，1994）。虽然有效证实了媒体对证券市场的影响力的存在性，但事实上，媒体对证券市场的影响来源于其对企业基本面情况的描述，以及在特定媒体影响下投资者的非理性行为。基于新闻数量的计量分析法没有考虑到丰富的媒体内容，仅将媒体浓缩成一个“点”来测度其影响力显得过于简化，难以准确地捕捉媒体对证券市场的真实影响力。

近年来，随着现代行为金融学在证券市场波动风险领域的深入研究，越来越多的证据表明，投资者的认知偏差和情感偏见是导致证券市场波动的重要因素（Barberis et al.，1998；Da et al.，2015；De Long et al.，1990；Mitra et al.，2011；Shleifer et al.，1997；Tetlock，2007）。其中，最具有代表性的开创性成果是Tetlock教授发布在Journal of Finance的两篇研究报告（Tetlock，2007；Tetlock et al.，2008），Tetlock使用哈佛大学心理学词典（HPD）分析了1984至1999年《华尔街日报》（Wall Street Journal）上的新闻，提出了一种利用情感词比例来代表新闻内容的文本情感量化框架，探索了新闻的消极情感与上市公司的股票收益、公司业绩之间的关系。Tetlock的研究初步揭开了传统媒体新闻文本内容与证券市场波动风险关系的面纱。在大数据时代下，相比互联网信息几何级增长和传播方式的多样性，传统新闻媒体的发布量、传播力、影响力则显得相形见绌，类似的基于传统媒体新闻或少量的互联网媒体新闻的研究也已无法满足对证券市场综合影响的准确把握。本书将从大数据的视角出发，利用大数据分析技术研究海量的互联网财经新闻对证券市场的影响。

此外，以往的研究通常是将新闻视为一个整体，验证其对证券市场整体的影响，但是缺乏了对证券市场媒体效应更深层次、更细致的探索。事实上，在施动者（媒体）层面，新闻发布的内容是多种多样的，例如存在运营与业绩、违规处罚、重组并购等多类别的新闻，具体哪种类型的新闻对证券市场波动的影响最为显著？在受动者（上市公司）层面，公司具有不同的属性，特别是在不同的行业，什么样的公司更容易受到新闻的冲击？在管理者层面，有的管理者倾向于同外界媒体产生更多的互动，有的管理者则更关注公司自身的经营，那么上市公司管理者在证券市场媒体效应中扮演的不同角色会对公司产生怎样的影响？种种问题都值得进一步深思和探索。本书从施动者、受动者和管理者三个视角，对证券市场的新闻媒体效应展开了深入和细致的探讨。

金融研究一直致力于解构（deconstruct）导致系统性经济风险的内在机理，由导致系统风险波动的原因出发，从经济指标、市场环境、政策变化、投资者情绪等角度逐一探寻不同风险因素对经济系统波动的影响。但是，现实的经济系统是一个复杂的动态系统，其波动一定是各种因素交叉融合、相互作用的合力结果。传统的金融计量方法难以捕捉这一过程的全貌，这是“解构”思维的缺陷，也直接构成系统性风险分析研究的重大瓶颈。本书利用深度学习机制，提出了一个智能计算框架，用整体、连续，而非单一的数据关系，研究复杂市场因素对证券市场新闻媒体效应的综合影响。

综上所述，本书致力于从大数据视角研究证券市场的新闻媒体效应。为了获得足够的互联网新闻数据，本书首先利用研发的定向分布式网络抓爬器定向是指通过对目标网站中所需的内容进行筛选，精准地获取其中的信息；分布式是指在多台服务器上部署爬虫程序，实现联合采集。，获取了2015至2017年的中国36个主流财经网站的110余万条新闻信息；其次研究先进的自然语言处理技术，实现新闻主题的分类与新闻情感的量化；最后系统全面地从三个视角（施动者、受动者和管理者），通过传统金融计量模型探索证券市场新闻效应。由于传统的金融计量方法存在难以捕捉现实证券市场复杂动态过程的缺陷，本书进一步提出了一个深度学习框架，用整体、连续，而非单一的数据关系，研究复杂市场因素对证券市场新闻媒体效应的综合影响。

本书构建的大数据证券市场媒体效应研究理论框架和技术方案，可以从金融市场监管、上市公司治理、投资者认知行为三个不同的角度，为证券市场实践提供重要的理论参考和决策辅助。具体而言，在金融市场监管方面，监管者应当充分肯定媒体在证券市场中的积极作用、加强与新闻监管机构的长期合作、加强对各机构的监管以杜绝内幕交易；在上市公司治理方面，上市公司应当积极把握媒体动态和行业形势、充分发挥公司高管在媒体中的作用、完善信息披露机制和内容；在投资者认知行为方面，投资者应冷静应对海量互联网财经新闻、有效甄别和理性看待不同主题的新闻、选择熟悉的上市公司进行投资。

1 绪论

1.1 选题背景和研究意义

1.1.1 选题背景

1　绪论

1.1　选题背景和研究意义

1.1.1　选题背景