编者按
校企联合实验室是数据学院落实“应用驱动创新”理念,积极对接应用,提供社会服务,寻求成果转化,展现创新性研究和人才培养能力,兑现自身价值的主要方式。学院目前建有7个校企联合实验室。我们将不定期推出各个校企联合实验室及其工作进展介绍。感谢参与联合实验室建设的企业长期的支持与投入。欢迎学院师生和各界院友对联合实验室的工作提出建议。也欢迎有志于从事相关研究与开发工作的同学联系联合实验室的指导教师,报名加入实验室。
华东师大-瞰点科技金融大数据联合实验室
华东师大-瞰点科技金融大数据联合实验室成立于2018年6月5日,由上海瞰点科技有限责任公司和华东师范大学数据学院共同建设,目标为双方通过学术和技术交流、预先研究、成果转化等形式开展合作,在金融知识图谱、金融事件库构建、事件推理、金融大数据系统等方面产生一批兼具创新性与实用性的技术成果,支撑应用帮助投资者发掘二级市场中提前投资与获利机会,体现数据学院“应用驱动创新”发展理念,为学院成为辐射行业和领域的工程研究基地形成示范。
1、 知识图谱
知识图谱(Knowledge Graph)的构建和使用是联合实验室研究工作的重点,也是将来成果在投资中进行应用的基础。
2012年,Google提出使用知识图谱辅助搜索引擎洞察用户查询的语义信息。它其实是一种专用的语义网络。知识图谱本质上是一种包含多类型节点和多种类型边的多关系图(Multi-relational Graph),图中的节点通常表达现实世界中诸如人、地名、药物、公司等事物实体(Entity),边则表达不同实体之间的某种关联联系。构建知识图谱通常需要处理不同来源的数据以进行信息抽取。垂直领域内的知识图谱通常需要结合结构化的业务数据与非结构化的网页数据,并借助自然语言处理等技术从非结构化数据中提取出结构化的信息来加以构建。
构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:(1)信息抽取——从各种类型的数据源中提取出实体、属性以及实体间的相互关系形成本体化的知识表达,主要涉及实体抽取、关系抽取两方面技术;(2)知识融合——对所获得的新知识进行整合以消除矛盾和歧义,主要包括实体链接与知识合并两方面技术;(3)知识加工——经过融合的新知识经质量评估合格后才能加入到知识库中,以确保知识库的质量,主要包括本体构建、知识推理和质量评估三方面技术。
2、 投资顾问(投顾)金融知识图谱应用与技术难点
智能投资顾问指利用大数据、人工智能等手段,为投资,特别是证券投资提供咨询和决策辅助。实现智能投顾的重点问题之一是从上市公司、高管、产业、行业等角度构建具有可联系、可追溯、可扩展的金融知识图谱。智能投顾业务通常需要构建企业、行业、市场三个不同层次的图谱。企业知识图谱主要基于上市公司股权关系和股东结构等投资关系,主营业务、产品生产和销售情况,以及专利技术、招投标项目和司法诉讼关系等信息来进行构建。行业知识图谱主要基于产业知识、逻辑关系、上下游传导机制等信息进行构建,以梳理行业和产业链的体系架构。市场知识图谱则主要整合市场信息来展现资本市场的发展动向与某些重大或者关键事件的关联关系。
知识图谱的构建涉及知识表示、知识抽取、实体链接、实体融合、链接预测、推理补全、语义嵌入、知识存储等多链条的知识工程技术。这些技术看似纷繁芜杂,但实际上最大的瓶颈在于数据。数据的严重缺失、数据质量差强人意等问题直接影响了图谱的构建和使用效果,采用自然语言处理和机器学习等技术基于各类非结构化的互联网数据来构建高质量的知识图谱就变得非常困难。此外,金融知识图谱具有知识更迭速度快、知识时效性要求高、知识的价值随时间快速贬值等特点,这就要求金融知识图谱的内容能够依据金融市场内每天所产生的大量信息得到及时的更新和丰富,而更新知识图谱的工作量和成本等价于重新构建知识图谱。因此如何利用自然语言处理技术从海量文本中提取关键信息,自动更新和扩展知识图谱也是一大难点。
KD金融知识图谱目标与工作进展
KD金融知识图谱应用环境
KD金融知识图谱是华东师范大学-瞰点科技金融大数据联合实验室的一项重要合作内容,其目标是实现基于事件驱动策略的金融智能投顾业务。基于KD金融知识图谱的智能投研能够利用大数据及人工智能技术,对新闻、公告、研报、产业等数据进行实时分析与监测,推理出影响公司业绩的关键驱动因素(Key Driver)和相关指标的变动。基于KD金融知识图谱进行知识推理,能够提前发现潜藏在突发性事件、新闻以及热点中的投资机会或者投资风险。
目前联合实验室已经就KD金融知识图谱的关键构建模块——KD事件库系统,开展了全面的研究与工程实践。这些工作主要包括以下七项内容。
l 网络数据爬虫
网络爬虫从特定的金融网站爬取新闻、公众号消息等数据,为后续构建金融知识图谱提供数据来源支撑。在服务器不断电、无故障的情况下,爬虫模块可以24小时不间断地实现数据爬取、去重和入库工作。
l 金融词向量
单词的向量表示是自然语言处理领域中一项重要的研究内容,金融词向量是构建金融知识图谱的最基础环节,训练金融领域内相关网站上每天更新的新闻语料所得到的金融词向量可以用于后在后续的各种知识图谱构建任务上。基于所爬取的数百万条金融语料上,在GloVe,Fasttext、Word2Vec、ELMo以及BERT等词向量训练模型上经过多次训练以及实验结果,观察到Fasttext和BERT模型训练出的词向量效果最好。目前Fasttext(120万条新闻,64维)训练出来的词向量已经用于命名实体识别、文本分类、聚类和关系抽取等任务中。
l金融命名实体识别
实验室讨论(陈远哲和王俊豪)
相较于传统的命名实体识别任务,金融命名实体识别的差异在于,首先,新闻主题与金融高度相关,金融术语之间的词嵌入比较相近从而产生混淆;其次,金融领域的实体类别多样,除了传统的人名、地名、机构名之外,还增加了A股上市公司、服务、产品等金融专用名词的识别。我们将命名实体识别建模为序列标注问题,使用基于深度学习的Bi-LSTM+CRF模型来加以解决。此外,我们尝试在词嵌入层引入Fasttext、ELMo、BERT,并进入IDCNNs替换Bi-LSTM,以及尝试用Self-attention机制来改进命名实体识别模型,接下来的工作将通过调整模型架构和新增标注数据来继续优化模型精度。
l 金融事件分类
金融事件分类对应于自然语言处理中的层级文本多分类任务,其差异在于,一方面,新闻主题与金融高度相关,文本词汇高度集中在金融以及与之相关的宏观、行政领域;另一方面,事件类别更为多样,粒度更细,与之对应的层级结构也更为复杂。通过实验对比SVM、Xgboost、CNN、RCNN、BiLSTM、HAN(基于Word2Vec和Fasttext词向量)等文本分类方法后,我们采用了基于BERT表征的文本多分类方法来实现金融事件分类。该方法基于Transformer的Encoder层并结合语言模型进行预训练,然后根据具体的分类任务进行微调,训练出提取文本语言特征的模型,并通过一个前馈神经网络来获取每个分类标签的预测概率。目前分类模型已经成功上线到生产系统并获得业务专家的良好反馈。
l 金融关系抽取
关系抽取需要确定包含在同一个句子中的两个命名实体之间所存在关系类型,以便对知识库进行增量更新、丰富知识库中的知识表达。关系抽取任务通常会根据知识库中已有的实体关系以“远程监督”的方法进行大规模的语料收集用于训练关系抽取模型。但是目前缺乏成熟的针对上市公司的金融知识图谱可以用于抽取金融领域的实体关系,因此也就无法利用“远程监督”的方法去收集大规模的训练数据。目前,我们基于命名实体识别的结果抽取新闻文本中包含两个命名实体的句子,并根据业务专家的意见针对“新产品新业务”、“诉讼”、“违规处罚”、“上游供应商”、“下游客户“等关系构建近义词表。然后,我们的方法再利用近义词表采用“术语匹配”的方法代替“远程监督”构建大规模数据集,最后,我们采用基于Pointwise-CNN的方法对句子编码,利用Bag-attention以降低训练数据中的噪声对结果的影响。目前,我们的关系抽取模型已经能够鲁棒地进行训练,并提供实时的预测查询服务。
实验室工作环境(杨佳乐)
l 命名实体链接
金融领域的命名实体链接面临两方面挑战,一方面,链接实体更加偏重金融领域,需要以更细粒度区分A股、港股、美股与其他公司的区别,而这些类别的实体在很多其他命名实体链接任务中常不作区分;另一方面,知识库时效性、专业性需求较高,无法使用离线静态构造的知识库,相反,需专门构建并添加特征进行维护。我们是基于命名实体识别的结果进行实体消歧,从后再将所需实体链接到正确的结果。目前,我们首先通过简单的比较函数生成一个候选实体列表,再使用更加复杂的比较函数,如字符匹配、去除常用词、添加地点信息等方法,对候选实体进行打分,选取打分超过一定阈值的高分实体作为正确链接。目前,这一研究工作仍处于任务初期。我们将会继续构建数据集进行更泛化、真实的评测,通过丰富模型中的比较函数、并添加知识库来提高模型精度,根据任务需求添加更多需要的链接。
实验室讨论
l 金融文本聚类
自然语言文本聚合可将同一话题的新闻赋予如体育、金融、教育等标签。然而,传统的文本聚类的粒度比较粗。我们开展的金融文本聚类任务需要将一定时间窗口内的新闻,根据其实体特征,包括公司、产品、人物、数字等信息、以及新闻的发生时间和新闻内容的文本相似性等特征,将同一新闻事件的多篇新闻聚在一起,方便用户更全面地了解新闻事件及其发展脉络。我们爬取不同行业一段时间内的新闻,并人工标注了一小部分数据作为测试数据,用以评估聚类算法的准确率,其余数据则作为训练集。我们抽取新闻的文本文字、内容实体以及时间三方面的信息作为特征向量实现最终的文本聚类。目前聚类算法的测试精度达到业务要求,聚类算法工程化工作也已完成。
实验室工作环境(范梦真)
实验室指导教师:罗轶凤副教授,Email: yfluo@dase.ecnu.edu.cn