使用自然语言处理(NLP)开发ESG独特见解

Emmanuel Vallod & Trey Heiskell, CFA (客座博主)

在之前的文章中,我们概述了非结构化数据使用的高速增长程度,给各行业的专家举例说明了可以如何使用文本分析。当下,人工智能融合了自然语言处理(NLP),计算语言学和机器学习,使用户能够快速处理大量信息。现在我们将注意力转向环境,社会和治理(ESG)投资, 阐述如何使用文本分析来开发独特见解。

什么是ESG投资?ESG,即环境(Environment)、社会(Social)、公司治理(Corporate Governance)。区别于传统财务指标,ESG指标从环境、社会、公司治理角度,评估企业经营的可持续性与对社会价值观的影响。

近几年,我们目睹了专业和个人投资者对ESG兴趣的快速增长。体现在ESG数据提供者和用户数量非常活跃,机构投资者的应用增加,资金流动和投资工具也在增加。非常明显的趋势是ESG相关服务和产品会继续大规模的增长。

其中,特别有趣的是ESG投资的主观性很强,定义和实施ESG投资的可变性使消费者难以区分产品。所以,文本分析可以更深入地了解这个新兴领域。下面我们将详细说明,SumUp文本分析平台可以如何帮助投资者轻松识别非传统ESG投资风险,并建立独特投资洞察力。

案例分析

如果投资组合经理想找到一个方法算出有关ESG因素的投资风险,来分析个股的增持或者减持,并做出明智的投资决策。我们的API提供了这个工具,创建自己的参数进行分析和实施。例如,可以加入ESG变量参数,用正负ESG因素值对个股评分。

为了说明如何实现这一目标,我们做了一个案例研究,我们使用SumUp平台自带的公司文件,为信息技术领域的10只大型股票开发ESG评分。我们使用了2015年1月1日至2019年6月1日时间段进行此分析。这10家公司是:埃森哲,思科,英特尔,微软,Paypal,Apple,IBM,万事达卡,甲骨文和Salesforce。

我们使用了开源Jupyter笔记本来展示代码,投资组合经理可以很简单的直接复制和调整代码(代码链接在文章底)。

在这个代码示例中,我们基于这些公司在其公司文件中讨论的相关内容,提取了与每个ESG支柱相关的一组关键主题。例如,对于环境支柱,我们定义了与该主题相关的一系列关键词,包括:"生物多样性,碳,清洁技术,清洁,气候,煤炭,保护,生态系统,排放,能源,燃料,绿色,土地,自然,污染, 原材料,可再生资源,可持续性,可持续性,有毒,废物,水。”

然后,我们读取埃森哲(Accenture)的公司文件,计算他们对前6个主题及其相关情绪分数的曝光度:

关键词:amd产品; amd业务;负面影响; 物质不利影响; 自然灾害; amd不利影响; 应急处理; 曝光:0.019; 情绪:-0.48

关键词:自然灾害; 电力损失; 电信损失; 灾害强度; 电信故障; 财务状况; 未授权准入; 中断损失; 曝光:0.032; 情绪:-0.71

关键词:气候变化; 全球气候变化; 气候变化法规; 水质变化; 频繁发生; 灾害发生; 变化结果; 曝光:0.12; 情绪:-0.16

关键词:经营分部; 能源公用事业; 制造物流; 旅游接待; 零售消费;消费品制造; 产品资源; 物流能源; 曝光:0.013; 情绪:-0.12

关键词:电子产品; 能源效率; 有害物质; 电子回收; 产品配件; 法律重点; 集中能源; 电子效率; 配件回收; 曝光:0.05; 情绪:-0.04

关键词:公共卫生; 健康问题; 战乱和恐怖主义; 灾害公众; 政治事件; 工业事故; 贸易争端; 国际贸易; 曝光:0.07; 情绪:-0.55

我们测量了每个主题的情绪并将其归类为具有“好”或“坏”的意义,然后再确定每个公司对每个主题的曝光度。我们发现,埃森哲(Accenture)前六大主题相关的每种情绪都是负面的。接下来,对于每个公司,我们汇总了各个公司对于各个主题的曝光值,以便通过各个ESG支柱为每个公司创建排名。

下面我们绘制三个ESG相关支柱的结果加上综合得分,我们发现了一些非常有趣的见解。首先,在意料之中的,顶级公司中,“好”主题中曝光度较好, 在“坏”主题中曝光度较低。从社会支柱开始,我们看到我们的排名几乎没有分散,而且整体上公司持续负面评分。

信息技术 - 社会支柱

分散度相对较低, 大部分集中在负数区间

分散度相对较低, 大部分集中在负数区间

上图可能更容易首先看到负面分数,但我们看到还有一个重要的信息:这里所有十只股票都没有分散。这可能由多种原因造成,例如在申请中使用保守的语言。虽然我们在本文中不会深入研究这个问题,但是值得一提的是,这个图中的负面分数也有潜在应用。在实践中,公司的排名可能比原始分数更重要,因为系统交易管理者通常在实施之前会先将结果标准化。

在治理支柱(G柱)中,我们看到,除了最近一段时期, 大部分时期原始分数几乎没有分散,表明缺乏差异化。这可能反映了这些技术公司在描述其公司治理时具有相当标准化的语言。在这个例子中,我们仅分析比较信息技术相关公司的G柱。

信息技术 - 治理支柱

低分散排名

低分散排名

引起我们注意的是环境类别(见下图)的高度分散。环境支柱(E柱)公司的业绩对我们的持股也表现出相对稳定的情绪。这表明了在信息技术产业内,这里有机会可以区分公司(和其管理人)关注环境支柱的程度。

信息技术 - 环境支柱

高分散,公司情绪数据相对稳定

高分散,公司情绪数据相对稳定

从反映三个支柱的基本相等权重的情况下,总体而言,这个ESG组合的分数有足够的分散性,通过文本数据分析,可以建议在该产业采用主动倾斜。如果我们是ESG股票投资组合经理,我们会认为E柱的分散是我们整体相对定位的主要驱动因素。如上所述,我们在这个例子中同样权衡了支柱。在实践中,我们可能会根据每个支柱的相关性和有效性来考虑支柱的增持或者减持。

信息技术 - 总分

由E支柱分数驱动的分散, 总体分数具有合理分散性和相对稳定性

由E支柱分数驱动的分散, 总体分数具有合理分散性和相对稳定性

这是一个相对简单的案例研究,但旨在说明API的潜力。寻找数据供应商可能非常耗时,并且需要较长的整合过程,所以想要找到合适的数据和合适的人以合理的成本获得可用的ESG信息,有一定难度。我们并不是寻找数据供应商不值得, 相反,我们觉得它很有价值的,我们只是想指出,实现这些信息的实际使用可能是成功的主要障碍。SumUp可以成为ESG数据供应商的强大替代和补充,而不会产生相应的实施难题。在开发独特见解时,还有可能减少对第三方方法的依赖。我们认为,我们的Web应用程序和API融合了灵活性和透明度,使用户能够在专有洞察力的开发上获得更大程度的控制和创造力。我们的平台还可以应用于非标准领域, 例如投资级别(investment grade)或高收益信用(high yield credit),那个领域实际的ESG实施和数据较少。信用领域是寻找ESG风险的下一个合理领域。

了解更多Nucleus的文本分析平台可为您的业务做些什么。请访问我们的网站 www.sumup.ai

资料来源:

1)Douglas,Elyse 和 Van Holt,Tracy 和 Whelan,Tensie。“Data Providers and Relevant Trends.” Journal of Environmental Investing 8.1 (2017);

2)2019年彭博影响报告;

3)2018年Callan ESG调查;

4)2018年晨星可持续基金景观

5) 代码链接:https://github.com/SumUpAnalytics/nucleus-sdk/blob/develop/python/use-ca...

8 月 8 日 10:00 - 12:00

赛灵思联手 SumUp 首席专家,共同为大家带来一场别开生面的网上研讨会,大家可以报名现场领略基于 Alveo 加速卡的文本信息是如何帮助您从浩如烟海的海量文本中分析和提取关键信息的。

扫码报名即送“幸运大转盘”!!会员专享福利哦!!

最新文章