研究表明,GPT-4 在财务报表分析方面的表现优于人类
芝加哥大学布斯商学院的一项研究显示,GPT-4 在财务报表分析方面的表现可以与人类专业人员相媲美,甚至超越人类专业人员。研究人员 Alex G. Kim、Maximilian Muhn 和 Valeri V. Nikolaev 向 GPT4 提供了标准化和匿名的财务报表,并指示它确定未来收益的走向。使用模仿人类分析师所遵循的步骤的思路链 (CoT) 推理,GPT-4 被要求预测未来收益是会减少还是增加,并说明其预测的理由。LLM 模型的准确率达到了 60.35%,与公司收益发布一个月后的分析师预测相比提高了 7 个百分点。这项研究已经作为工作论文发表在社会科学研究网络 (SSRN) 上,题为“使用大型语言模型进行财务报表分析”。
研究人员指出,财务报表分析是一项艰巨的任务,尤其是对于法学硕士来说,因为它需要常识、广泛的知识和叙述背景,如行业知识和宏观经济趋势。“财务报表分析是一项广泛的任务,更多的是一门艺术而不是科学,而机器通常在狭窄的、定义明确的任务上表现出色,”研究人员表示。他们补充道,“人类更有能力将他们对更广泛背景的知识结合起来——这是机器通常无法做到的——通过考虑软信息、行业知识、监管、政治和宏观经济因素。这些因素使法学硕士在分析财务报表方面取得与人类类似的表现的可能性大大降低。”
研究人员使用的方法
研究人员使用了两种方法,一种是“简单提示”,指示法学硕士分析公司的财务报表并确定未来收益的方向,而无需对任务进行任何进一步指导。第二种是 CoT 提示,指示模型识别某些财务报表中的任何显著变化,计算关键财务比率并对结果提供经济解释。然后,使用这些基本的定量信息和由此得出的见解,要求模型预测收益在后续期间是可能增加还是减少,并提供其断言的理由。还要求模型说明变化的幅度及其对答案的信心。
实验所用的模型是GPT 的最新版gpt-4-0125-preview ,温度设置为零度。
ChatGPT中文网页版
实验使用了两年的资产负债表和三年的损益表数据,这些数据来自金融数据库 Compustat,经过筛选后,得出了 15,401 家公司的 150,678 个观测值。研究人员还对数据进行了匿名处理。
分析师预测取自机构经纪人估计系统 (IBES) 数据库,并汇编成每月一致预测,即各个预测的中位数。
预测是根据两个指标进行评估的,
- 准确率,即正确预测的案例占预测总数的百分比,以及
- F1 分数,即准确率和召回率的调和平均值。
准确率衡量的是真实阳性预测在总阳性预测中所占的比例,而召回率衡量的是真实阳性预测在所有实际阳性中所占的比例。
研究结果
研究结果显示,分析师预测未来一年盈利走势的准确率为 52.71%,F1 得分为 54.48%。简单提示的准确率为 52.33%,F1 得分为 54.52%,而 CoT 提示的准确率为 60.35%,F1 得分为 60.90%。
研究人员还将 GPT-4 与专门用于预测收入数据的人工神经网络 (ANN) 进行了比较。他们发现 GPT-4 的表现与最先进的专门神经网络相当。报告称:“它不仅表现优于人类分析师,而且其性能与最先进的专业机器学习应用程序相当。”
在讨论 GPT-4 能力的来源时,研究人员表示,“我们首先排除了模型性能源于其记忆的可能性。相反,我们的分析表明,该模型通过从趋势和财务比率分析中收集有用的见解,并利用其理论理解和经济推理来得出推论。值得注意的是,语言模型生成的叙述性财务报表分析本身具有巨大的信息价值。”他们补充说,“即使我们努力了解模型预测的来源,但从经验上很难确定模型表现良好的原因和方式。”