FinGPT——金融领域开源大模型

tsx81428 · 2024-8-10 00:28:24

背景

FinGPT 是2023年6月哥伦比亚大学联合上海纽约大学推出全新大模型产品，这是一款面向金融领域的大模型产品。
论文：https://arxiv.org/abs/2306.06031
github：https://github.com/AI4Finance-Foundation/FinGPT
论文摘要

大型语言模型（LLMs）展示了在不同领域中革新自然语言处置惩罚使命的潜力，引发了金融领域的极大爱好。获取高质量的金融数据是金融语言模型（FinLLMs）面临的主要挑战。固然像BloombergGPT如许的专有模型利用了其独特的数据积累优势，但现在需要一些开源的替换方案，以实现互联网规模的金融数据的民主化。
在本文中，我们介绍了一个针对金融行业的开源大型语言模型FinGPT。与专有模型不同，FinGPT采用了以数据为中心的方法，为研究人员和实践者提供了可访问和透明的资源来开辟他们的FinLLMs。我们强调了自动数据筛选流程和轻量级低秩顺应技术在构建FinGPT中的重要性。别的，我们展示了一些潜伏的应用，比方机器人顾问、算法生意业务和低代码开辟。通过开源AI4Finance社区的协作积极，FinGPT旨在刺激创新，民主化FinLLMs，并在开放金融中开辟新的机会。两个相关的代码库分别是：https://github.com/AI4Finance-Foundation/FinGPT，https://github.com/AI4Finance-Foundation/FinNLP。
人工智能的持续扩展和演进为大型语言模型的遍及提供了肥沃的土壤，从而在不同领域的自然语言处置惩罚中带来了一场变革性的转变。这一巨大的变革引发了人们对这些模型在金融领域潜伏应用的浓厚爱好。然而，很明显，获取高质量、最新的相关数据是开辟高效的开源金融语言模型的关键因素。
在金融领域利用语言模型面临着复杂的障碍。这些障碍包括获取数据的困难、处置惩罚多样化的数据格式和类型、处置惩罚数据质量的不同等性，以及对最新信息的根本需求。特殊是，由于不同的数据介质，如Web平台、API、PDF文档和图像，汗青或专业金融数据的提取变得复杂。
在专有领域，像BloombergGPT如许的模型利用其对专业数据的独占访问来训练针对金融领域的语言模型。然而，其数据网络和训练协议的限制性可访问性和透明性凸显了对更开放和包容性的替换方案的需求。为了满足这一需求，我们正在见证向开源领域中民主化互联网规模的金融数据的趋势转变。
在本文中，我们针对与金融数据相关的上述挑战，并介绍了一个名为FinGPT的端到端开源框架，用于构建金融领域的大型语言模型（FinLLMs）。FinGPT采用以数据为中心的方法，强调数据获取、清理和预处置惩罚在开辟开源FinLLMs中的关键作用。通过倡导数据可访问性，FinGPT旨在促进金融领域的研究、协作和创新，为开放金融实践铺平蹊径。
我们的贡献总结如下：
民主化：作为一个开源框架，FinGPT旨在民主化金融数据和FinLLMs，展现开放金融中未开辟的潜力。
以数据为中心的方法：认识到数据筛选的重要性，FinGPT采用了以数据为中心的方法，并实行了严酷的数据清理和预处置惩罚方法，以处置惩罚各种数据格式和类型，从而确保高质量的数据。
端到端框架：FinGPT采用了一个全面的框架，用于构建FinLLMs，包括四个层次：
（1）数据源层：该层确保全面的市场覆盖，并通过及时信息捕获来解决金融数据的时间敏感性。
（2）数据工程层：为及时NLP数据处置惩罚举行了优化，该层应对金融数据中的时间敏感性和低信噪比的固有挑战。
（3）LLMs层：该层专注于一系列的微调方法，减轻金融数据的高度动态性，确保模型的相关性和准确性。
（4）应用层：展示实际应用和演示，该层突出了FinGPT在金融领域的潜伏本领。
相关工作

大型语言模型（LLMs）和ChatGPT

大型语言模型（LLMs）已被公认为自然语言处置惩罚的技术突破，比方GPT-3和GPT-4 。它们采用了基于Transformer的架构，在各种生成使命中展示出令人印象深刻的性能。
作为OpenAI开辟的GPT系列的一个分支，ChatGPT旨在根据输入提示生成类似人类的文本。它在多种应用中展示了明显的实用性，从起草电子邮件到编写代码，甚至创建书面内容。
金融领域的LLMs

LLMs已被应用于金融领域的各种使命，从猜测建模到从原始金融数据中生成富有看法的叙述。最近的文献专注于使用这些模型举行金融文本分析，因为金融领域存在大量的文本数据，如新闻文章、盈利电话集会记载和社交媒体帖子。
金融LLMs的第一个例子是BloombergGPT ，它是在金融和一样寻常来源的混合数据集上举行训练的。尽管其具有令人印象深刻的本领，但存在访问限制，而且训练本钱高昂，这促使我们需要低本钱的领域自顺应。
我们的FinGPT应对这些挑战，提出了一个开源的金融LLM。它采用人类反馈的强化学习（RLHF）来明白和顺应个体偏好，为个性化的金融助手铺平了蹊径。我们的目的是将ChatGPT等通用LLMs的优势与金融自顺应相联合，充实利用LLMs在金融领域的本领。
为什么需要开源的金融LLMs？

AI4Finance基金会是一个非营利性的开源构造，致力于将人工智能（AI）和金融应用集成在一起，包括金融大型语言模型（FinLLMs）。基金会在培育金融科技工具创新生态系统方面有着精良的记载，比方FinRL 和FinRL-Meta 。该基金会致力于加速金融LLMs的进一步发展。其刚强的答应和尖端的贡献为人工智能在金融领域的变革性应用铺平了蹊径。
推动平等机会，通过民主化FinLLMs：采用开源方法促进对开始进技术的广泛访问，秉持民主化FinLLMs的理念。
培养透明度和信托：开源的FinLLMs提供了其基础代码的全面概述，加强了透明度和信托。
加速研究和创新：开源模型推动了人工智能领域的研发进展。研究人员可以利用现有模型，从而促进创新和科学发现的更快进展。
加强教导：开源的FinLLMs作为强大的教导工具，为学生和研究人员提供了通过与完全运行的模型直接互动来探索FinLLMs复杂性的机会。
促进社区发展和协作参与：开源促进了全球贡献者社区的形成。这种协作参与加强了模型的恒久耐用性和效果。
以数据为中心的方法用于FinLLMs

对于金融大型语言模型（FinLLMs），成功的策略不但仅依靠于模型架构的本领，而且同样依靠于训练数据。我们的数据中心方法优先思量网络、准备和处置惩罚高质量的数据。
金融数据和独特特性

金融数据来自各种不同的来源，具有独特的特性。我们深入探讨了不同金融数据来源的具体细节，比方金融新闻、公司陈诉、社交媒体讨论和公司公告。
金融新闻，提供了有关世界经济、特定行业和个别公司的重要信息。这种数据来源通常具有以下特点：

及时性：金融新闻报道具有及时性和最新性，通常捕获到金融世界中最近的发展动态。
动态性：金融新闻中所包含的信息是动态变革的，会随着经济条件和市场情绪的演变而迅速变革。
影响力：金融新闻对金融市场具有庞大影响力，影响着生意业务员的决策，有大概导致剧烈的市场波动。

公司陈诉和公告，是企业向监管机构提交的官方文件，提供了有关公司的财政状态和战略方向的看法。这些文件具有以下特点：

细节度：这些文件提供了关于公司财政状态的详细信息，包括资产、负债、收入和盈利本领等方面的数据。
可靠性：公司陈诉包含由监管机构稽核的可靠和经过验证的数据。
周期性：公司陈诉是周期性的，通常每季度或每年提交一次，定期提供公司财政状态的快照。
影响力：公司公告经常对市场产生庞大影响，影响股价和投资者情绪。

与金融相关的社交媒体讨论，可以反映公众对特定股票、行业或团体市场的情绪。这些讨论往往出现出以下特点：

多样性：社交媒体讨论在语调、内容和质量上差别很大，因此它们是丰富而复杂的信息源。
及时情绪：这些平台通常能够捕获到及时的市场情绪，可以检测到公众舆论的趋势和变革。
波动性：在社交媒体上表达的情绪可以非常波动，对新闻变乱或市场变动作出迅速反应。

趋势，往往可以通过像Seeking Alpha、Google Trends和其他面向金融的博客和论坛等网站观察到，它们提供了对市场动向和投资策略的关键看法。它们具有以下特点：

分析师观点：这些平台提供了来自经验丰富的金融分析师和专家的市场猜测和投资建议。
市场情绪：这些平台上的讨论可以反映出对特定证券、行业或团体市场的团体情绪，为了解当前市场情绪提供了宝贵的看法。
广泛覆盖：趋势数据涵盖了多样的证券和市场领域，提供了全面的市场覆盖。

每个数据来源都提供了对金融世界的独特看法。通过整合这些多样化的数据类型，像FinGPT如许的金融语言模型可以促进对金融市场的全面明白，并支持有效的金融决策。
应对处置惩罚金融数据的挑战

我们将处置惩罚金融数据面临的三个主要挑战总结如下：
高度的时间敏感性：金融数据具有高度的时间敏感性。市场影响力的新闻或更新一经发布，投资者仅有短暂的时间窗口来最大化他们的α值（权衡投资相对回报的指标）。
高度的动态性：金融领域不停演变，天天都有大量的新闻、社交媒体帖子和其他与市场相关的信息涌现。频繁重新训练模型以顺应这些变革是不实际且本钱高昂的。
低信噪比：金融数据通常表现出较低的信噪比，这意味着有效的信息往往被大量的无关或噪音数据所淹没。从这些海量信息中提取有代价的看法需要先进的技术手段。
解决这些挑战对于有效利用财政数据和最大限度地发挥FinLLMs的潜力至关重要。
FINGPT 概述：FINLLM 的开源框架

FinGPT代表了一个创新的开源框架，专门用于在金融领域应用大型语言模型（LLMs）。如图1所示，FinGPT由四个根本组件组成：数据源、数据工程、LLMs和应用步伐。每个组件在维护FinGPT的功能和顺应性方面发挥着关键作用，以应对动态的金融数据和市场状态。
数据源层：FinGPT流程的起点是数据源层，该层协调从各种在线来源获取广泛的金融数据。通过整合来自新闻网站、社交媒体平台、财政报表、市场趋势等数据，确保全面的市场覆盖。目的是捕获市场的每一个细微差别，从而应对金融数据固有的时间敏感性。
数据工程层：该层专注于及时处置惩罚自然语言处置惩罚（NLP）数据，以解决金融数据中的高时间敏感性和低信噪比的挑战。它采用开始进的NLP技术来过滤噪声并突出最重要的信息。
LLMs层：作为焦点层，它涵盖了各种微调方法，重点是轻量级调解，以保持模型的更新和相关性。通过保持更新的模型，FinGPT可以处置惩罚高度动态的金融数据，确保其回应与当前的金融环境保持同等。
应用步伐层：FinGPT的最后一个组件是应用步伐层，旨在展示FinGPT的实际应用性。它提供金融使命的实践教程和演示应用步伐，包括机器人顾问服务、量化生意业务和低代码开辟。这些实际演示不但为潜伏用户提供引导，还强调了LLMs在金融领域的变革潜力。
数据来源

FinGPT的第一个阶段涉及从各种在线来源网络广泛的金融数据。这些来源包括但不限于：
金融新闻：诸如路透社、CNBC、雅虎财经等网站是丰富的金融新闻和市场更新的来源。这些网站提供有关市场趋势、公司收益、宏观经济指标和其他金融变乱的宝贵信息。
社交媒体：Twitter、Facebook、Reddit、微博等平台提供了大量关于公众情绪、热门话题和对金融新闻和变乱的即时反应的信息。
陈诉文件：金融监管机构的网站，如美国证券生意业务委员会（SEC），提供公司陈诉文件的访问。这些陈诉文件包括年度陈诉、季度盈利陈诉、内幕生意业务陈诉和其他重要的公司特定信息。证券生意业务所的官方网站（如纽约证券生意业务所、纳斯达克、上海证券生意业务所等）提供了关于股票代价、生意业务量、公司上市、汗青数据和其他相关信息的重要数据。
趋势数据：网站，如Seeking Alpha、Google Trends和其他金融专注的博客和论坛，提供分析师的观点、市场猜测、特定证券或市场领域的动态以及投资建议。
学术数据集：提供经过经心策划和验证的信息，用于复杂的金融分析的基于研究的数据集。
为了利用这些多样化数据源的丰富信息，FinGPT采用了能够从结构化和非结构化数据中举行数据获取的工具，包括API、网络抓取工具和直接访问数据库（如果可用）。别的，系统设计旨在遵守这些平台的服务条款，确保数据网络是合法和合规的。
数据API：在FinGPT框架中，API不但用于初始数据网络，还用于及时数据更新，确保模型训练使用的是最新的数据。别的，实行了错误处置惩罚和速率限制策略，以尊重API的使用限制，并避免数据流中的克制。
面向金融NLP的及时数据工程流程

金融市场及时运作，对新闻和情绪高度敏感。证券代价可以因为新信息的出现而迅速变动，而处置惩罚信息的耽误大概导致错失机会或增加风险。因此，在金融NLP中，及时处置惩罚至关重要。
及时NLP流程的主要挑战在于高效管理和处置惩罚持续涌入的数据。流程的第一步是建立一个系统来及时吸收数据。这些数据可以从我们的数据源API中及时获取。下面是设计数据获取的及时NLP流程的步骤：
数据清洗：及时数据大概含有噪声和不同等性。因此，及时数据清洗包括删除不相关的数据、处置惩罚缺失值、文本归一化（如转换为小写）和错误改正。
分词：在及时应用中，需要即时举行分词。这涉及将文本流分解为更小的单元或标志。
停用词去除和词干提取/词形还原：对于及时处置惩罚，可以使用预定义的停用词列表从标志流中过滤掉这些常见词。同样，可以应用词干提取和词形还原技术将单词缩减为其词根情势。
特性提取和情感分析：特性提取涉及将原始数据转化为机器学习模型可明白的输入。在及时系统中，这通常需要是一个快速高效的过程。可以使用TF-IDF、词袋模型或嵌入向量（如Word2Vec）等技术。还可以对清洗后的数据举行情感分析，将文本片段分类为积极、悲观或中性。
提示工程：创建有效的提示，以引导语言模型生成盼望的输出。
警报/决策制定：一旦输入提示，需要将结果传达或采取相应行动。这大概涉及根据特定条件触发警报、通知及时决策过程或将输出输入到另一个系统中。
持续学习：在及时系统中，模型应该能够顺应数据的变革。可以实现持续学习系统，定期使用新数据对模型举行重新训练，或使用在线学习算法，每个新数据点都可以更新模型。
监控：及时系统需要持续监控，以确保其正常运行。流程中的任何耽误或题目都大概产生即时影响，因此重要的是建立强大的监控和警报机制。
大型语言模型（LLM）

一旦数据被正确准备好，就可以与LLM一起用于生成有洞察力的金融分析。LLM层包括：
LLM API：来自已建立的LLM的API提供根本的语言功能。
可训练模型：FinGPT提供可训练的模型，用户可以在其私有数据上举行微调，以定制金融应用。
微调方法：各种微调方法使得FinGPT能够顺应个性化的机器顾问。
为什么要对LLM举行微调而不是从头开始重新训练？
利用现有的大型语言模型（LLM）并对其举行微调，为金融领域提供了一种高效、经济实惠的替换方案，避免了昂贵且耗时的从头训练模型的本钱。
固然BloombergGPT在金融特定本领方面非常出色，但它需要大量计算资源。它的训练过程约莫使用了130万个GPU小时，根据AWS云计算的2.3美元费率计算，训练本钱惊人地高达约300万美元。与BloombergGPT等高计算本钱模型相比，FinGPT通过专注于对顶级开源LLM的轻量级调解，提供了一种更为可行的解决方案。调解的本钱大大降低，估计每次训练不到300美元。
这种方法确保了及时的更新和顺应性，这在不停变革的金融领域中至关重要。作为开源项目，FinGPT不但促进了透明度，还答应用户举行定制，迎合了个性化金融咨询服务的兴起趋势。最终，FinGPT的经济实惠、灵活的框架有潜力实现金融语言建模的民主化，并促进以用户为中心的金融服务。
通过低秩顺应（LoRA）举行微调
在FinGPT中，我们利用一份新奇的金融数据集对预训练的LLM举行微调。众所周知，高质量的标注数据对于许多成功的LLM（包括ChatGPT）至关重要。然而，获取这种顶级标注数据往往在时间和资源上代价高昂，而且通常需要金融专业人士的专业知识。
如果我们的目的是利用LLM来分析与金融相关的文本数据，并在量化生意业务中提供帮助，那么充实利用市场固有的标注本领好像是明智的选择。因此，我们使用每条新闻项的相对股价变动百分比作为输出标签。我们根据新闻项的情感将这些标签划分为三个种别——正面、负面和中性，并建立了阈值。
在相应的提示工程过程中，我们还提示模型从正面、负面和中性输出中选择一个。这种策略确保了对预训练信息的最佳利用。通过使用LLM的低秩顺应（LoRA），我们将可训练参数的数目从61.7亿淘汰到仅仅367万。
通过股票代价的强化学习（RLSP）举行微调
类似地，我们可以将股票代价的强化学习（RLSP）替换ChatGPT中的人类反馈强化学习。这种替换的原因在于，股票代价提供了一个可量化、客观的度量尺度，反映了市场对新闻和变乱的情绪。这使得股票代价成为我们训练模型的一个强大、及时的反馈机制。
强化学习（RL）答应模型通过与环境的交互和吸收反馈来学习。在RLSP的情况下，环境是股票市场，反馈以股票代价的变动情势提供。这种方法使得FinGPT能够改进其对金融文本的明白和解读，提高其猜测市场对各种金融变乱的响应本领。通过将新闻情绪与相关股票的后续表现联系起来，RLSP提供了一种有效的微调FinGPT的方式。实质上，RLSP使得模型能够推断市场对不同新闻变乱的反应，并相应地调解其明白和猜测。
因此，将RLSP集成到FinGPT的微调过程中为改进模型对金融市场的明白和猜测准确性提供了强大的工具。通过使用实际股票代价的变动作为反馈，我们直接利用市场的智慧来使我们的模型更加有效。
应用

FinGPT可以在金融服务领域广泛应用，帮助专业人士和个人做出明智的金融决策。潜伏的应用包括：
机器顾问：提供个性化的财政建议，淘汰通例面对面咨询的需求。
量化生意业务：为明智的生意业务决策提供生意业务信号。
投资组合优化：利用众多经济指标和投资者资料构建最佳投资组合。
金融情绪分析：评估不同金融平台上的情绪，提供深入的投资引导。
风险管理：通过分析各种风险因素制定有效的风险策略。
金融敲诈检测：识别潜伏的敲诈生意业务模式，提拔金融安全性。
信用评分：根据金融数据猜测信用状态，帮助贷款决策。
破产猜测：基于财政和市场数据猜测公司的潜伏破产或破产。
并购猜测：通过分析财政数据和公司概况猜测潜伏的并购运动，帮助投资者猜测市场动向。
ESG（环境、社会、治理）评分：通过分析公共陈诉和新闻文章评估公司的ESG评分。
低代码开辟：通过用户友爱的界面促进软件的创建，淘汰对传统编程的依靠。
金融教导：作为人工智能导师，简化复杂的金融概念，提高金融素养。
通过连接这些独立但相互关联的组件，FinGPT为在金融领域利用人工智能提供了一种全面和可行的解决方案，促进了金融行业中的研究、创新和实际应用。
结论

综上所述，将大型语言模型（LLMs）与金融领域举行深度融合带来了独特的复杂性和广阔的机会。在金融数据中，高时间敏感性、动态的金融环境以及低信噪比等挑战需要高效的解决方案。FinGPT通过利用现有的LLMs并对其举行细化调解以实用于特定的金融应用，以创新的方式应对这些挑战。与BloombergGPT等模型相比，这种方法明显降低了顺应本钱和计算需求，为金融语言建模提供了更加可访问、灵活和具有本钱效益的解决方案。因此，它能够持续更新以确保模型的准确性和相关性，这在动态和时间敏感的金融世界中至关重要。
将来工作

金融大型语言模型（FinLLMs）展示了将来的愿景，即个性化的机器人顾问或助手将成为每个人的选择。它旨在实现对高质量金融建议的民主化访问，利用先进的语言建模技术明白大量的金融数据，并将其转化为可操作的洞察力。以下蓝图概述了FinLLM将来的发展方向:
个性化：FinLLM战略的焦点是个性化微调的概念。通过使用LoRA和QLoRA等技术，FinLLM使用户能够根据其特定需求定制模型，从而创建个人化的机器人顾问或助手。这与金融服务领域的定制化趋势雷同等，因为消费者越来越需要与其独特的风险配置和财政目的相符的个性化建议。
开源和低本钱顺应：FinLLM倡导开源代价观，以低本钱（通常在100到300美元之间）为用户提供将大型语言模型（LLMs）顺应到其需求的工具。这不但使得先进的金融建模技术民主化，还培育了一个布满活力的开辟者和研究者社区，共同推动金融人工智能领域的发展。
获取高质量的金融数据：FinLLM不但提供建模技术，还提供高质量的金融数据。这确保用户拥有有效训练模型所需的数据，同时简化数据整理过程。别的，通过提供带演示的数据整理流程，进一步加强了用户利用其金融数据的潜力。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

FinGPT——金融领域开源大模型

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云