量化交易模型发展2：大语言模型在金融领域的应用 (FinLLMs)

随着 ChatGPT 等通用大语言模型（LLM）的爆发，金融大模型（FinLLMs）迅速成为学术界与工业界的研究热点。LLM 在金融领域的应用经历了从单纯的文本分析向更复杂的决策与推理演进的过程。

1. 第一阶段：文本与情绪分析 (Text & Sentiment Analysis)

早期的 FinLLM 应用主要集中在处理非结构化数据（如新闻报道、财报会议纪要、社交媒体推文），利用 LLM 强大的自然语言理解能力来辅助投资决策。

情绪分析 (Sentiment Analysis)：
- 能够精准识别财经新闻中的鹰派/鸽派倾向，或社交媒体上散户对某只股票的情绪（FUD/FOMO）。
- 例如：分析美联储会议纪要，判断未来加息概率，进而调整债券投资组合。
信息提取 (Information Extraction)：
- 从长篇的财报 PDF 中快速提取关键财务指标（如营收增长率、每股收益EPS）。
- 命名实体识别 (NER)：识别新闻中提到的公司、机构、人名。

发布方：Bloomberg (彭博社)

这是首个专门针对金融领域设计和训练的百亿级参数大模型（500亿参数）。它的出现标志着金融 AI 进入了“垂类大模型”时代。

训练数据 (The Bloomberg Pile)：
- 其训练语料库极具特色，由 3630亿 token 的金融专用数据（来自 Bloomberg 终端的数十年财报、新闻、公告、Web爬虫数据）和 3450亿 token 的通用公共数据（如 Wikipedia, C4）混合而成。
- 这种“混合训练”策略（Mixed-Domain Training）使得它既保留了通用语言能力，又具备深厚的金融领域知识。
优势：在金融情感分类、金融实体识别等特定任务上，BloombergGPT 的表现显著优于通用的 GPT-3.5 等模型。
局限：作为一个闭源模型，普通研究者难以直接访问和复现。这也催生了后续开源金融模型（如 FinMA, FinGPT）的发展。

最近的研究趋势表明，FinLLM 正逐渐突破“文本处理”的边界，开始尝试直接理解数值型数据并参与核心交易决策。

LLM 本质上是基于概率预测下一个 token 的文本模型，它们对数字（Numbers）很敏感，但并不擅长数学运算或逻辑推理。例如，它们通过分词（Tokenization）把数字切分成碎片，这导致直接理解股价走势（Time Series）非常困难。

研究者们正在探索如何让 LLM 理解数值型时间序列（如 OHLCV 数据：开盘价、最高价、最低价、收盘价、成交量）：

数值文本化 (Numerical Textualization)：
- 将股价数据转化为描述性文本。例如，不直接喂给模型数字列表 [100, 102, 101]，而是描述为：“该股票周一开盘100元，周二上涨至102元，周三回落...”。
多模态融合 (Multimodal Approach)：
- 将时间序列数据视为一种特殊的“模态”，结合文本信息一起输入模型。
逻辑推理交易策略 (Reasoning for Trading)：
- 利用 LLM 的 CoT (Chain of Thought, 思维链) 能力，让模型不仅给出“买/卖”建议，还要像人类分析师一样写出推理过程：“鉴于近期成交量放大且MACD出现金叉，结合美联储鸽派发言，建议看多...”。

阶段	核心任务	数据类型	典型代表
早期 (NLP)	情绪分析、摘要生成、QA问答	文本 (新闻/财报)	BloombergGPT, FinBERT
前沿 (Agent)	策略生成、多因子挖掘、数值推理	文本 +数值/时间序列	结合 CoT 的 Agent 系统

随着模型推理能力的增强，未来的 FinLLM 有望成为真正的“AI 基金经理”，不仅能读懂新闻，更能看懂盘面，自主制定和执行复杂的交易策略。