万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021

本文深度探讨了 AI 大模型在金融投资领域的机遇与挑战,以全球首个 AI 投资大赛 Trading Arena 的赛果为引子,邀请香港科技大学(广州)袁子轩老师、浙江大学方榯楷老师、资深分析师张菁老师进行圆桌对话。嘉宾们分析了通用大模型在金融赛道的表现,普遍认为 AI 在数据收集与基础分析工作上效率显著,但短期内不能替代人类的复杂决策。文章深入讨论了金融“不可能三角”在 AI 时代是否会被打破,黑天鹅事件的预测路径,以及顶级机构如何调教“数字分析师”的工作流。最后,三位嘉宾对 AI 金融的未来发展和人类分析师的终极竞争力给出了独到见解,强调了 AI 作为辅助工具而非替代者的定位。




万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021

当全市场都在用Agent炒股,人类的唯一胜算在哪?

作者丨岑峰

编辑丨马晓宁

图片万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021

一年前,金融大模型赛道还在为通用底座微调还是纯垂类自研争论不休;一年后,一场全球首个 AI 投资大赛Trading Arena的赛果让行业重构了认知:国产通用大模型通义千问、DeepSeek 击败一众美国基础模型,在实盘模拟中脱颖而出。

通用逻辑开始在极端专业的金融赛道展现统治力,我们不禁要问:AI 是否真的具备了超越人类分析师的投资直觉?在高收益、低风险、高流动性的不可能三角面前,AI 是破局者,还是加速收割的军备竞赛

近日,雷峰网 & AI 科技评论特别邀请了香港科技大学(广州)袁子轩老师、浙江大学方榯楷老师、资深分析师张菁老师,围绕“AI 大模型金融应用的机遇与挑战展开了一场深度对话。他们从投资大赛的底层逻辑出发,拆解了 Agent 智能体在金融场景的落地瓶颈,并对黑天鹅预判及人类分析师的终极核心竞争力进行了深刻反思。

提及Trading Arena,嘉宾认为,这场比赛是一次极佳的大规模科普,它证明了大模型已经可以承担 70%~80% 的数据收集与基础分析工作。

然而,比赛的胜出并不等同于对现有金融体系的超越。DeepSeek 等模型的胜出,或许并不完全靠更懂金融语料,而是靠更强的通用推理能力与稳健的投资风格胜出。这标志着行业路径的收敛——相比于堆砌金融语料,打造一个具备顶级逻辑推理能力的大脑才是金融应用的第一性原理。

此外,Agent Workflow(智能体工作流)已成为金融机构的核心攻坚点。AI 的跃迁不在于写了一篇多么漂亮的研报,而在于研究覆盖广度逻辑一致性。

然而,Agent 并非万能。三位嘉宾达成共识:金融是一个容错率极低的行业,未来的金融 Agent 不应只是调取通用接口,更需要配备专业的金融工具箱。在人类实地调研、获取离线数据的能力面前,AI 目前仍是一个需要人类驾驶员随时准备踩刹车的辅助系统。

黑天鹅预判一直是投资界的圣杯AI 是否能发现那些难以量化的非理性风险?对此,方榯楷老师提出了两条路径:一是基于自然语言的多模态感知,通过感知推特、新闻、公告等微小扰动来推演风险;更有想象力的第二条路径是构建金融世界模型(World Model,他分享了在微软参与的 Mars 项目,通过建模二级市场最底层的订单流来打造金融市场的数字孪生。在这种仿真环境下,AI 可以遍历数万种极端场景,捕捉可能引发崩盘的触发点

袁子轩老师则坚持知识图谱 + 大模型的混合路径。他认为,知识图谱是人类经验的行动纲领,大模型是执行的肌肉只有通过结构化的因果推演,才能在不确定性中找到逻辑的抓手,避免模型陷入一本正经胡说八道的幻觉陷阱。

当全市场都拥有了顶级的 AI 工具,金融市场会发生什么样的变化?对此,张菁老师给出了一个令投资者警醒的观点:AI 的普及会迅速压平信息层Alpha投资不是比谁预测得准,而是比谁能承担结构性代价。在 AI 军备竞赛中,超额收益会变得更集中、更短命且更暴利。

那么,人类的终极竞争力在哪里?张菁认为,是认知差在大规模范式转移、新叙事产生、以及缺乏历史样本的定性决策面前,人类对于不可规则化风险的直觉和认知是 AI 难以企及的。

投资中最危险的不是犯错,而是精确地犯错。AI 可能会因为逻辑趋同而制造流动性真空,而人类则需要保持清醒,在完全理性的算法丛林里寻找非共识的生存机会。

以下是此次圆桌讨论的精彩分享,AI 科技评论进行了不改原意的编辑整理:

万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021万字实录:AI 究竟是普通人的“印钞机”,还是更狠的「收割机」?| GAIR Live 021

岑峰:大家好,我是雷峰网的岑峰,欢迎来到Gair live 第 21 期,本期主题是“AI 大模型金融应用的机遇与挑战”。

在正式讨论前,我想分享一个震撼金融圈和 AI 圈的消息:上个月结束的全球首个 AI 投资大赛Trading Arena中,来自中国的通用大模型通义千问、 DeepSeek 获得前两名,而美国另外 4 个参赛的大模型,另外 4 个来自美国的基础模型均告亏损。一年前行业还在争论是通用模型加金融语料的微调更强,还是金融垂类的大模型更专业,但现在的局面似乎发生了变化。在未来,AI 大模型将会给金融投资带来怎样的跃迁,能否成为普通投资者获得更好的收益的投资工具?今天我们请到了港科广的袁子轩老师,浙大的方榯楷老师以及分析师张菁老师。首先请三位做简单的自我介绍。

袁子轩:大家好,我是袁子轩,现任香港科技大学(广州)金融科技学域助理教授。主要研究方向为金融文本挖掘、事件驱动、股票交易知识图谱构建与推理。我的实验室与券商、基金、银行及 IT 公司保持紧密的科研与项目合作。同时,我是一家初创企业的创始人,公司愿景是通过构建AI Agent,为每一位个人投资者配备一个数字人团队,其中包括数字人分析师、数字人投资顾问和数字人基金经理,为普通投资者提供具有个性化的专业财富管理服务。

方榯楷:大家好,我叫方榯楷,现任浙江大学信电学院百人计划研究员、博士生导师。研究方向包括机器学习、生成式 AI 及时间序列。加入浙大前,我曾任职于微软亚洲研究院机器学习部金融组,参与过金融基座大模型及金融 Agent 的开发。在求学期间我对量化投资非常感兴趣,曾在摩根斯坦利、世坤(Worldquant)及私募机构有实习和比赛经历,对二级市场比较熟悉。

张菁:大家晚上好,我是张菁,理工科背景。目前在投资机构从事科技行业研究和 A 股策略研究,协助投资经理进行组合管理。我的工作重点是搭建从宏观策略到细分行业的基本面研究框架,跟踪科技产业趋势并转化为可执行的投资判断。此外,我也与袁老师团队合作,提供 A 股市场基本面研究逻辑及部分细分行业的特异性跟踪框架。

图片

01


揭秘国产AI“横扫投资大赛的背后真相

岑峰:谢谢三位。我们从全球首个 AI 投资大赛谈起。我注意到袁老师团队在大赛结束后发表了一篇相关的论文,您如何看待大赛的结果?


袁子轩:大赛结果非常有意思。第一赛季以加密货币为标的,通义千问表现最佳,DeepSeek 紧随其后,再次凸显了国产大模型的能力。后续加赛标的变为美股,Grok-4.20  ChatGPT 表现较好。

我的看法有以下几点:

 DeepSeek 为例,其表现反映出头部量化公司及 IT 机构已在大范围部署大语言模型,辅助交易员或投资经理做决策。模型展现出了超常的市场敏感度和机会挖掘能力。

我认为这场比赛更多的是一种大规模的科普,这种打擂台的方式让大家意识到大模型可以直接用于投资。虽然目前投资结果不稳定性较高,但随着技术迭代,模型终能承担 70%~80% 的数据收集与分析工作,人类只需负责最终拍板。

另外,大模型在不同经济周期和市场环境下的表现并不稳定。两周的赛期太短,这种短期表现的局限性不足以证明其能力强于人类交易员。验证策略有效性通常需要经历牛熊市场的长周期,以剔除噪声、运气及市场波动等因素。

最后,普通投资者不能盲目相信大模型的投资建议。大模型目前更多起到传话筒的作用,通过联网搜索将市场观点糅合推给用户,是一个强大的信息整合工具。但涉及最终买卖决策,仍需要严谨的决策系统或经验丰富的交易员,才能生成长期稳健的策略。

岑峰:袁老师在论文中提到的方法也证明,模型正从直觉判断转向有理有据的思考。我想请问方老师,您如何看待比赛结果?此外,像清华推出的金融 K 线大模型(Chronos)等前沿工作,对这类比赛和行业应用有何促进?


方榯楷:关于这个比赛,我认为它对现实的参考意义有限,原因在于模型的输入信息极其匮乏。比赛第一季中,模型能看到的信息仅限于交易币种及过去一段的价格序列,几乎没有基本面输入。即便在第二季,也仅能看到排名或对手盘信息。这种纯粹基于价格序列的决策,更多是捕捉了加密货币市场高流动性、高 Alpha 的特性。

虽然 DeepSeek 和通义千问成绩不错,但我对其展现的强推理持保留意见。在加密货币这种波动大、机会多的市场,简单的趋势跟踪信号就能获利。DeepSeek 的胜出可能更多源于其交易风格的稳健,比如它对交易节奏和成本的把控较好;而 GPT  Claude 输在过于激进,倾向于梭哈或加高杠杆。这可能受模型训练过程中形成的人格化特征影响,而非纯粹的逻辑推理。

您提到的清华 Chronos 属于时间序列大模型,它将金融时间序列作为一种非语言模态进行预训练。虽然目前直接用于交易可能仍有争议(有用户反馈实测效果不佳),但我认为这条路径更具前景。

在金融市场,技术面因子和价格始终是最核心的数据。与其绕道语言模态去推测时间序列,不如直接在时间序列模态上构建通用底座模型(Foundation Model)。如果模型能精准预测股价涨跌,哪怕没有复杂的语言推理,简单的交易策略也能获得极佳表现。因此,在技术面交易上,我更看好非语言模态的通用模型。

岑峰:张老师,您又是如何看待这场比赛的呢?

张菁:刚才两位老师从模型和比赛解读上已经分享了很多,我从真实的投资交易的视角和底层资产的角度补充两方面看法:

从投资角度,我个人对结果持谨慎态度。在投资中,收益率高低不能直接映射为模型的智能水平,只能说明该模型生成的策略在特定时期更适配当期的市场与约束


金融交易存在三重随机性:一是大语言模型在采样输出层面的随机性;二是金融市场作为高噪声系统,价格波动存在大量的不可预测性;三是真实交易中存在滑点、风控、强平等现实约束。在这种叠加状态下,单一赛季的成绩更像是一个样本,而非模型长期能力的反映。

从资产类别的底层逻辑来看,第一赛季标的是高波动、高杠杆的加密货币永续合约。这更多是一个在规则中如何幸存的游戏,对风险纪律和仓位控制的要求远高于对方向的预测。

后续赛季标的变更为美股,无杠杆且有更多基本面信息。Grok 的胜出很大程度被归因于其背后的 X 平台在实时信息与舆情获取上的优势,这在短周期决策中非常有效。


真正的通用能力应对任务分布的变化不敏感。两场比赛结果的巨大差异,恰恰说明目前比赛测算的是模型在噪声、杠杆及约束下的风险控制与行为一致性,而非纯粹的智力水平。

岑峰:感谢张老师。您提到了两个关键点:一是随机性,这让我想起《随机漫步的傻瓜》一书,说明了金融投资的不可控性;二是风险因素与条件约束。不同策略在不同场景下的表现迥异,这正体现了金融投资的复杂性。

图片

02


“既要又要还要”,AI能打破投资的“不可能三角”吗?

岑峰:我们顺着这个话题延展:面对复杂的金融投资环境,究竟是传统金融垂类模型更有优势,还是说通用大模型在比赛中的胜出,预示着其已具备超越传统模型的能力?

袁子轩:模型能力的提升并不等同于对现有模型的超越。无论是 AI 还是人类,挖掘策略时必须搞清楚赚的是哪部分钱。投资不是简单地通过提示工程将信息整合并交给模型,利用其先验知识(Prior Knowledge)寻找链路,而是要深入研究其背后的投资逻辑(如量价因子、反转因子或价值因子)。

真实的交易离简单的信号或趋势判断很远。我们需要在风控层面上做大量工作,确保模型做出的每一个决策都是可落地的。

大模型本质是知识的压缩。不同模型(如通义千问与 DeepSeek)的训练语料截然不同,推理时可能会堆叠无关信息。在不同时间与场景下,筛选并权衡关键因素的能力与逻辑推理同等重要。

优秀的策略需经受不同周期与极端行情的考验。目前大模型在极端环境下常表现出不理性行为(如盲目梭哈),仅在与预训练环境相似的条件下表现较好。一旦市场环境发生切换,其分析与交易优势可能荡然无存。


大模型目前缺乏自我校验能力。即便使用多智能体框架(Multi-agent framework),仍会出现一本正经胡说八道的情况。目前基于一致性的校验方法(如 LLM-as-a-judge)只能说明输出内容在多次采样中保持一致,并不代表判断正确。这是大模型在金融决策领域面临的最大风险隐患。

岑峰:袁老师提到通用模型策略无法完全替代专业人士的实战经验,这似乎说明金融垂类模型在未来竞争中仍具优势。我想请教张菁老师,从金融机构的需求角度,是否能验证这一看法?

张菁:关于模型底层的技术细节我了解不多,但从机构需求角度来看,目前大家尚未完全决定走哪条路线。

以彭博(Bloomberg)为例,他们曾投入巨资从头训练垂类模型 BloombergGPT,拥有终端数据和高效解读优势,但目前行业内对其后续声量和实际效果讨论较少,说明纯垂类路径成本极高且结果具有不确定性。

从机构的核心诉求看,无论走哪条路径,机构最关注的是效率提升、覆盖面拓展和成本节省。金融是一个容错率极低的行业。大模型无法为决策负责,最终责任必须由具体的人承担。因此,我们在评估模型时,核心不在于它有多聪明,而在于其风险是否可控、结果是否可预测

岑峰:除语料因素外,美国大模型在比赛中表现不一,是否也受技术路线影响?

方榯楷:我不认为这个比赛能证明技术路线的优劣,目前大模型技术在预训练和架构上已经高度收敛。

现在的工业界 follow 论文和架构优化、强化学习 trick等新技术的速度非常快,一旦某个架构被证明有效,大家会迅速同步。正如 OpenAI 成员所言,Scaling 的时代可能已结束,现在更多进入了研究驱动的阶段。

评价模型不能只看 BenchMark 上微小的分差。我常用招聘来打比方:金融机构更喜欢理工科背景、视野开阔的复合型人才,而非只懂金融的纯专才。模型也一样,通用基础打得越好、推理能力越强,其能力的上限就越高。

垂类工作(Domain Knowledge)负责托住模型的下限。一年前大家觉得做知识库、挂 RAG(检索增强生成)就是垂类模型,但现在这已成为主流且平凡的技术方案。

真正的垂类优势不应仅体现在拥有更多数据或简单的微调,这种方式难以说服市场。真正有价值的垂类路径,是将金融领域的专业范式(如信号预测、风控逻辑、不确定性分析)内化为一套 Agent Workflow(智能体工作流)。让模型像专业人士一样,在决策前必须收集特定信息、调用时序工具或舆情工具,并完成结构化的分析。这种将行业 Know-how 结构化地融入模型执行链路的能力,才是金融应用真正有意义的方向。

岑峰:投资领域存在一个不可能三角,即高收益、低风险和高流动性难以兼得。AI 大模型是否让这个不可能三角松动,甚至打破了不可能三角?在实际工作中,各位老师如何考虑并试图破解这一难题?

袁子轩:直觉告诉我不可能三角基本不可能被打破。作为游戏参与者,想要改变游戏规则是非常困难的。

张老师和方老师都提到,金融市场存在严重的信息不对称、高度不确定性以及大量噪声,本质是多方博弈。引入 AI 玩家并不能从底层改变这种博弈的逻辑,因此不可能三角将继续存在。

从短期来看,市场参与者之间的收益是零和博弈,一个人赚钱了,另一个人必定亏钱。但如果从长期来看,收益源于 GDP 增长和价值创造,这意味着只要采取正确的投资策略,从长期来看一定是能够赚到钱的。

我认为,AI 的核心价值在于作为辅助工具,快速处理非结构化或半结构化数据,挖掘投资机会;同时,利用 AI 模拟不同场景和假设,帮助投资者判断长期增长趋势及潜在收益,而不是从根本上改变投资规则。

方榯楷:我用一个比喻来回答:相比个人,AI Agent 是一个更理性、更专业的投资者,它知识储备更广,且不会由于头脑一热做出冲动决策。

对比起机构化程度较高的美股。 A 股情绪驱动较多,经常出现类似川普获胜,川大智胜涨停这样受舆论裹挟的非理性波动。未来随着更多 AI Agent 加入,市场会变得更加理性,非理性的炒作和泡沫会相应减少。

现在大家做投资,往往关注的是二级市场里的这些一些波动或一些大的趋势,但它可能是来自于一级市场,甚至说整个经济,甚至说整个产业的那种变化。AI Agent 或许能帮人挖掘 Alpha(超额收益),但真正决定长期表现的是 Beta(市场表现)。而 Beta 往往由二级市场之外的产业、经济等宏观因素决定,对此 AI 往往爱莫能助。


不可能三角是基于数学假设的客观规律,不因投资者是否理性而改变。

我不认为该规律应该被打破:如果真的出现能完美预测一切的神级AI”,会导致严重的马太效应,财富将极度集中,就像刘慈欣在《赡养人类》中描述的终产者一样。因此,这一规律某种程度上也保护了普通人,维持了系统的平衡。

张菁:我非常认同,不可能三角无法打破,这本质上不是技术问题,而是市场结构本身的约束。不可能三角的三个顶点本质是冲突的,高流动性意味着信息被迅速消化,压缩了基于信息差的超额收益;低风险意味着拒绝承担尾部风险,而尾部风险恰恰是高收益的来源;高收益来自信息不对称或承担他人不愿承担的风险。无论是真人还是模型,本质都是在三者之间做取舍。


AI 
的优势在于单位时间内处理信息的能力,看似符合完全理性人假设,但无法改变市场结构。在收益端,AI 擅长时间套利,更快发现并执行,但这会导致超额收益的持续性变短;在风险端,AI 只能降低可建模的风险,无法消除尾部风险。甚至可能由于模型趋同,在极端行情下同时做出相似决策,制造流动性真空,从而放大系统性风险。

投资中最危险的不是犯错,而是精确地犯错模型可能会给人一种因为技术高,所以判断精确、风险低的错觉。大语言模型的核心价值不是替代投资者做判断,而是降低人类在不确定环境中的结构性认知偏差。保持对工具优势与局限性的清醒认识,才是最有意义的。

图片

03


从“复读机”到“印钞机”:顶级机构是如何调教“数字分析师”的?

岑峰:的确,不可能三角之间相互制约,同时金融数据具有稀疏性、高波动性和非结构化等特点,这是否是 AI 理解市场的关键限制?在应用中如何克服?

袁子轩:针对这三个难点,我分别谈谈我们的对策:

金融市场中有价值的信息其实非常稀缺。我们主张做减法,通过方法论获取最精准的数据喂给模型。我们会与张菁老师等优秀分析师或基金经理深度沟通,将他们的行业观点和看待市场的框架转化为知识图谱或高质量标注,让模型在推理阶段参考这些专家经验做决策。

针对高波动性的特点,市场变化极快且数据分布不断漂移,单纯基于历史数据训练的模型延展性较弱。因此,我们将大模型与传统的主观或量化模型结合,接入实时市场信息,并通过场景模拟、压力测试等手段,确保模型在波动市场下的决策鲁棒性。

最后是非结构化处理,我们利用微调后的模型将研报、公告、新闻等转化成结构化信息表。配合投研分析框架,模型可以高效识别核心观点和核心数据,并实现自主探索、分析与验证。虽然仍有人机协作(Human-in-the-loop环节,但在多数情况下模型能自主迭代,大幅提升了处理复杂数据的效率。

AI 是高效工具而非替代品。它能帮助分析师快速收集整理重要信息,显著提升工作效率与决策效率。

岑峰:袁老师提到充分利用大模型能力去自主调研、自主分析,请教张老师,这种多智能体协作方式在金融机构的落地效果如何?它能否真正进入分析师的核心工作流?

张菁:目前大模型工具在金融机构的应用,主要在纪要整理、初稿生成、数据汇总及合规检查等环节,智能体协作已在多家机构落地,且在这些初级场景中的提效稳定性优于初级人工。

但在涉及核心判断的环节,大模型尚未真正涉足。原因不在于技术能力,而在于金融决策中存在大量无法规则化的灰度判断、非公开的政策预期以及最终的责任归属问题。

与袁老师团队的合作让我看到了未来工作的两个跃迁维度:首先是广度,过去人脑由于精力有限,撰写一篇深度报告可能需要两个月;现在通过将投资框架拆解为判断规则、约束条件和因果路径,交给 Agent 扫描全市场,能极大扩展研究覆盖面;其次是逻辑的一致性,这种基于逻辑的扫描不仅能辅助研究,还能帮分析师发现被忽视的机会或纠正之前的错误观点。

目前合作产出的行业观点及点评已接近初级行研员水平。不同于通用大模型仅能做相关性分析事实陈述,袁老师团队的产品基于产业链传导的因果推演能真正理解市场逻辑并指导投资。我认为这种基于专家逻辑的深度结合,是大模型在金融领域真正实现价值的方向

图片

04


预测下一次“金融海啸”:AI能识别那些看不见的黑天鹅风险吗?

岑峰:张老师提到真实投资场景中存在许多难以量化的灰色规则。请问方老师,AI 大模型能否通过分析推理,发现金融市场中难以量化的风险,甚至预判黑天鹅事件以避免重大损失?目前的障碍在哪里?

方榯楷:这是一个非常有深度的问题。关于 AI 如何预测黑天鹅,我理解目前主流有两条技术路径:

第一条路径是基于自然语言的多模态感知推理,尽可能扩展 AI 的输入模态,不仅是专业分析师的观点,还包括舆情、产业链因果链条、图片、表格等丰富信息。期待 AI 凭借强大的感知与推理能力,从复杂信息中推断出风险。

不过,我对此路径持保留意见。黑天鹅事件之所以被称为黑天鹅,是因为其逻辑关键点往往是反主流、背离常识且属于极小概率的。大模型接收的多是主流观点,而黑天鹅往往是未定义未知的。目前的 AI 推理对于处理这种非主流逻辑、预测未知领域(Unknown)仍非常困难。

路径二是构建金融世界模型(World Model或数字孪生,借鉴机器人领域的世界模型思路,通过建模真实事件来实现仿真。

我在微软期间参与了金融基座大模型 Mars 的工作。我们收集二级市场最底层的订单信息进行建模,因为价格形成的核心是订单撮合与多空博弈。将订单逻辑学会后,模型更像是金融市场的数字孪生或模拟器。我们可以进行无风险仿真,比如研究大额拆单的市场冲击(Market Impact,或观察市场在自由演化下是否会突然崩溃。通过在平行世界中遍历各种极端操作或随机事件,寻找引发黑天鹅的触发点(Trigger


总结一下,预测黑天鹅的两条路一是通过超强的多模态推理发现端倪;二是通过构建金融世界模型进行压力测试与仿真。这两者都是目前非常前沿且酷的研究方向。


岑峰:过去我们利用知识图谱(KG)关联金融知识,现在大模型通过隐式推理直接给出结果。袁老师提到大模型已具备一定的因果理解能力,在您的研究中,这种能力达到了什么程度?

袁子轩:大模型在推理任务中表现优异,但在处理行业专家的逻辑时仍存在不稳定性,且通过精准微调来更新知识的成本极高。因此,我们将传统知识图谱与大模型结合,主要逻辑如下:

一是将知识图谱作为行动纲领知识图谱能够记录分析师的决策路径和思考链路,虽然它在表达隐性知识上有局限,但能作为结构化的分析工具辅助模型判断。

在知识图谱设定的路径上,我们部署由多个 Agent 组成的行动小组,分别负责搜索、分析、验证、回测和交易。通过多角度交叉验证,确保模型给出的答案可靠且可落地。

知识图谱不仅能提升模型效能,还是连接分析师与专家的媒介。未来,分析师的投研方法论可以转化为高价值的数字化金融资产,通过人机共创模式实现知识共享,帮助普通投资者做决策。

岑峰:在将专业知识落地的过程中,有哪些关键点和难点?

张菁:在与袁老师团队的合作中,我们主要通过持续的交互和反馈来解决落地问题:

首先是框架拆解与输入,我会将通用的股票研究框架、细分产业链逻辑以及不同市场环境下的交易关注点提供给技术团队进行初步训练。

然后是闭环测试与纠偏,我们会针对生成结果进行严谨判断,检查模型是否找到了精确数据,是否存在幻觉或自说自话的逻辑补足。

我们利用突发事件(如财报发布、供应链新闻、个股黑天鹅等)进行压力测试,观察模型对股价波动影响的评价是否符合真实市场反应,从而不断优化整个体系,确保模型真正理解行业和二级市场逻辑。

岑峰:从学术研究角度看,如何让大模型能力与金融专家经验达成完美协同,而不是简单的替代?

方榯楷:我认为未来大模型在实际场景的应用一定是 Agent化的,协同的核心体现在两个维度:

一是工作流(Workflow)的节点连接,智能体的核心竞争力在于其工作流设计。在复杂的决策链条中,某些关键节点必须引入人为的经验和价值判断,以此消除模型的不确定性,保证输出质量;

二是专业工具箱(Skill/Tools)的打造:决定 Agent 能力上限的是它的工具箱。我们不应依赖模型从头学习解决每一个具体且困难的问题,而应由专业分析师针对细分领域打造专业的工具(如舆情分析工具、产业链调研工具),并匹配好模型接口。


专业人士的未来价值不在于重复性劳动,而在于两点:一是设计专业的工作流;二是打造更强的专业工具,让大模型在特定领域内发挥出超越通用的专业水平。

岑峰:方老师提到了 Agent Workflow 的重要性。在技术层面,我们应如何为 Agent 装上安全阀,防止其在自主决策中跑偏?在决策路径中,最容易出问题的环节在哪里?

袁子轩:安全阀应贯穿事前、事中与事后:

事前主要通过上下文工程(Contextual Engineering)进行指令约束,给模型足够的示例(Demonstration)。目前大模型的指令跟随能力很强,通过规则约束能解决大部分问题。

事中则是工具箱验证与归因,引入可解释性工具、多模型验证及回测工具。关键要判断模型从研报或信息中提取的观点,对最终决策产生了多大贡献。目前落地难点有两点,一是时效性,每一步都调用大模型会导致决策过慢,错过交易时机;二是幻觉问题,同一问题可能给出多种解法,判断其有效性是长期挑战。只要 Transformer 架构不变,幻觉可能长期存在。

事后进行压力测试与回测,站在策略角度,通过长周期时间窗口或极端场景模拟,判断 AI 给出的买卖信号是否稳健、能否真正盈利。

高质量数据往往是离线的,需要实地调研、交流,这是目前机器人无法替代的。投资是一门艺术,AI 目前像个“Baby”。人机协作能提升艺术创作的效率,让模型处理初级资料搜集工作,分析师则通过决策逻辑给模型施加约束,让模型更关注投资本质。

岑峰:金融行业极其讲究准确性。对于大模型的幻觉问题,学术界目前有哪些思路,让 AI 在提供客观、周全参考的同时避免胡说八道

方榯楷:彻底解决幻觉是诺贝尔奖级的难题,但我们可以从以下几个方向改善:

·RAG(检索增强生成):通过外部加载信息(如知识图谱)进行事实核查(Fact-checked),让模型在输出前查证事实。

·外部验证环境:当模型提出观点或引用数据时,应由外部环境(人或系统)进行验证。

·沙盒测试(Sandbox):针对高价值、高影响力的决策,应建立独立于大模型之外的验证器。例如,下单决策前需经过自动化的回测环境,测试其潜在的风险和夏普比率,或由专家进行评估。这种外挂的风险评估环节和不确定性验证器是必不可少的。

图片

05


AI金融之辩:当全市场都是“算法”,普通人怎么办?

岑峰:投资最终是为了寻找 Alpha(超额收益)。正如张老师所言,AI 工具的应用虽然能帮助发现机会,但也让 Alpha 消失得更快。在这种“AI 军备竞赛中,专业分析师的工作方式受到了怎样的影响?人类分析师的终极核心竞争力又该如何体现?

张菁:确实,当所有人都使用 AI 时,Alpha 会变得更短命、更集中且更暴利,收益分布也会变得极端,尾部风险增大例如 2024 年初的微盘股闪崩。

投资的本质不是预测,而是承担结构性代价。Alpha 不是市场的奖励,而是你替市场承担了他人无法或不愿承担的风险。AI 的优势在于它会迅速压平信息层 Alpha,它比人类更擅长捕捉由流动性错配、行为偏差带来的交易机会;而人类不可替代的优势在于认知差,在范式识别、定性决策、和逻辑深度上是AI难以替代的。

·范式识别:在新叙事产生或范式转变时进行识别与应对的能力。

·定性决策:在缺乏历史样本的情况下,进行定性决策的能力。

·逻辑深度:当工具和数据拉平了技术门槛,变量就只剩下逻辑与认知。顶尖投资者赚的是认知差的钱。

AI 不是在取代分析师,而是在重塑核心能力。理想状态下,应将可规则化的认知劳动交给 AI,人类专注于不可规则化的判断,从而获取难以消磨的超额收益。

岑峰:AI 工具在拉平水平的同时,我们也观察到散户在面对量化机构时似乎更加弱势。您如何看待量化工具对市场生态及普通投资者的影响?

张菁:这是一个复杂的问题。量化在交易层面(如拆单、多账户配合引导走向)具有人类无法抗衡的优势,尤其在微盘股等低流动性资产中已形成类似的资金盘


我的建议是:不要参与到量化的游戏中去。散户应利用自己的优势进行真正的投资,去研究商业模式、思考公司的长远发展。如果只是将其作为赌博,那就只能愿赌服输

岑峰:有观众提问:金融本质是资源的分配。更多使用 AI 进行决策,是否意味着人类最终会将资源的分配权交给 AI

袁子轩:我认为应从两个层面来看:金融不仅仅是分蛋糕,长期投资于有价值的公司是在创造价值、做大蛋糕;其次,AI 始终是高级工具。如果人类保留最终的拍板权AI 就不会主导人类的命运。人类的优势在于创造力、价值发现及非共识的观点,这些比 AI 挖掘出的信息总结更重要。

方榯楷:我也认为 AI 是让分配过程变得更理性、更高效的手段。一个健康的金融体系应将资源分配给有价值的行业。AI 的加入能提供更多的有效性与流动性,减少市场中的噪音与不理性,这是好事。

至于是否让 AI 做出重大战略决策,如果只是脑洞一下是可以的,但从更深层次看这是关乎公平、效率与多样性的哲学话题,目前的问题不是市场由于 AI 而变得过度理性,而是存在太多的噪音与非理性。引入更多高效、理性的工具,对当前市场是有益的。

岑峰:回到开头提到的 Trading Arena 比赛,如果明年继续举办,从机构投资的角度出发,您认为应在哪些维度增加更有挑战性的考核指标?

张菁:如果比赛的目标是贴近真实的机构投资场景,就不应只关注收益率,否则训练出的是赌徒而非投资者。我建议从以下三个维度增加挑战:

首先,强化风险维度的考核,考察最大回撤、杠杆暴露、仓位分布以及交易行为的一致性,避免模型通过梭哈博取排名。同时,需考虑真实交易中的资金容量和冲击成本问题;

其次,模拟完整经济周期,在比赛中引入人为的宏观干预或风格切换,考核模型识别环境变化并调整策略的能力。这种跨周期生存能力对投资至关重要;

最后也是最重要的,强制模型在交易前给出逻辑说明,避免黑盒式撞大运。基于幻觉数据或逻辑错误而赚到的钱应判定为无效。对于机构投资者,一个可解释的亏损莫名其妙的盈利更有价值,因为前者能帮助优化框架,而后者可能在下一次黑天鹅事件中带来毁灭性打击。

实际投资并非面对清洗好的数据。应在输入中混入市场谣言或假新闻,考核 AI 听风就是雨,还是能自主调用工具进行交叉验证。真实世界充满噪音,AI 需要具备批判性思维。

岑峰:节目的最后,请三位嘉宾用一句话总结 AI 大模型在金融领域应用的机遇与挑战。

袁子轩:AI 大模型显著提升了金融决策效率和信息处理能力,但真正的挑战在于:如何在市场不确定性、可解释性与风险约束之间,找到人机协同的最优边界。

方榯楷:最大的机遇是人类拥有了功能强大的外置大脑和跨模态信息处理器;最大的挑战是黑箱变得更大,且当市场充满智能体时,会产生趋同效应等不可描述、尚未被定义的未知风险

张菁:大模型工具的本质不是造神,而是帮助人类拓展理性的边界,解决有限理性的痛点;但在极端不可预测事件主导的投资世界中,人类必须始终担任那个最后踩刹车的驾驶员。

岑峰:感谢三位老师的精彩分享。大模型与金融的结合既有令人兴奋的效率跃迁,也伴随着对风险和逻辑深处的审慎考量。本期圆桌实录后续将在“AI 科技评论公众号发布,谢谢大家,再见。

完整视频观看地址:https://youtu.be/SSpF16S2uus


AI 前线

认知重建:Speckit 用了三个月,我放弃了——走出工具很强但用不好的困境

2026-1-10 18:37:27

AI 前线

发现了 4 个挺实用的 GitHub 开源项目,推荐给你。

2026-1-10 18:37:48

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索