从第一性原理出发:从 AI 底层逻辑到 AI Trading

file

一、大模型的底层逻辑

在讨论 AI 交易之前,有必要把大模型的计算本质讲清楚。
很多人把 LLM 当黑箱,觉得它"理解"了语言,能"思考"问题。实际上拆开来看,就是一套向量运算。

【核心思想:用向量表示一切】

人类用词汇和语法表达意义。机器不认识词汇,只认识数字。
大模型的第一步,是把离散的 token(可以理解为词或子词)映射到连续的向量空间。每个 token 对应一个高维向量,通常是 4096 维甚至更高。

"今天" → [0.12, -0.45, 0.78, 0.23, ...](4096 个数字)
"天气" → [0.34, -0.12, 0.56, 0.89, ...](4096 个数字)

这个映射是通过 embedding 表学习得到的。训练过程中,语义相近的词会被映射到向量空间中相近的位置。"国王"和"女王"的向量距离近,"国王"和"苹果"的向量距离远。

这不是人工设定的规则,是模型从海量文本中自己学出来的。

【核心计算:向量相似度】

有了向量表示,下一个问题是:怎么让模型知道词与词之间的关系?
Transformer 的答案是 Self-Attention 机制。
对于序列中的每个位置,模型会问一个问题:我应该关注序列中的哪些其他位置?
具体计算:

Q = X · W_q (Query:我在找什么)
K = X · W_k (Key:我能提供什么)
V = X · W_v (Value:我的实际内容)
Attention(Q, K, V) = softmax(Q · Kᵀ / √d) · V

Q · Kᵀ 是点积运算。两个向量越相似(指向相近的方向),点积越大。这就是在计算:当前位置的 Query 和其他位置的 Key 有多匹配。
softmax 把这些匹配分数归一化成概率分布。然后用这个分布对 Value 做加权求和。
结果是:每个位置都聚合了序列中与它相关的信息,相关性由向量相似度决定。

【堆叠与非线性】

单层 attention 表达能力有限。Transformer 把多层 attention 堆叠起来,每层之后接一个前馈网络(FFN): FFN(x) = activation(x · W_1) · W_2 activation 是非线性函数(ReLU、GELU、SwiGLU 等)。没有非线性,多层线性变换等价于单层,模型就没有深度可言。 DeepSeek、Qwen 等模型用了 MoE(Mixture of Experts)架构:不是所有参数都参与每次计算,而是动态路由到部分专家网络。这是效率优化,不改变计算本质。 【输出:概率分布】 经过 N 层处理后,最后一层的向量再乘以词表矩阵,得到每个可能 token 的分数,softmax 归一化成概率分布。 采样或取最大概率,得到输出 token。然后把这个 token 加入输入序列,重复上述过程。这就是自回归生成。 【各家模型的差异】 DeepSeek:MoE 架构,Multi-head Latent Attention 压缩 KV cache,降低推理成本 Qwen:dense + MoE 双产品线,SwiGLU 激活函数 Claude:架构未公开,推测是优化过的 dense Transformer Gemini:多模态原生设计,图像、音频、文本共享 attention GPT-4:传闻 MoE,8 个专家每个 220B 参数 架构细节各异,但底层逻辑相同: 1. 把输入映射到向量空间 2. 通过点积计算向量间的相似度 3. 用相似度加权聚合信息 4. 堆叠多层 + 非线性变换 5. 输出概率分布 没有"理解",没有"思考",就是高维空间里的几何运算。 这套逻辑能不能迁移到金融市场?下面展开。 二、大模型在"预测"还是在"识别模式"? 理解了上面的计算流程,一个关键问题浮出水面: 大模型到底在做什么? 表面上看,它在"预测下一个词"。给定"今天天气",它输出"不错"的概率最高。这看起来像预测。 但拆开计算过程,它实际在做的是: 1. 把当前上下文编码成向量 2. 在参数空间中检索与这个向量最匹配的模式 3. 输出这个模式对应的概率分布 它不是在"预测未来会发生什么",而是在"识别当前输入最像训练数据中的哪种模式"。 区别在哪? 预测是对未知事件的推断。识别是对已知模式的匹配。 大模型之所以有效,是因为自然语言有强统计规律。"我昨天去了"后面大概率是地点,"如果...那么..."后面大概率是结果。这些模式在训练数据中反复出现,模型学会了识别它们。 当你问 ChatGPT 一个问题,它不是在"思考答案",而是在"找到与你的问题最匹配的模式,然后输出这个模式通常对应的回答"。 输出看起来像预测,底层是模式识别。 【迁移到金融市场】 把同样的逻辑用到金融市场,一个自然的想法是: 把市场数据编码成向量,检索历史上最相似的模式,输出后续走势的概率分布。 听起来可行。但这里有一个根本性的问题: 金融市场的"下一步走势"和自然语言的"下一个词",统计特性完全不同。 【语言 vs 市场:统计规律的强度差异】 自然语言的统计规律极强。 给定足够的上下文,下一个词的熵(不确定性)很低。"中华人民共和"后面几乎一定是"国"。模型可以用很高的置信度输出。 金融市场的短期走势接近随机游走。 给定任何技术指标、基本面数据、链上数据,下一根 K 线涨还是跌的概率接近 50:50。信号被噪声淹没。 Pratas et al. (2023) 测试 LSTM 在 BTC 波动率预测上的表现:模型能产出更平滑的曲线,但对 large spikes 没有捕捉能力。模型学到的是"均值回归"这个弱模式,对真正重要的极端事件无能为力。 【非平稳性】 语言的统计规律相对稳定。"苹果"的语义一百年没怎么变。 市场结构持续演化。2021 年有效的规律 2024 年可能失效。监管环境、参与者结构、流动性分布都在变。你在历史数据上学到的模式,面对的是一个不断变化的分布。 【对抗性】 语言生成没有对手盘。你预测下一个词是"吃",没人会故意让它变成"飞"。 金融市场是零和博弈。任何被识别出的有效模式,都会因为资金涌入而被套利掉。市场在对抗所有试图利用模式的人。 【结论】 大模型的能力是模式识别,不是预测。 在语言领域,模式识别的输出看起来像预测,因为语言模式足够稳定、足够强。 在金融市场,试图用同样的方法"预测涨跌"会失败,因为短期价格方向的模式太弱、太不稳定、太容易被对抗。 但这不意味着模式识别在金融领域没有价值。问题在于:应该识别什么模式? 三、换一个问题:Regime 识别 预测涨跌信噪比太低,但有一个相关问题信噪比高得多: 当前市场处于什么状态? 市场不是均质的,在不同 regime 之间切换: • 低波动震荡:窄幅区间,方向不明 • 高波动震荡:剧烈波动但无趋势 • 单边上涨:持续走高,回调浅 • 单边下跌:持续走低,反弹弱 • 流动性危机:急跌伴随大规模清算 Regime 有持续性。趋势行情可能持续数天甚至数周,震荡市也是。时间尺度上的 autocorrelation 比单根 K 线涨跌显著得多。 Hamilton (1989) 的 regime-switching 模型开创了这个方向。Wang et al. (2020) 用 HMM 识别美股牛熊状态,在 2008 金融危机和 2020 COVID 崩盘期间有效规避大幅回撤。 他们的 alpha 来源不是预测涨跌,而是在高风险 regime 降低敞口。 四、技术路径:Market State Embedding 把 LLM 框架迁移过来: LLM:token → 向量 → 相似度计算 → 输出分布 这里:市场状态 → 向量 → 相似度计算 → Regime 分类 【Encoder】 目标:高维异构特征压缩成低维稠密向量。约束:regime 相似的时刻向量距离近,regime 不同的时刻向量距离远。 参考 TS2Vec (Yue et al., AAAI 2022),时序表示学习 SOTA,UCR/UEA 150+ 数据集上表现优异。 核心:hierarchical contrastive learning,多时间尺度对比损失,同时学 timestamp-level 和 instance-level 表示。 【训练】 对比学习定义正负样本: 正样本:两个时刻后续走势相似 负样本:两个时刻后续走势不同 也可参考 SoftCLT (ICLR 2024),连续相似度替代硬标签。 【输出】 聚类法:历史 embedding 做 KMeans/GMM,得到 K 个 cluster,人工解读 regime 含义 检索法:当前 embedding 检索历史 Top-K 相似时刻,统计 regime 分布 检索法可解释性更强,能输出具体历史类比。 五、对比传统方法 【vs HMM】 HMM 假设观测值服从特定分布(通常 Gaussian),状态数预先指定。 神经网络不做分布假设,能处理高维输入,能发现数据中自然存在的 regime 结构。 【vs 技术指标】 ADX、RSI、布林带各自只捕捉一个维度,难以建模多因子交互,阈值人工设定。 端到端学习自动发现特征组合,阈值数据驱动。 六、应用场景 识别 regime 的价值在于策略选择和风险控制。 【策略匹配】 低波动震荡 → 网格 趋势行情 → 趋势跟踪 高波动震荡 → 降仓位 流动性危机 → 空仓 【风险管理】 Wang et al. 研究表明,regime-switching 策略的超额收益主要来自在 adverse regime 降低敞口。 规则:识别到高风险 regime,仓位砍半或清仓。不追求抓每一波,但要避开系统性风险。
七、NoFx:AI Trading 基础设施层 上面讲的是方法论。落地需要基础设施。 NoFx 不是"让 LLM 预测涨跌"的产品。定位是 AI Trading 的基础设施层。 【数据层】 加密货币市场数据极度碎片化。CEX API 格式各异,链上数据需要自己解析,衍生品数据分散在不同源头。 NoFx 做的第一件事:异构数据归一化,统一访问接口。 价格数据: • 多周期 K 线 OHLCV:1m / 3m / 5m / 15m / 30m / 1h / 2h / 4h / 6h / 8h / 12h / 1d / 3d / 1w / 1M • Tick 级逐笔成交 • 加权平均价(VWAP) • 价格变动百分比:1m / 5m / 15m / 30m / 1h / 4h / 24h 成交量数据: • 原始成交量及其 MA • CVD(Cumulative Volume Delta):累计主动买入量 - 累计主动卖出量 • CVD 多周期:5m / 15m / 1h / 4h / 24h • Taker Buy/Sell Volume • 成交量异常检测(相对 MA 的倍数) • 量价背离指标 持仓数据: • Open Interest 绝对值 • OI 变化量:1h / 4h / 24h • OI 变化率:1h / 4h / 24h • OI 加权价格 • 多空持仓人数比 • 大户持仓量占比 • 杠杆分布统计 资金费率: • 当前 Funding Rate • 预测 Funding Rate • Funding Rate 历史序列 • 累计 Funding(24h / 7d / 30d) 清算数据: • 多头爆仓量(USD) • 空头爆仓量(USD) • 爆仓多空比 • 大额清算事件(单笔 > 100K) • 清算热力图(价格区间分布) • 累计清算:1h / 4h / 24h 资金流向: • 机构净流入(期货) • 机构净流入(现货) • 散户净流入(期货) • 散户净流入(现货) • 大单买入/卖出(阈值可配置) • 交易所净流入/流出 • 鲸鱼地址异动 订单簿数据: • 买一/卖一价格及挂单量 • 盘口价差(Spread) • 深度快照:±0.1% / ±0.5% / ±1% / ±2% • 买卖挂单不平衡度 • 大额挂单检测 • 订单簿斜率 技术指标: • EMA:7 / 13 / 21 / 55 / 100 / 200 • SMA:20 / 50 / 100 / 200 • MACD:标准参数 + 自定义参数 • RSI:6 / 14 / 21 • Bollinger Bands:20 周期 2 倍标准差 • ATR:14 周期 • ADX / DMI • Stochastic RSI • OBV(On Balance Volume) • Ichimoku Cloud 波动率: • 已实现波动率:1h / 4h / 24h / 7d • ATR 百分比 • 布林带宽度 • 价格振幅(High - Low) 数据更新站点,API 已开放:https://nofxos.ai/api-docs 调用示例: GET /api/quant-data?symbol=BTCUSDT 返回: { "netflow": { "institution": {"future": 1200000, "spot": -500000}, "personal": {"future": -800000, "spot": 200000} }, "oi": { "current": 450000000, "delta": {"1h": 1.2, "4h": 3.5, "24h": -2.1} }, "price_change": {"1h": 0.8, "4h": 2.1, "24h": -1.5}, "cvd": {"5m": 150000, "1h": 890000, "4h": -2100000}, "funding_rate": 0.0001, "liquidation": {"long": 1500000, "short": 800000} } 【执行层】 交易所 API 差异不只在数据端。限价单、市价单、止损单的参数格式,仓位精度,杠杆配置,各家不同。 NoFx 抽象统一执行接口,当前支持任意交易所市场: 策略层不需要关心底层交易所。 【决策层】 数据层和执行层之上,提供 AI 决策框架: 市场数据 → 特征工程 → AI 推理 → 风控过滤 → 执行 支持的推理引擎:DeepSeek、Claude、GPT、Gemini、Qwen。 AI 在这里不是预测涨跌,而是做结构化决策: • 多维度市场状态分析 • 候选标的筛选排序 • 仓位管理和风险评估 • 入场/出场条件判断 输出是结构化 JSON:决策、置信度、推理链(Chain of Thought)。每次决策的完整 context 全部记录。 【Regime 集成】 Regime 识别作为决策框架的模块: 市场数据 → Regime 识别 → 策略路由 → AI 决策 → 风控 → 执行 AI 做具体决策时收到当前 regime 判断作为 context。不同 regime 下,决策激进程度、仓位上限、止损宽度自动调整。 【为什么做】 AI Trading 的瓶颈不在模型,在工程。 一个能跑的系统需要:稳定数据流、低延迟执行、完善风控、可追溯日志、灵活策略配置。基础设施不存在,模型再强也没用。 市面上的 AI 交易产品大多是黑箱。用户不知道 AI 在想什么,不知道为什么开仓,不知道风控逻辑。出问题无从排查。 NoFx 的设计原则:透明、可控。 • 完整 Chain of Thought 日志 • 可配置风控(止损、仓位上限、杠杆限制) • 开源,用户可自己部署 • Web UI 调参,不需要改代码 【AI Trading Layer】 长期目标:AI Trading 的标准化层。 三个支柱: 第一,传统量化的工程积累。订单管理、风控引擎、回测框架、执行算法——几十年量化交易沉淀的东西。没有这些,AI 是空中楼阁。 第二,前沿 AI 的推理能力。LLM 在结构化分析、多因子综合判断、自然语言交互上的表现,传统规则引擎做不到。但 AI 需要被正确约束和引导,不能让它自由发挥去"预测市场"。 第三,严格的数学框架。Regime 识别、向量相似度、对比学习——可验证、可解释的方法。拒绝"AI 说买就买"的玄学。 【平权化】 技术只是手段。NoFx 的终极目标:AI + 量化的平权化。 现状:量化交易门槛极高。要懂编程、懂金融、懂数据工程、懂风控,还要有资金接入机构级数据和执行通道。散户被排斥在外。 NoFx 提供可视化的 AI 交易编排系统: • 不用写代码。策略逻辑、风控规则、AI 参数,Web UI 配置 • 不用懂量化。预置策略模板覆盖常见场景,调参数就行 • 不用自建基础设施。数据、执行、风控、日志,平台提供 • 完全透明。每次 AI 决策的输入、推理、输出,全部可查 一个从没接触过量化的人,应该能在 5分钟内配置好自己的 AI 策略,并理解它在做什么。 这不是降低专业性。是把专业能力封装成普通人能用的工具。 Excel 让每个人能做数据分析,不需要学 SQL。Figma 让每个人能做设计,不需要学 Photoshop。 NoFx 让每个人能编排 AI 交易策略,不需要成为量化工程师。 开源是必然选择。基础设施层必须可信、可审计。 八、局限性 过拟合:模型可能只是记住历史 pattern,泛化能力存疑。需要 out-of-sample 验证和滚动回测。 Regime 漂移:市场结构演化,历史 regime 特征可能不再适用。需要持续监控和定期重训练。 识别延迟:regime 切换识别必然滞后。敏感度和误报率之间取舍。 这不是预测圣杯。价值在于结构化的市场状态描述,辅助策略选择和风控。 九、关于我 做这件事的出发点是第一性原理。 不是看到"AI 交易"这个词就往上靠,而是先问:AI 的计算本质是什么?这个本质能迁移到金融场景吗?迁移过来应该解决什么问题? 答案是:向量相似度计算可以迁移,但目标不应该是预测涨跌,而是 regime 识别。 另一个出发点是用户导向。 技术再厉害,如果只有专业量化团队能用,意义有限。我希望做出来的东西,是一个完全不懂代码的交易者也能上手的产品。 专业性和易用性不矛盾。专业性体现在底层架构和方法论,易用性体现在产品交互。把复杂的东西做简单,比把简单的东西做复杂难得多。 用户的反馈验证了这个方向: • GitHub 两个月 9500+ stars • 一个半月内为 Binance 带来 1800+ 纯新增 KYC 首次交易用户 • 实际使用用户超过 9 万人 • 交易量持续增长 这些数字说明市场确实存在这个需求:普通交易者想要专业级的 AI 交易能力,但不想花几个月学量化编程。 NoFx 在做的事情,是把机构级的数据、执行、风控能力,封装成任何人都能用的产品。技术服务大众,不是技术服务少数人。 开源也是用户导向的选择。用户要能看到代码在做什么,要能自己部署,要能根据需求修改。黑箱产品在金融领域没有信任基础。 后续 Regime 识别模块验证有效后,同样会开源集成。 NoFx 官网:https://nofxai.com Github: https://github.com/NoFxAiOS/nofx
—————————— 参考文献 时序表示学习: [1] Yue, Z., et al. (2022). TS2Vec: Towards Universal Representation of Time Series. AAAI 2022. [2] Soft Contrastive Learning for Time Series. ICLR 2024. [3] Niroshan, G., et al. (2025). TS2Vec-Ensemble. arXiv. Regime Detection: [4] Wang, M., Lin, Y.H., & Mikhelson, I. (2020). Regime-Switching Factor Investing with Hidden Markov Models. Journal of Risk and Financial Management. [5] Hamilton, J.D. (1989). A New Approach to the Economic Analysis of Nonstationary Time Series and the Business Cycle. Econometrica. [6] Yuan, Y., & Mitra, G. (2019). Market Regime Identification Using Hidden Markov Models. SSRN. 加密货币预测: [7] Pratas, T.E., et al. (2023). Forecasting Bitcoin Volatility: Exploring the Potential of Deep Learning. Eurasian Economic Review. [8] Omole, O., & Enke, D. (2024). Deep Learning for Bitcoin Price Direction Prediction. Financial Innovation. [9] Huang, Z.C., et al. (2024). Forecasting Bitcoin Volatility Using Machine Learning Techniques. Journal of International Financial Markets. —————————— @Web3Tinkle


相关文章:
X | 从第一性原理出发:从AI 底层逻辑到AI Trading

为者常成,行者常至