从第一性原理出发：从 AI 底层逻辑到 AI Trading

2026-01-06 15:11:33 ⋅ 212 ⋅ 0 ⋅ 0

file

一、大模型的底层逻辑

在讨论 AI 交易之前，有必要把大模型的计算本质讲清楚。
很多人把 LLM 当黑箱，觉得它"理解"了语言，能"思考"问题。实际上拆开来看，就是一套向量运算。

【核心思想：用向量表示一切】

人类用词汇和语法表达意义。机器不认识词汇，只认识数字。
大模型的第一步，是把离散的 token（可以理解为词或子词）映射到连续的向量空间。每个 token 对应一个高维向量，通常是 4096 维甚至更高。

"今天" → [0.12, -0.45, 0.78, 0.23, ...]（4096 个数字）
"天气" → [0.34, -0.12, 0.56, 0.89, ...]（4096 个数字）

这个映射是通过 embedding 表学习得到的。训练过程中，语义相近的词会被映射到向量空间中相近的位置。"国王"和"女王"的向量距离近，"国王"和"苹果"的向量距离远。

这不是人工设定的规则，是模型从海量文本中自己学出来的。

【核心计算：向量相似度】

有了向量表示，下一个问题是：怎么让模型知道词与词之间的关系？
Transformer 的答案是 Self-Attention 机制。
对于序列中的每个位置，模型会问一个问题：我应该关注序列中的哪些其他位置？
具体计算：

Q = X · W_q （Query：我在找什么）
K = X · W_k （Key：我能提供什么）
V = X · W_v （Value：我的实际内容）
Attention(Q, K, V) = softmax(Q · Kᵀ / √d) · V

Q · Kᵀ 是点积运算。两个向量越相似（指向相近的方向），点积越大。这就是在计算：当前位置的 Query 和其他位置的 Key 有多匹配。
softmax 把这些匹配分数归一化成概率分布。然后用这个分布对 Value 做加权求和。
结果是：每个位置都聚合了序列中与它相关的信息，相关性由向量相似度决定。

【堆叠与非线性】

单层 attention 表达能力有限。Transformer 把多层 attention 堆叠起来，每层之后接一个前馈网络（FFN）： FFN(x) = activation(x · W_1) · W_2 activation 是非线性函数（ReLU、GELU、SwiGLU 等）。没有非线性，多层线性变换等价于单层，模型就没有深度可言。 DeepSeek、Qwen 等模型用了 MoE（Mixture of Experts）架构：不是所有参数都参与每次计算，而是动态路由到部分专家网络。这是效率优化，不改变计算本质。【输出：概率分布】经过 N 层处理后，最后一层的向量再乘以词表矩阵，得到每个可能 token 的分数，softmax 归一化成概率分布。采样或取最大概率，得到输出 token。然后把这个 token 加入输入序列，重复上述过程。这就是自回归生成。【各家模型的差异】 DeepSeek：MoE 架构，Multi-head Latent Attention 压缩 KV cache，降低推理成本 Qwen：dense + MoE 双产品线，SwiGLU 激活函数 Claude：架构未公开，推测是优化过的 dense Transformer Gemini：多模态原生设计，图像、音频、文本共享 attention GPT-4：传闻 MoE，8 个专家每个 220B 参数架构细节各异，但底层逻辑相同： 1. 把输入映射到向量空间 2. 通过点积计算向量间的相似度 3. 用相似度加权聚合信息 4. 堆叠多层 + 非线性变换 5. 输出概率分布没有"理解"，没有"思考"，就是高维空间里的几何运算。这套逻辑能不能迁移到金融市场？下面展开。二、大模型在"预测"还是在"识别模式"？理解了上面的计算流程，一个关键问题浮出水面：大模型到底在做什么？表面上看，它在"预测下一个词"。给定"今天天气"，它输出"不错"的概率最高。这看起来像预测。但拆开计算过程，它实际在做的是： 1. 把当前上下文编码成向量 2. 在参数空间中检索与这个向量最匹配的模式 3. 输出这个模式对应的概率分布它不是在"预测未来会发生什么"，而是在"识别当前输入最像训练数据中的哪种模式"。区别在哪？预测是对未知事件的推断。识别是对已知模式的匹配。大模型之所以有效，是因为自然语言有强统计规律。"我昨天去了"后面大概率是地点，"如果...那么..."后面大概率是结果。这些模式在训练数据中反复出现，模型学会了识别它们。当你问 ChatGPT 一个问题，它不是在"思考答案"，而是在"找到与你的问题最匹配的模式，然后输出这个模式通常对应的回答"。输出看起来像预测，底层是模式识别。【迁移到金融市场】把同样的逻辑用到金融市场，一个自然的想法是：把市场数据编码成向量，检索历史上最相似的模式，输出后续走势的概率分布。听起来可行。但这里有一个根本性的问题：金融市场的"下一步走势"和自然语言的"下一个词"，统计特性完全不同。【语言 vs 市场：统计规律的强度差异】自然语言的统计规律极强。给定足够的上下文，下一个词的熵（不确定性）很低。"中华人民共和"后面几乎一定是"国"。模型可以用很高的置信度输出。金融市场的短期走势接近随机游走。给定任何技术指标、基本面数据、链上数据，下一根 K 线涨还是跌的概率接近 50:50。信号被噪声淹没。 Pratas et al. (2023) 测试 LSTM 在 BTC 波动率预测上的表现：模型能产出更平滑的曲线，但对 large spikes 没有捕捉能力。模型学到的是"均值回归"这个弱模式，对真正重要的极端事件无能为力。【非平稳性】语言的统计规律相对稳定。"苹果"的语义一百年没怎么变。市场结构持续演化。2021 年有效的规律 2024 年可能失效。监管环境、参与者结构、流动性分布都在变。你在历史数据上学到的模式，面对的是一个不断变化的分布。【对抗性】语言生成没有对手盘。你预测下一个词是"吃"，没人会故意让它变成"飞"。金融市场是零和博弈。任何被识别出的有效模式，都会因为资金涌入而被套利掉。市场在对抗所有试图利用模式的人。【结论】大模型的能力是模式识别，不是预测。在语言领域，模式识别的输出看起来像预测，因为语言模式足够稳定、足够强。在金融市场，试图用同样的方法"预测涨跌"会失败，因为短期价格方向的模式太弱、太不稳定、太容易被对抗。但这不意味着模式识别在金融领域没有价值。问题在于：应该识别什么模式？三、换一个问题：Regime 识别预测涨跌信噪比太低，但有一个相关问题信噪比高得多：当前市场处于什么状态？市场不是均质的，在不同 regime 之间切换： • 低波动震荡：窄幅区间，方向不明 • 高波动震荡：剧烈波动但无趋势 • 单边上涨：持续走高，回调浅 • 单边下跌：持续走低，反弹弱 • 流动性危机：急跌伴随大规模清算 Regime 有持续性。趋势行情可能持续数天甚至数周，震荡市也是。时间尺度上的 autocorrelation 比单根 K 线涨跌显著得多。 Hamilton (1989) 的 regime-switching 模型开创了这个方向。Wang et al. (2020) 用 HMM 识别美股牛熊状态，在 2008 金融危机和 2020 COVID 崩盘期间有效规避大幅回撤。他们的 alpha 来源不是预测涨跌，而是在高风险 regime 降低敞口。四、技术路径：Market State Embedding 把 LLM 框架迁移过来： LLM：token → 向量 → 相似度计算 → 输出分布这里：市场状态 → 向量 → 相似度计算 → Regime 分类【Encoder】目标：高维异构特征压缩成低维稠密向量。约束：regime 相似的时刻向量距离近，regime 不同的时刻向量距离远。参考 TS2Vec (Yue et al., AAAI 2022)，时序表示学习 SOTA，UCR/UEA 150+ 数据集上表现优异。核心：hierarchical contrastive learning，多时间尺度对比损失，同时学 timestamp-level 和 instance-level 表示。【训练】对比学习定义正负样本：正样本：两个时刻后续走势相似负样本：两个时刻后续走势不同也可参考 SoftCLT (ICLR 2024)，连续相似度替代硬标签。【输出】聚类法：历史 embedding 做 KMeans/GMM，得到 K 个 cluster，人工解读 regime 含义检索法：当前 embedding 检索历史 Top-K 相似时刻，统计 regime 分布检索法可解释性更强，能输出具体历史类比。五、对比传统方法【vs HMM】 HMM 假设观测值服从特定分布（通常 Gaussian），状态数预先指定。神经网络不做分布假设，能处理高维输入，能发现数据中自然存在的 regime 结构。【vs 技术指标】 ADX、RSI、布林带各自只捕捉一个维度，难以建模多因子交互，阈值人工设定。端到端学习自动发现特征组合，阈值数据驱动。六、应用场景识别 regime 的价值在于策略选择和风险控制。【策略匹配】低波动震荡 → 网格趋势行情 → 趋势跟踪高波动震荡 → 降仓位流动性危机 → 空仓【风险管理】 Wang et al. 研究表明，regime-switching 策略的超额收益主要来自在 adverse regime 降低敞口。规则：识别到高风险 regime，仓位砍半或清仓。不追求抓每一波，但要避开系统性风险。
七、NoFx：AI Trading 基础设施层上面讲的是方法论。落地需要基础设施。 NoFx 不是"让 LLM 预测涨跌"的产品。定位是 AI Trading 的基础设施层。【数据层】加密货币市场数据极度碎片化。CEX API 格式各异，链上数据需要自己解析，衍生品数据分散在不同源头。 NoFx 做的第一件事：异构数据归一化，统一访问接口。价格数据： • 多周期 K 线 OHLCV：1m / 3m / 5m / 15m / 30m / 1h / 2h / 4h / 6h / 8h / 12h / 1d / 3d / 1w / 1M • Tick 级逐笔成交 • 加权平均价（VWAP） • 价格变动百分比：1m / 5m / 15m / 30m / 1h / 4h / 24h 成交量数据： • 原始成交量及其 MA • CVD（Cumulative Volume Delta）：累计主动买入量 - 累计主动卖出量 • CVD 多周期：5m / 15m / 1h / 4h / 24h • Taker Buy/Sell Volume • 成交量异常检测（相对 MA 的倍数） • 量价背离指标持仓数据： • Open Interest 绝对值 • OI 变化量：1h / 4h / 24h • OI 变化率：1h / 4h / 24h • OI 加权价格 • 多空持仓人数比 • 大户持仓量占比 • 杠杆分布统计资金费率： • 当前 Funding Rate • 预测 Funding Rate • Funding Rate 历史序列 • 累计 Funding（24h / 7d / 30d）清算数据： • 多头爆仓量（USD） • 空头爆仓量（USD） • 爆仓多空比 • 大额清算事件（单笔 > 100K） • 清算热力图（价格区间分布） • 累计清算：1h / 4h / 24h 资金流向： • 机构净流入（期货） • 机构净流入（现货） • 散户净流入（期货） • 散户净流入（现货） • 大单买入/卖出（阈值可配置） • 交易所净流入/流出 • 鲸鱼地址异动订单簿数据： • 买一/卖一价格及挂单量 • 盘口价差（Spread） • 深度快照：±0.1% / ±0.5% / ±1% / ±2% • 买卖挂单不平衡度 • 大额挂单检测 • 订单簿斜率技术指标： • EMA：7 / 13 / 21 / 55 / 100 / 200 • SMA：20 / 50 / 100 / 200 • MACD：标准参数 + 自定义参数 • RSI：6 / 14 / 21 • Bollinger Bands：20 周期 2 倍标准差 • ATR：14 周期 • ADX / DMI • Stochastic RSI • OBV（On Balance Volume） • Ichimoku Cloud 波动率： • 已实现波动率：1h / 4h / 24h / 7d • ATR 百分比 • 布林带宽度 • 价格振幅（High - Low）数据更新站点，API 已开放：https://nofxos.ai/api-docs 调用示例： GET /api/quant-data?symbol=BTCUSDT 返回： { "netflow": { "institution": {"future": 1200000, "spot": -500000}, "personal": {"future": -800000, "spot": 200000} }, "oi": { "current": 450000000, "delta": {"1h": 1.2, "4h": 3.5, "24h": -2.1} }, "price_change": {"1h": 0.8, "4h": 2.1, "24h": -1.5}, "cvd": {"5m": 150000, "1h": 890000, "4h": -2100000}, "funding_rate": 0.0001, "liquidation": {"long": 1500000, "short": 800000} } 【执行层】交易所 API 差异不只在数据端。限价单、市价单、止损单的参数格式，仓位精度，杠杆配置，各家不同。 NoFx 抽象统一执行接口，当前支持任意交易所市场：策略层不需要关心底层交易所。【决策层】数据层和执行层之上，提供 AI 决策框架：市场数据 → 特征工程 → AI 推理 → 风控过滤 → 执行支持的推理引擎：DeepSeek、Claude、GPT、Gemini、Qwen。 AI 在这里不是预测涨跌，而是做结构化决策： • 多维度市场状态分析 • 候选标的筛选排序 • 仓位管理和风险评估 • 入场/出场条件判断输出是结构化 JSON：决策、置信度、推理链（Chain of Thought）。每次决策的完整 context 全部记录。【Regime 集成】 Regime 识别作为决策框架的模块：市场数据 → Regime 识别 → 策略路由 → AI 决策 → 风控 → 执行 AI 做具体决策时收到当前 regime 判断作为 context。不同 regime 下，决策激进程度、仓位上限、止损宽度自动调整。【为什么做】 AI Trading 的瓶颈不在模型，在工程。一个能跑的系统需要：稳定数据流、低延迟执行、完善风控、可追溯日志、灵活策略配置。基础设施不存在，模型再强也没用。市面上的 AI 交易产品大多是黑箱。用户不知道 AI 在想什么，不知道为什么开仓，不知道风控逻辑。出问题无从排查。 NoFx 的设计原则：透明、可控。 • 完整 Chain of Thought 日志 • 可配置风控（止损、仓位上限、杠杆限制） • 开源，用户可自己部署 • Web UI 调参，不需要改代码【AI Trading Layer】长期目标：AI Trading 的标准化层。三个支柱：第一，传统量化的工程积累。订单管理、风控引擎、回测框架、执行算法——几十年量化交易沉淀的东西。没有这些，AI 是空中楼阁。第二，前沿 AI 的推理能力。LLM 在结构化分析、多因子综合判断、自然语言交互上的表现，传统规则引擎做不到。但 AI 需要被正确约束和引导，不能让它自由发挥去"预测市场"。第三，严格的数学框架。Regime 识别、向量相似度、对比学习——可验证、可解释的方法。拒绝"AI 说买就买"的玄学。【平权化】技术只是手段。NoFx 的终极目标：AI + 量化的平权化。现状：量化交易门槛极高。要懂编程、懂金融、懂数据工程、懂风控，还要有资金接入机构级数据和执行通道。散户被排斥在外。 NoFx 提供可视化的 AI 交易编排系统： • 不用写代码。策略逻辑、风控规则、AI 参数，Web UI 配置 • 不用懂量化。预置策略模板覆盖常见场景，调参数就行 • 不用自建基础设施。数据、执行、风控、日志，平台提供 • 完全透明。每次 AI 决策的输入、推理、输出，全部可查一个从没接触过量化的人，应该能在 5分钟内配置好自己的 AI 策略，并理解它在做什么。这不是降低专业性。是把专业能力封装成普通人能用的工具。 Excel 让每个人能做数据分析，不需要学 SQL。Figma 让每个人能做设计，不需要学 Photoshop。 NoFx 让每个人能编排 AI 交易策略，不需要成为量化工程师。开源是必然选择。基础设施层必须可信、可审计。八、局限性过拟合：模型可能只是记住历史 pattern，泛化能力存疑。需要 out-of-sample 验证和滚动回测。 Regime 漂移：市场结构演化，历史 regime 特征可能不再适用。需要持续监控和定期重训练。识别延迟：regime 切换识别必然滞后。敏感度和误报率之间取舍。这不是预测圣杯。价值在于结构化的市场状态描述，辅助策略选择和风控。九、关于我做这件事的出发点是第一性原理。不是看到"AI 交易"这个词就往上靠，而是先问：AI 的计算本质是什么？这个本质能迁移到金融场景吗？迁移过来应该解决什么问题？答案是：向量相似度计算可以迁移，但目标不应该是预测涨跌，而是 regime 识别。另一个出发点是用户导向。技术再厉害，如果只有专业量化团队能用，意义有限。我希望做出来的东西，是一个完全不懂代码的交易者也能上手的产品。专业性和易用性不矛盾。专业性体现在底层架构和方法论，易用性体现在产品交互。把复杂的东西做简单，比把简单的东西做复杂难得多。用户的反馈验证了这个方向： • GitHub 两个月 9500+ stars • 一个半月内为 Binance 带来 1800+ 纯新增 KYC 首次交易用户 • 实际使用用户超过 9 万人 • 交易量持续增长这些数字说明市场确实存在这个需求：普通交易者想要专业级的 AI 交易能力，但不想花几个月学量化编程。 NoFx 在做的事情，是把机构级的数据、执行、风控能力，封装成任何人都能用的产品。技术服务大众，不是技术服务少数人。开源也是用户导向的选择。用户要能看到代码在做什么，要能自己部署，要能根据需求修改。黑箱产品在金融领域没有信任基础。后续 Regime 识别模块验证有效后，同样会开源集成。 NoFx 官网：https://nofxai.com Github: https://github.com/NoFxAiOS/nofx
—————————— 参考文献时序表示学习： [1] Yue, Z., et al. (2022). TS2Vec: Towards Universal Representation of Time Series. AAAI 2022. [2] Soft Contrastive Learning for Time Series. ICLR 2024. [3] Niroshan, G., et al. (2025). TS2Vec-Ensemble. arXiv. Regime Detection： [4] Wang, M., Lin, Y.H., & Mikhelson, I. (2020). Regime-Switching Factor Investing with Hidden Markov Models. Journal of Risk and Financial Management. [5] Hamilton, J.D. (1989). A New Approach to the Economic Analysis of Nonstationary Time Series and the Business Cycle. Econometrica. [6] Yuan, Y., & Mitra, G. (2019). Market Regime Identification Using Hidden Markov Models. SSRN. 加密货币预测： [7] Pratas, T.E., et al. (2023). Forecasting Bitcoin Volatility: Exploring the Potential of Deep Learning. Eurasian Economic Review. [8] Omole, O., & Enke, D. (2024). Deep Learning for Bitcoin Price Direction Prediction. Financial Innovation. [9] Huang, Z.C., et al. (2024). Forecasting Bitcoin Volatility Using Machine Learning Techniques. Journal of International Financial Markets. —————————— @Web3Tinkle

相关文章：
X | 从第一性原理出发：从AI 底层逻辑到AI Trading

为者常成，行者常至

从第一性原理出发：从 AI 底层逻辑到 AI Trading

一、大模型的底层逻辑

【核心思想：用向量表示一切】

【核心计算：向量相似度】

【堆叠与非线性】

AI

作者：Corwien

专栏推荐

从第一性原理出发：从 AI 底层逻辑到 AI Trading

一、大模型的底层逻辑

【核心思想：用向量表示一切】

【核心计算：向量相似度】

【堆叠与非线性】

添加附言

AI

作者：Corwien

专栏推荐