大国色批之简析AI输出截断

Updated on Jun 05, 2025

前言

色欲是最好的老师。我将在色欲的驱动下狂野输出。

主流原因

Token长度限制

到达Context Window上限：没办法，已经到顶了！模型实力总共就能同时处理这么多token！

到达max_tokens上限：消耗的token长度到达你设置的上限，可以调整看看避免截断。当然，作为下有概念的max_tokens不可能比上游Context Window上限高。就算设置成35亿，Context Window达不到也是没有用的！

字段/概念	长度	定义	上限
`prompt_tokens`	输入长度	输入消耗的token	`max_tokens`仅限制输出长度，输入长度由模型上下文窗口隐式约束。
`completion_tokens`	输出长度	实际输出消耗的token	必≤ `max_tokens`
`max_tokens`	最高输出长度	本次调用中允许生成的最大token数	用户设定的输出上限。当`total_tokens`接近Context Window时，有些模型可能主动提前终止生成（即使未达`max_tokens`），防止溢出错误。
`total_tokens`	输入输出总长度	输入+输出token总和	必≤ Context Window
Context Window	理论总长度上限/上下文窗口	模型架构决定的Token处理上限	Context Window即总上限本身，定义单次推理中模型可处理的“输入+输出Token总量上限”

Token上限天梯：

completion_tokens ≤ max_tokens

prompt_tokens + completion_tokens ≤ Context Window

         [ 模型上下文上限: 4096 tokens ]
         /                       \
        /                         \
输入消耗 [prompt_tokens]          输出上限 [max_tokens]
 (如: 3000 tokens)               (用户设置, 如: 2000)
        \                         /
         \                       /
实际输出 [completion_tokens] ≤ min(4096-3000, 2000) = 1096

流式传输

如果使用流式API逐块接收响应，个别服务商在网络中断或超时发生时可能不会重新连接并继续，导致部分内容丢失。

硬件并行计算

大型模型推断通常在 GPU 上并行处理多个 Token。实现细节、硬件调度、甚至底层库版本等细微差异，可能导致在接近 Token 限制的边缘时，生成过程以略微不同的方式“刹车”或决定停止。免费用户的请求往往会被调度到算力质量更低的硬件上。尤其在高负载时，算力矛盾更为突出。

模型版本漂移

云端服务的模型实例可能在不通知的情况下进行微小的后台更新或热重载。

运行优化

近似计算优化：一些运行时的优化技术（如 KV Cache 管理）在边界条件下的行为可能不是绝对一致的。这通常是次要因素。

政策限制

如果检测到输出内容敏感（瑟琴、有悖公序良俗）的内容，会自动截断。

应对策略

破限

目前还是靠花式prompt破解限制。话题太大，请看各路老友发挥。

续写

设计分页/续写功能，检测截断发生（如结尾不完整）时，允许用户触发“继续生成”操作，将当前完整上下文（包含上次输出）作为新Prompt发送给API。可以明确要求完成语，在Prompt中直接提醒模型：“如果输出被截断，请在尾部加上‘[CONTINUED]’”帮助程序判断是否需要续写。

排查原因之随机性控制

温度与采样机制

理想情况下，我们可以通过确定复现目标输出的各种参数后，再逐个调整相关参数定位问题。 seed就是帮助我们控制看似随机的模型输出固定结果的参数。

Temperature=0时（贪婪解码，Greedy Decoding），模型在每一步生成下一个词时，必定且唯一选择其预测概率分布中可能性最高的词。这一选择过程是确定性的，输出完全基于当前输入序列和模型参数计算出来，没有任何随机性参与决策。[^1]

Temperature > 0 时（采样，Sampling），模型用随机性选择词。此时，top-k/top-p [^2]作为核心随机性控制参数，会在可能性最大的词中圈定一个范围（候选池），模型在此范围内按各词权重比例随机抽取结果。即使参数固定导致候选池不变，随机性仍会使每次输出可能不同。

这时，如果想要复现特定回答该怎么办呢——设置种子值（Seed）的意义就在于此。只要保证各种可控条件相同，我们设置相同的Seed值即可锁定随机性，复现目标结果（包括长度、每个词的选择、甚至截断的位置）。

Seed

Seed通过控制“伪随机数生成器”（PRNG）的初始状态来实现结果复现，本质是让所有随机过程变成可重复的确定性计算。换句话来讲，计算机无法实现绝对的随机。当前的主流随机数生成方案都是预先设置了各种基于特定“起始密码”的计算规则。基于起始密码层层算出的“随机数”，即便长得很随机，实际上也是注定被计算出来的固定值。Seed 值是伪随机数生成器的“起始密码”，相同的种子会生成完全相同的随机数序列，迫使模型在每一轮采样中做出完全相同的选择，从而复现结果。

Seed 通过控制伪随机数生成器（PRNG）的初始状态实现结果复现，本质是将随机过程转化为可重复的确定性计算。具体来讲，计算机无法生成绝对随机数——当前主流方案均内置确定性算法：输入相同的起始密码（Seed值），经过固定方案计算后，必输出相同的固定数值序列。该序列表面呈现随机性，实则完全可预测。在语言模型中同理：相同的 Seed 值 → 生成相同随机数序列 → 在每一步采样中必定选中相同词 → 最终输出完全复现。

其他参数：

仅靠 seed 本身不足以保证复现。如下的参数也必须保持相同：

硬件环境
软件版本
模型版本（服务器端后台更新模型可能会导致失效）
输入（Prompt）
核心参数（最重要的是 temperature。top_p, max_tokens, stop 序列）

[^1] temperature = 0 会强制模型选择概率最高的路径，理论上每次输出也应该一致。因为不同硬件、库版本或底层实现细节，即使是 temperature = 0，有时也会因为极小的浮点运算差异导致输出在极少数情况下漂移。seed 能彻底解决这种不确定性。

[^2] 温度调控采样 (Temperature Sampling)通过调整温度参数 T，动态缩放高概率词与低概率词之间的概率差，来控制模型的输出风格或奔放或保守。top-k采样 (Top-k Sampling)是仅从概率最高的前 k 个词中采样；top-p 采样 (Nucleus Sampling)是仅从累积概率达 p 的核心词集中采样。两者都会对原始概率分布进行重新归一化处理。