提示(Prompt)用于描述任务,评分标准(Rubric)用于定义规则。本文将介绍基于评分标准的提示方式,如何在搜索和内容工作流中减少“幻觉”问题。
生成式 AI 已成为搜索、内容创作和分析型工作流中的实用工具。
但随着采用率的提高,一个熟悉且代价高昂的问题也随之而来:看似自信却完全错误的输出。
这种现象通常被称为“幻觉(Hallucinations)”,这个词暗示 AI 模型出现了故障。
但事实是:这种行为往往是可预测的,其根源在于指令不清晰——更准确地说,是提示不够明确。
举个例子,只让 AI 生成一个“饼干食谱”,而不提供更多信息,比如过敏原、口味偏好或限制条件。
结果可能是:七月却给你一份圣诞饼干配方、富含花生的方案,或者一份平淡到配不上“甜点”之名的基础食谱。这种信息缺失很容易导致输出结果与预期不符。
因此,更合理的做法是预期模型可能会“失控”,并提前设置明确的约束条件(护栏)。
而实现这一点的有效方法,就是使用评分标准(Rubrics)。
接下来,我们将探讨基于评分标准的提示方式是如何运作的、为什么它能提升事实可靠性,以及你如何将其应用到 AI 中,以产出更加可信的结果。
流畅性 vs. 克制性:哪一个更好?
当要求 AI 生成完整、润色良好的答案,却没有明确说明在信息不确定或数据缺失时该如何处理,它往往会优先选择流畅性,而不是克制性。
也就是说,AI 更倾向于让回答顺畅地继续下去(流畅性),而不是在信息不足时停下来、进行限定说明,或干脆拒绝作答(克制性)。
正是在这一刻,AI 开始“编造内容”——因为不确定性并未被设定为一个需要停止的条件。其后果可能带来高昂的财务成本,同时也会损害声誉、效率和信任。
据美联社在 2025 年底报道,专业服务公司德勤(Deloitte)因一份由 AI 辅助撰写的政府报告中存在错误,被要求偿还 44 万澳元。这些错误包括伪造的引用来源以及错误归属的法院引述。
一位学术审稿人指出,该报告:
“错误引用了一起法院案件,并虚构了一名法官的引语……在一份澳大利亚政府高度依赖的报告中,对法律进行了错误陈述。”
那么,德勤是否应该完全避免使用 AI?
评估数据和生成报告正是 AI 的强项。这里的教训并不是将 AI 移出工作流,而是对它加以约束——事先明确规定:当模型不知道答案时,必须采取什么行动。
这正是**评分标准(Rubrics)登场的地方。
评分标准在 AI 中的作用
用户常常会设置一些通用型的防护措施来应对潜在的“幻觉”模式,但这些措施在实际应用中往往并不奏效。
为什么会这样?因为它们通常只描述了期望的结果,而不是决策过程。当所需信息缺失时,这就会迫使 AI 模型自行进行推断。
这正是基于评分标准的提示方式(rubric-based prompting)不可或缺的原因。
评分标准(Rubric)——一种用于评估作品的评分指南或标准集合——听起来可能是一个传统、偏学术的概念。
可以把它想象成老师用来批改作业的评分表,通常会提前发给学生,让他们清楚什么样的作业是“优秀”“合格”或“不可接受”。
AI 评分标准沿用了同样的结构性思路,但用途却截然不同。
它们并不是在生成回答之后进行评分,而是在生成回答的过程中塑造决策方式。
具体来说,评分标准通过明确规定:当所需条件无法满足时,AI 模型应该采取什么行动。
通过定义清晰、明确的标准,评分标准为 AI 设定了清楚的边界、优先级,甚至失败时的行为方式,从而有效降低“幻觉”风险。
仅仅写出更好的提示还不够
关于提示(Prompt)的建议,往往聚焦在措辞是否更好上。通常这意味着更加具体,或给出更清晰的指令;有时也包括引导模型采用特定的格式或语气。
这些做法并非毫无价值,这类技巧确实可以提升表层质量。但它们并不能消除“幻觉”产生的根本原因。
用户经常向 AI 模型描述的是期望的结果,而不是应遵循的规则。
像“保持准确”“引用来源”或“仅使用已验证的信息”这样的提示语听起来很合理,但却为模型留下了过多的解释空间。
结果是,模型仍然不得不自行决定关键细节。
过长或过于复杂的提示还可能引入相互冲突的目标。
一个提示可能同时要求清晰性、完整性、自信感和速度——这些目标彼此矛盾,容易促使模型回退到默认行为,生成看似流畅且“完整”的回答。
在缺乏清晰优先级的情况下,准确性往往会被削弱甚至丧失。
提示擅长描述“要做什么”,而评分标准(Rubric)则用于规范“如何做出决策”。
AI 评分标准正是通过将决策方式从“推断”转变为“明确指令”,来发挥这一作用。
评分标准能做到而提示做不到的事
提示(Prompt)主要关注语气、格式和细节程度。
但它们往往无法有效处理不确定性。当信息缺失或存在歧义时,AI 模型必须自行决定是停止回答、进行限定说明,还是推断出一个答案。
在缺乏人工引导的情况下,推断通常会胜出。
评分标准(Rubric)通过明确的决策边界来减少这种模糊性。
评分标准会正式定义哪些是必需的、可选的,以及不可接受的。这些标准为模型提供了一个具体的评估框架,用于判断其生成的所有输出。
通过显式地标明优先级,AI 模型就不太可能为了保持流畅性而“填补空白”。
能够明确哪些约束最重要的评分标准,可以让事实准确性优先于“完整性”或叙事流畅度。
最重要的是,评分标准定义了失败时的行为——即当成功无法实现时,模型应该怎么做。
强有力的评分标准会明确:模型可以承认信息缺失、返回部分结果,甚至拒绝回答,而不是凭空编造任何内容。
高效 AI 评分标准的构成
有一句老话说:“厨师太多,汤就会被搞坏”,这正是创建评分标准(Rubric)的绝佳比喻。
有效的 AI 评分标准不需要占据大量篇幅,也不必以极其详细的提示形式出现。就像一道菜可能会因为过度讲究或口味过多而被毁掉一样,提示也可能因为过度设计而适得其反。
过多的细节或要求容易引入混乱。可靠的评分标准应聚焦于少量、可执行的关键标准,并直接针对“幻觉”风险进行约束。
至少,一个写得好的评分标准应包括以下内容:
-
准确性要求:明确规定哪些内容必须有依据、什么可以作为证据,以及是否完全不允许近似或猜测。
-
来源期望:说明是否必须提供来源、来源是否必须来自指定材料,以及在信息冲突时应如何处理。
-
不确定性处理:明确指示当信息不可获得、存在歧义或不完整时,模型必须采取的行动。
-
置信度 / 语气约束:对表达语气进行限制,防止推测性答案被以确定口吻呈现。
-
失败行为:明确允许并优先选择停止回答、进行限定说明或延迟处理,而不是盲目猜测。
如何为 AI 模型制定评分标准
评分标准(Rubric)并不会让 AI 模型变得更“聪明”,但它能让模型的决策过程更加可靠。
下面通过一个竞争分析的示例,来说明评分标准的价值:
某个团队让 AI 模型解释:为什么竞争对手在搜索结果中表现优于他们,以及他们可以采取哪些改进措施。提示内容如下:
“分析为什么 [竞争对手] 在 [特定主题] 上的排名高于我们。识别他们排名的关键词、赢得的 SERP 特性,并推荐我们内容策略的调整方向。”
从表面上看,这个提示是合理的;但在实际应用中,它几乎是在邀请“幻觉”发生。
这个提示缺乏具体输入,也没有任何约束条件。结果就是,AI 极有可能编造看似合理的排名、SERP 特性以及战略性结论。
撰写评分标准
在实际应用中,评分标准(Rubric)会直接包含在提示(Prompt)之中。它必须与任务本身清晰区分开来——任务负责说明要分析或生成什么内容。
评分标准则用于定义模型在执行任务时必须遵循的规则。
这是一个至关重要的区别:提示请求的是输出结果,而评分标准规范的是模型生成这些结果的方式。
基于上一节中的标准,将提示与评分标准结合后,完整内容如下:
“分析为什么 [竞争对手] 可能在 [主题] 上的搜索表现优于我们,并提供洞察和建议。除非在提示中明确提供,否则不得声称任何排名、流量或 SERP 特性。如果所需数据缺失,请明确说明哪些内容无法判断,并列出所需的补充输入。在证据不完整的情况下,请以条件性方式表述建议,避免在缺乏支持数据时使用确定性语言。如果无法可靠地完成分析,请返回部分结果,而不是进行猜测。”
当评分标准被纳入提示后,模型就无法再进行自由推断,而是会将不确定性视为一种约束条件。
评分标准与提示如何协同工作
如上例所示,评分标准(Rubric)并不会取代提示(Prompt),而是对其进行补充,且通常位于提示之后。它应被视为一个稳定层(stabilizing layer)。
提示始终负责定义任务本身:需要总结、分析或生成什么内容;而评分标准则定义了执行这些任务时必须遵循的规则。
在实际应用中,提示可以灵活变化,而评分标准在相似类型的工作中通常保持相对稳定,与具体主题无关。对来源要求、不确定性处理和失败行为进行统一定义,有助于随着时间推移持续降低错误率。
在许多工作流中,评分标准可以直接嵌入在提示之后;在其他情况下,也可以通过可复用模板、自动化检查或系统级指令以编程方式引用或应用。形式并不重要,关键在于标准是否清晰明确。
避免过度设计
尽管评分标准(Rubric)非常有效,但也很容易被误用。用户最常见的错误之一,就是过度设计。
试图预判所有可能情境的评分标准,往往会变得臃肿、难以执行,甚至前后不一致。
另一个常见错误是加入相互冲突的标准,却未明确说明优先级。
为了减少“幻觉”,评分标准必须简洁、具备清晰的优先顺序,并明确规定失败时的行为方式。
像专业人士一样使用 AI 评分标准
像专业人士一样进行提示设计,关键在于预判 AI 何时会被迫进行猜测,并提前定义和约束其行为方式。
评分标准(Rubric)会指示 AI 模型在信息缺失时放慢节奏、进行限定说明,或直接停止回答。正因如此,评分标准能够帮助你在工作中更好地发挥 AI 的能力,并生成准确、可信的输出结果。