一辈子只做好两件事,就可以变得很富有,投资长期有价值的事情,规避无效之事——查理芒格

Sat 24 Jan 2026
34 views

提示(Prompt)用于描述任务,评分标准(Rubric)用于定义规则。本文将介绍基于评分标准的提示方式,如何在搜索和内容工作流中减少“幻觉”问题。

生成式 AI 已成为搜索、内容创作和分析型工作流中的实用工具。

但随着采用率的提高,一个熟悉且代价高昂的问题也随之而来:看似自信却完全错误的输出。

这种现象通常被称为“幻觉(Hallucinations)”,这个词暗示 AI 模型出现了故障。

但事实是:这种行为往往是可预测的,其根源在于指令不清晰——更准确地说,是提示不够明确。

举个例子,只让 AI 生成一个“饼干食谱”,而不提供更多信息,比如过敏原、口味偏好或限制条件。

结果可能是:七月却给你一份圣诞饼干配方、富含花生的方案,或者一份平淡到配不上“甜点”之名的基础食谱。这种信息缺失很容易导致输出结果与预期不符。

因此,更合理的做法是预期模型可能会“失控”,并提前设置明确的约束条件(护栏)。

而实现这一点的有效方法,就是使用评分标准(Rubrics)。

接下来,我们将探讨基于评分标准的提示方式是如何运作的、为什么它能提升事实可靠性,以及你如何将其应用到 AI 中,以产出更加可信的结果。

流畅性 vs. 克制性:哪一个更好?

当要求 AI 生成完整、润色良好的答案,却没有明确说明在信息不确定或数据缺失时该如何处理,它往往会优先选择流畅性,而不是克制性

也就是说,AI 更倾向于让回答顺畅地继续下去(流畅性),而不是在信息不足时停下来、进行限定说明,或干脆拒绝作答(克制性)。

正是在这一刻,AI 开始“编造内容”——因为不确定性并未被设定为一个需要停止的条件。其后果可能带来高昂的财务成本,同时也会损害声誉、效率和信任。

据美联社在 2025 年底报道,专业服务公司德勤(Deloitte)因一份由 AI 辅助撰写的政府报告中存在错误,被要求偿还 44 万澳元。这些错误包括伪造的引用来源以及错误归属的法院引述

一位学术审稿人指出,该报告:

“错误引用了一起法院案件,并虚构了一名法官的引语……在一份澳大利亚政府高度依赖的报告中,对法律进行了错误陈述。”

那么,德勤是否应该完全避免使用 AI?

评估数据和生成报告正是 AI 的强项。这里的教训并不是将 AI 移出工作流,而是对它加以约束——事先明确规定:当模型不知道答案时,必须采取什么行动。

这正是**评分标准(Rubrics)登场的地方。

评分标准在 AI 中的作用

用户常常会设置一些通用型的防护措施来应对潜在的“幻觉”模式,但这些措施在实际应用中往往并不奏效。

为什么会这样?因为它们通常只描述了期望的结果,而不是决策过程。当所需信息缺失时,这就会迫使 AI 模型自行进行推断。

这正是基于评分标准的提示方式(rubric-based prompting)不可或缺的原因。

评分标准(Rubric)——一种用于评估作品的评分指南或标准集合——听起来可能是一个传统、偏学术的概念。

可以把它想象成老师用来批改作业的评分表,通常会提前发给学生,让他们清楚什么样的作业是“优秀”“合格”或“不可接受”。

AI 评分标准沿用了同样的结构性思路,但用途却截然不同。

它们并不是在生成回答之后进行评分,而是在生成回答的过程中塑造决策方式

具体来说,评分标准通过明确规定:当所需条件无法满足时,AI 模型应该采取什么行动。

通过定义清晰、明确的标准,评分标准为 AI 设定了清楚的边界、优先级,甚至失败时的行为方式,从而有效降低“幻觉”风险。

仅仅写出更好的提示还不够

关于提示(Prompt)的建议,往往聚焦在措辞是否更好上。通常这意味着更加具体,或给出更清晰的指令;有时也包括引导模型采用特定的格式或语气。

这些做法并非毫无价值,这类技巧确实可以提升表层质量。但它们并不能消除“幻觉”产生的根本原因。

用户经常向 AI 模型描述的是期望的结果,而不是应遵循的规则

像“保持准确”“引用来源”或“仅使用已验证的信息”这样的提示语听起来很合理,但却为模型留下了过多的解释空间。

结果是,模型仍然不得不自行决定关键细节。

过长或过于复杂的提示还可能引入相互冲突的目标

一个提示可能同时要求清晰性、完整性、自信感和速度——这些目标彼此矛盾,容易促使模型回退到默认行为,生成看似流畅且“完整”的回答。

在缺乏清晰优先级的情况下,准确性往往会被削弱甚至丧失

提示擅长描述“要做什么”,而评分标准(Rubric)则用于规范“如何做出决策”

AI 评分标准正是通过将决策方式从“推断”转变为“明确指令”,来发挥这一作用。

评分标准能做到而提示做不到的事

提示(Prompt)主要关注语气、格式和细节程度

但它们往往无法有效处理不确定性。当信息缺失或存在歧义时,AI 模型必须自行决定是停止回答、进行限定说明,还是推断出一个答案。

在缺乏人工引导的情况下,推断通常会胜出

评分标准(Rubric)通过明确的决策边界来减少这种模糊性。

评分标准会正式定义哪些是必需的、可选的,以及不可接受的。这些标准为模型提供了一个具体的评估框架,用于判断其生成的所有输出。

通过显式地标明优先级,AI 模型就不太可能为了保持流畅性而“填补空白”。

能够明确哪些约束最重要的评分标准,可以让事实准确性优先于“完整性”或叙事流畅度。

最重要的是,评分标准定义了失败时的行为——即当成功无法实现时,模型应该怎么做。

强有力的评分标准会明确:模型可以承认信息缺失、返回部分结果,甚至拒绝回答,而不是凭空编造任何内容。

高效 AI 评分标准的构成

有一句老话说:“厨师太多,汤就会被搞坏”,这正是创建评分标准(Rubric)的绝佳比喻。

有效的 AI 评分标准不需要占据大量篇幅,也不必以极其详细的提示形式出现。就像一道菜可能会因为过度讲究或口味过多而被毁掉一样,提示也可能因为过度设计而适得其反。

过多的细节或要求容易引入混乱。可靠的评分标准应聚焦于少量、可执行的关键标准,并直接针对“幻觉”风险进行约束。

至少,一个写得好的评分标准应包括以下内容:

  • 准确性要求:明确规定哪些内容必须有依据、什么可以作为证据,以及是否完全不允许近似或猜测。

  • 来源期望:说明是否必须提供来源、来源是否必须来自指定材料,以及在信息冲突时应如何处理。

  • 不确定性处理:明确指示当信息不可获得、存在歧义或不完整时,模型必须采取的行动。

  • 置信度 / 语气约束:对表达语气进行限制,防止推测性答案被以确定口吻呈现。

  • 失败行为:明确允许并优先选择停止回答、进行限定说明或延迟处理,而不是盲目猜测。

如何为 AI 模型制定评分标准

评分标准(Rubric)并不会让 AI 模型变得更“聪明”,但它能让模型的决策过程更加可靠

下面通过一个竞争分析的示例,来说明评分标准的价值:

某个团队让 AI 模型解释:为什么竞争对手在搜索结果中表现优于他们,以及他们可以采取哪些改进措施。提示内容如下:

“分析为什么 [竞争对手] 在 [特定主题] 上的排名高于我们。识别他们排名的关键词、赢得的 SERP 特性,并推荐我们内容策略的调整方向。”

从表面上看,这个提示是合理的;但在实际应用中,它几乎是在邀请“幻觉”发生

这个提示缺乏具体输入,也没有任何约束条件。结果就是,AI 极有可能编造看似合理的排名、SERP 特性以及战略性结论

撰写评分标准

在实际应用中,评分标准(Rubric)会直接包含在提示(Prompt)之中。它必须与任务本身清晰区分开来——任务负责说明要分析或生成什么内容。

评分标准则用于定义模型在执行任务时必须遵循的规则

这是一个至关重要的区别:提示请求的是输出结果,而评分标准规范的是模型生成这些结果的方式。

基于上一节中的标准,将提示与评分标准结合后,完整内容如下:

“分析为什么 [竞争对手] 可能在 [主题] 上的搜索表现优于我们,并提供洞察和建议。除非在提示中明确提供,否则不得声称任何排名、流量或 SERP 特性。如果所需数据缺失,请明确说明哪些内容无法判断,并列出所需的补充输入。在证据不完整的情况下,请以条件性方式表述建议,避免在缺乏支持数据时使用确定性语言。如果无法可靠地完成分析,请返回部分结果,而不是进行猜测。”

当评分标准被纳入提示后,模型就无法再进行自由推断,而是会将不确定性视为一种约束条件

评分标准与提示如何协同工作

如上例所示,评分标准(Rubric)并不会取代提示(Prompt),而是对其进行补充,且通常位于提示之后。它应被视为一个稳定层(stabilizing layer)

提示始终负责定义任务本身:需要总结、分析或生成什么内容;而评分标准则定义了执行这些任务时必须遵循的规则

在实际应用中,提示可以灵活变化,而评分标准在相似类型的工作中通常保持相对稳定,与具体主题无关。对来源要求、不确定性处理和失败行为进行统一定义,有助于随着时间推移持续降低错误率。

在许多工作流中,评分标准可以直接嵌入在提示之后;在其他情况下,也可以通过可复用模板、自动化检查或系统级指令以编程方式引用或应用。形式并不重要,关键在于标准是否清晰明确

避免过度设计

尽管评分标准(Rubric)非常有效,但也很容易被误用。用户最常见的错误之一,就是过度设计

试图预判所有可能情境的评分标准,往往会变得臃肿、难以执行,甚至前后不一致。

另一个常见错误是加入相互冲突的标准,却未明确说明优先级

为了减少“幻觉”,评分标准必须简洁、具备清晰的优先顺序,并明确规定失败时的行为方式

像专业人士一样使用 AI 评分标准

像专业人士一样进行提示设计,关键在于预判 AI 何时会被迫进行猜测,并提前定义和约束其行为方式

评分标准(Rubric)会指示 AI 模型在信息缺失时放慢节奏、进行限定说明,或直接停止回答。正因如此,评分标准能够帮助你在工作中更好地发挥 AI 的能力,并生成准确、可信的输出结果

本网站所有内容资源全部免费,将会持续更新在跨境电商运营中所有你遇到的问题,掌握本网站所有内容你即可无敌!

您也可以扫描左侧二维码关注我们的微信公众号,持续关注我们的动态,不管你是找工作以及自运营都将会让你受益匪浅。

Ohab

我专注于数字营销、网络分析和转化跟踪,帮助企业通过数据驱动的策略和洞察力推动增长。
(0)

暂无评论

Leave a Reply

关注微信公众号

添加微信加入粉丝群

加入星球

关键词

热门文章

最新文章

分类