一种更聪明的 AI 提示方式

Sat 24 Jan 2026

发表评论

71 views

提示（Prompt）用于描述任务，评分标准（Rubric）用于定义规则。本文将介绍基于评分标准的提示方式，如何在搜索和内容工作流中减少“幻觉”问题。

生成式 AI 已成为搜索、内容创作和分析型工作流中的实用工具。

但随着采用率的提高，一个熟悉且代价高昂的问题也随之而来：看似自信却完全错误的输出。

这种现象通常被称为“幻觉（Hallucinations）”，这个词暗示 AI 模型出现了故障。

但事实是：这种行为往往是可预测的，其根源在于指令不清晰——更准确地说，是提示不够明确。

举个例子，只让 AI 生成一个“饼干食谱”，而不提供更多信息，比如过敏原、口味偏好或限制条件。

结果可能是：七月却给你一份圣诞饼干配方、富含花生的方案，或者一份平淡到配不上“甜点”之名的基础食谱。这种信息缺失很容易导致输出结果与预期不符。

因此，更合理的做法是预期模型可能会“失控”，并提前设置明确的约束条件（护栏）。

而实现这一点的有效方法，就是使用评分标准（Rubrics）。

接下来，我们将探讨基于评分标准的提示方式是如何运作的、为什么它能提升事实可靠性，以及你如何将其应用到 AI 中，以产出更加可信的结果。

流畅性 vs. 克制性：哪一个更好？

当要求 AI 生成完整、润色良好的答案，却没有明确说明在信息不确定或数据缺失时该如何处理，它往往会优先选择流畅性，而不是克制性。

也就是说，AI 更倾向于让回答顺畅地继续下去（流畅性），而不是在信息不足时停下来、进行限定说明，或干脆拒绝作答（克制性）。

正是在这一刻，AI 开始“编造内容”——因为不确定性并未被设定为一个需要停止的条件。其后果可能带来高昂的财务成本，同时也会损害声誉、效率和信任。

据美联社在 2025 年底报道，专业服务公司德勤（Deloitte）因一份由 AI 辅助撰写的政府报告中存在错误，被要求偿还 44 万澳元。这些错误包括伪造的引用来源以及错误归属的法院引述。

一位学术审稿人指出，该报告：

“错误引用了一起法院案件，并虚构了一名法官的引语……在一份澳大利亚政府高度依赖的报告中，对法律进行了错误陈述。”

那么，德勤是否应该完全避免使用 AI？

评估数据和生成报告正是 AI 的强项。这里的教训并不是将 AI 移出工作流，而是对它加以约束——事先明确规定：当模型不知道答案时，必须采取什么行动。

这正是**评分标准（Rubrics）登场的地方。

评分标准在 AI 中的作用

用户常常会设置一些通用型的防护措施来应对潜在的“幻觉”模式，但这些措施在实际应用中往往并不奏效。

为什么会这样？因为它们通常只描述了期望的结果，而不是决策过程。当所需信息缺失时，这就会迫使 AI 模型自行进行推断。

这正是基于评分标准的提示方式（rubric-based prompting）不可或缺的原因。

评分标准（Rubric）——一种用于评估作品的评分指南或标准集合——听起来可能是一个传统、偏学术的概念。

可以把它想象成老师用来批改作业的评分表，通常会提前发给学生，让他们清楚什么样的作业是“优秀”“合格”或“不可接受”。

AI 评分标准沿用了同样的结构性思路，但用途却截然不同。

它们并不是在生成回答之后进行评分，而是在生成回答的过程中塑造决策方式。

具体来说，评分标准通过明确规定：当所需条件无法满足时，AI 模型应该采取什么行动。

通过定义清晰、明确的标准，评分标准为 AI 设定了清楚的边界、优先级，甚至失败时的行为方式，从而有效降低“幻觉”风险。

仅仅写出更好的提示还不够

关于提示（Prompt）的建议，往往聚焦在措辞是否更好上。通常这意味着更加具体，或给出更清晰的指令；有时也包括引导模型采用特定的格式或语气。

这些做法并非毫无价值，这类技巧确实可以提升表层质量。但它们并不能消除“幻觉”产生的根本原因。

用户经常向 AI 模型描述的是期望的结果，而不是应遵循的规则。

像“保持准确”“引用来源”或“仅使用已验证的信息”这样的提示语听起来很合理，但却为模型留下了过多的解释空间。

结果是，模型仍然不得不自行决定关键细节。

过长或过于复杂的提示还可能引入相互冲突的目标。

一个提示可能同时要求清晰性、完整性、自信感和速度——这些目标彼此矛盾，容易促使模型回退到默认行为，生成看似流畅且“完整”的回答。

在缺乏清晰优先级的情况下，准确性往往会被削弱甚至丧失。

提示擅长描述“要做什么”，而评分标准（Rubric）则用于规范“如何做出决策”。

AI 评分标准正是通过将决策方式从“推断”转变为“明确指令”，来发挥这一作用。

评分标准能做到而提示做不到的事

提示（Prompt）主要关注语气、格式和细节程度。

但它们往往无法有效处理不确定性。当信息缺失或存在歧义时，AI 模型必须自行决定是停止回答、进行限定说明，还是推断出一个答案。

在缺乏人工引导的情况下，推断通常会胜出。

评分标准（Rubric）通过明确的决策边界来减少这种模糊性。

评分标准会正式定义哪些是必需的、可选的，以及不可接受的。这些标准为模型提供了一个具体的评估框架，用于判断其生成的所有输出。

通过显式地标明优先级，AI 模型就不太可能为了保持流畅性而“填补空白”。

能够明确哪些约束最重要的评分标准，可以让事实准确性优先于“完整性”或叙事流畅度。

最重要的是，评分标准定义了失败时的行为——即当成功无法实现时，模型应该怎么做。

强有力的评分标准会明确：模型可以承认信息缺失、返回部分结果，甚至拒绝回答，而不是凭空编造任何内容。

高效 AI 评分标准的构成

有一句老话说：“厨师太多，汤就会被搞坏”，这正是创建评分标准（Rubric）的绝佳比喻。

有效的 AI 评分标准不需要占据大量篇幅，也不必以极其详细的提示形式出现。就像一道菜可能会因为过度讲究或口味过多而被毁掉一样，提示也可能因为过度设计而适得其反。

过多的细节或要求容易引入混乱。可靠的评分标准应聚焦于少量、可执行的关键标准，并直接针对“幻觉”风险进行约束。

至少，一个写得好的评分标准应包括以下内容：

准确性要求：明确规定哪些内容必须有依据、什么可以作为证据，以及是否完全不允许近似或猜测。
来源期望：说明是否必须提供来源、来源是否必须来自指定材料，以及在信息冲突时应如何处理。
不确定性处理：明确指示当信息不可获得、存在歧义或不完整时，模型必须采取的行动。
置信度 / 语气约束：对表达语气进行限制，防止推测性答案被以确定口吻呈现。
失败行为：明确允许并优先选择停止回答、进行限定说明或延迟处理，而不是盲目猜测。

如何为 AI 模型制定评分标准

评分标准（Rubric）并不会让 AI 模型变得更“聪明”，但它能让模型的决策过程更加可靠。

下面通过一个竞争分析的示例，来说明评分标准的价值：

某个团队让 AI 模型解释：为什么竞争对手在搜索结果中表现优于他们，以及他们可以采取哪些改进措施。提示内容如下：

“分析为什么 [竞争对手] 在 [特定主题] 上的排名高于我们。识别他们排名的关键词、赢得的 SERP 特性，并推荐我们内容策略的调整方向。”

从表面上看，这个提示是合理的；但在实际应用中，它几乎是在邀请“幻觉”发生。

这个提示缺乏具体输入，也没有任何约束条件。结果就是，AI 极有可能编造看似合理的排名、SERP 特性以及战略性结论。

撰写评分标准

在实际应用中，评分标准（Rubric）会直接包含在提示（Prompt）之中。它必须与任务本身清晰区分开来——任务负责说明要分析或生成什么内容。

评分标准则用于定义模型在执行任务时必须遵循的规则。

这是一个至关重要的区别：提示请求的是输出结果，而评分标准规范的是模型生成这些结果的方式。

基于上一节中的标准，将提示与评分标准结合后，完整内容如下：

“分析为什么 [竞争对手] 可能在 [主题] 上的搜索表现优于我们，并提供洞察和建议。除非在提示中明确提供，否则不得声称任何排名、流量或 SERP 特性。如果所需数据缺失，请明确说明哪些内容无法判断，并列出所需的补充输入。在证据不完整的情况下，请以条件性方式表述建议，避免在缺乏支持数据时使用确定性语言。如果无法可靠地完成分析，请返回部分结果，而不是进行猜测。”

当评分标准被纳入提示后，模型就无法再进行自由推断，而是会将不确定性视为一种约束条件。

评分标准与提示如何协同工作

如上例所示，评分标准（Rubric）并不会取代提示（Prompt），而是对其进行补充，且通常位于提示之后。它应被视为一个稳定层（stabilizing layer）。

提示始终负责定义任务本身：需要总结、分析或生成什么内容；而评分标准则定义了执行这些任务时必须遵循的规则。

在实际应用中，提示可以灵活变化，而评分标准在相似类型的工作中通常保持相对稳定，与具体主题无关。对来源要求、不确定性处理和失败行为进行统一定义，有助于随着时间推移持续降低错误率。

在许多工作流中，评分标准可以直接嵌入在提示之后；在其他情况下，也可以通过可复用模板、自动化检查或系统级指令以编程方式引用或应用。形式并不重要，关键在于标准是否清晰明确。

避免过度设计

尽管评分标准（Rubric）非常有效，但也很容易被误用。用户最常见的错误之一，就是过度设计。

试图预判所有可能情境的评分标准，往往会变得臃肿、难以执行，甚至前后不一致。

另一个常见错误是加入相互冲突的标准，却未明确说明优先级。

为了减少“幻觉”，评分标准必须简洁、具备清晰的优先顺序，并明确规定失败时的行为方式。

像专业人士一样使用 AI 评分标准

像专业人士一样进行提示设计，关键在于预判 AI 何时会被迫进行猜测，并提前定义和约束其行为方式。

评分标准（Rubric）会指示 AI 模型在信息缺失时放慢节奏、进行限定说明，或直接停止回答。正因如此，评分标准能够帮助你在工作中更好地发挥 AI 的能力，并生成准确、可信的输出结果。

本网站所有内容资源全部免费，将会持续更新在跨境电商运营中所有你遇到的问题，掌握本网站所有内容你即可无敌！

您也可以扫描左侧二维码关注我们的微信公众号，持续关注我们的动态，不管你是找工作以及自运营都将会让你受益匪浅。

Category: Artificial intelligence
Tag: Artificial intelligence

Ohab

我专注于数字营销、网络分析和转化跟踪，帮助企业通过数据驱动的策略和洞察力推动增长。

Related acticles

使用GTM创建GA4自定义事件

完整的 GA4 电子商务事件设置指南

掌握Google Ads文案写作：将您的CTR提升到新高度

GA4 电商事件与参数实现前说明

安装后最重要的 GA4 设置

(0)

一种更聪明的 AI 提示方式

流畅性 vs. 克制性：哪一个更好？

评分标准在 AI 中的作用

仅仅写出更好的提示还不够

评分标准能做到而提示做不到的事

高效 AI 评分标准的构成

如何为 AI 模型制定评分标准

撰写评分标准

评分标准与提示如何协同工作

避免过度设计

像专业人士一样使用 AI 评分标准

Ohab

Related acticles

暂无评论

Leave a Reply Cancel reply

点击购买站长推荐的服务器

关注微信公众号

添加微信加入粉丝群

加入星球

关键词

热门文章

最新文章

分类