为什么 AI 搜索建议在缺乏证据的情况下传播,如何评估 GEO 主张,以及哪些建议真正经得起推敲。
不到 200 年前,科学家因为提出“洗手可以拯救生命”的观点而遭到嘲笑。
19 世纪 40 年代,人们已经证明卫生习惯可以降低死亡率,但当时缺乏对其背后机制的解释。
由于没有清晰的原理,这一做法的推广停滞了几十年,导致无数本可避免的死亡。
过去的笑话,往往会成为今天的真理;反过来也是如此——一旦你遵循误导性的建议,真理也可能变成笑话。
糟糕的 GEO 建议(我并不喜欢这个缩写,但会使用它,因为它似乎最为流行)不会真的要你的命。
但它确实可能让你损失金钱、导致失业,甚至造成“经济上的死亡”。
不久前,我写过一篇关于类似主题的文章,解释了为什么不科学的 SEO 研究是危险的,它更像是一种营销工具,而非真正的科学发现。
本文是那篇文章的延续,旨在提供一个框架,帮助你理解围绕 AI 搜索优化的各种迷思。
我将重点介绍三个具体的 GEO 迷思,分析它们是否成立,并说明如果我是你,我会怎么做。
如果你时间有限,下面是 TL;DR(太长不看版):
-
我们之所以会相信糟糕的 GEO 和 SEO 建议,是因为无知、愚蠢、认知偏差以及非黑即白的思维方式。
-
评估任何建议时,你可以使用“错误推断阶梯”:陈述 vs. 事实 vs. 数据 vs. 证据 vs. 证明。
-
当你主动寻找不同观点、以理解为目的去阅读、在相信之前先停下来思考,并减少对 AI 的依赖时,你会变得更加有判断力。
目前你:
-
不需要
llms.txt。 -
即使 AI 聊天机器人今天还不使用结构化数据,也应该继续利用 Schema 标记。
-
必须保持内容的新鲜度,尤其是当这些内容对你的查询结果很重要时。
在深入讨论之前,我会先回顾一下:为什么我们会轻易相信糟糕的建议。
回顾:为什么我们会轻信糟糕的 GEO 和 SEO 建议
原因包括:
-
无知、愚蠢,以及 amathia(自愿的愚蠢)。
-
认知偏差,例如确认偏误。
-
非黑即白的思维方式。
我们之所以无知,是因为我们还不知道得更好;当我们“无法”知道得更好时,我们就是愚蠢的。这两者本身都是中性的。
当我们拒绝去知道得更好时,就会陷入 amathia,这也是三者中最糟糕的一种。
我们每个人都会受到偏见的影响。在文章和研究领域中,确认偏误可能是最常见的。
我们拒绝去看清自己认知方式中的缺陷,反而常常费尽心力去寻找竞争理论中的漏洞,或者干脆对这些漏洞视而不见。
最后,我们还深受非黑即白思维的困扰。事情总是被简化成“要么这样,要么那样”,而从不考虑中间状态。比如:
-
反向链接永远是好的。
-
Reddit 对 AI 搜索永远很重要。
-
屏蔽 AI 爬虫永远是愚蠢的。
事实是,世界由无数种灰色地带构成。Alex Edmans 在《可能包含谎言》(May Contain Lies)一书中很好地阐述了这一点。
他指出,事物可以是适度的(moderate)、细分的(granular),或交错混合的(marbled):

-
反向链接并不总是有益或重要的,因为在达到某个程度之后,它们的影响力会递减(适度 / moderate)。
-
如果在相关的提示词集合中根本没有被引用,Reddit 对 AI 搜索并不一定重要(细分 / granular)。
-
屏蔽某些 AI 爬虫并不总是愚蠢的;对于某些商业模式和公司来说,这样做完全合情合理(交错混合 / marbled)。
变得更理性的第一步永远是意识到问题的存在。我们每个人有时都会无知(无论是自愿还是非自愿)、犯蠢、受到偏见影响,或陷入非黑即白的思维。
既然我们已经理解了为什么会轻信糟糕的建议,现在就让我们进入更实际的部分。
我是如何评估 GEO(以及 SEO)建议,并避免让自己变得愚蠢的
拯救自己的一种方法是使用“错误推断阶梯”(ladder of misinference),这个概念同样借鉴自 Edmans 的那本书。它大致如下:

要把某件事情当作证明来接受,它必须一步步爬上这架阶梯的各个层级。
仔细观察会发现,许多主张在“证据”与“证明”这一最后一阶时就站不住脚。
举个例子:
-
陈述(Statement):“用户信号是提升自然搜索表现的重要因素。”
-
事实(Fact):更高的点击率(CTR)表现可以带来更好的排名。
-
数据(Data):你可以在自己的网站上直接测量这一点,而且在它成为共识之前,就已经有多项实验展示了用户信号的影响。
-
证据(Evidence):已有实验展示了因果关系,此外,2024 年 Google 泄露文件中有相当一部分内容聚焦于用户信号的评估。
-
证明(Proof):Google 在美国司法部(DOJ)反垄断审判中的法庭文件确认了这些数据和证据,使其成为普遍成立的事实。
有趣的事实:Rand Fishkin 和 Marcus Tandler 在很多年前就说过用户信号很重要,但当时他们被嘲笑了——就像 19 世纪的科学家一样。
在那个时候,证据还不够充分;而今天,他们的“笑话”已经成了事实。
如果我是你,我会这样做:
-
寻找不同意见:只有当你能为某个观点进行有力辩护时,才算真正理解了它。最好的防御方式是“钢人化”(steelmanning)你的论点,而这需要你彻底理解对立面。
-
以理解为目的去获取信息:我们太常为了回应而去听,这实际上等于没在听,而是在脑中和自己对话,思考接下来要说什么。要真正理解,你需要主动倾听。
-
在分享和相信之前暂停一下:虚假信息具有极强的传染性,传播半真半假的内容或谎言是危险的。你也不应仅仅因为某个名人说过,或因为它被反复提及,就轻易相信。
-
不要用 AI 做摘要(也许这是个有争议的观点):AI 在摘要方面存在明显缺陷。例如,要求“简要总结”的提示会增加幻觉风险,而源材料往往会给 AI 的回答蒙上一层不应有的可信度。
很快你就会明白,为什么最后这一点是个大问题。
The prime example: Blinding AI workslop
我决定不点名批评,因此不会提供任何链接,也不会提及具体指的是谁。只要稍作研究,你或许就能自己找到这个例子。
这项所谓的“研究”是这样被推广的:
-
“AI 搜索究竟是如何运作的。”
-
需要投入数周时间。
-
分析了 19 项研究和 6 个案例研究。
-
经过验证、审查,并进行了压力测试。
引用 Edmans 的话:
“是否具有突破性,不该由作者自己来评判,而应由读者来判断。你不需要大肆宣扬你的证明有多么决定性,或你的结果有多么新颖。也许它们本身并不足以自证其价值。……无论你给你的技术起了多么花哨的名字,或收集了多少数据,数量永远无法替代质量。”
仅仅因为花了很长时间,并不意味着结果就是好的。
仅仅因为作者这样宣称,也不意味着研究发现具有突破性。
根据《哈佛商业评论》(HBR)的定义,AI workslop 是:
“看似是高质量工作的 AI 生成内容,但缺乏实质性内容,无法真正推动某项任务向前。”
我并没有证据证明这项工作是由 AI 生成的。这只是我在完整阅读后的主观感受——没有略读,也没有使用 AI 摘要。
以下是一些引起我注意的问题:
-
它没有兑现自己的承诺。它声称解释 AI 搜索的运作方式,但实际上只是罗列了错误的相关性,将分析对象与其所声称的分析内容混为一谈。
-
报告的样本规模不准确。
-
研究与文章被杂糅拼接在一起。
-
其中一个来源属于“某人说某人说某人说过什么”。
-
被引用的研究并未分析或得出元分析中所声称的结论。
-
所谓的“相关系数”并不是真正的相关系数,而是一个加权评分。
具体来说,它将 GEO 研究的年份错误标注为 2024 年,而非 2023 年,并声称该研究“证实”了结构化数据、列表和 FAQ 区块能显著提升内容被 AI 回答引用的概率。但对该研究的回顾表明,它根本没有得出这些结论。
这份分析乍看之下相当有说服力,看起来像是高质量的工作,但一旦仔细审视,就会在推敲下迅速崩塌。
免责声明:我特意只强调这一个案例,是因为它集中体现了我上一篇文章中提到的所有问题,也正好作为那篇文章的自然延续。
这项“研究”曾在新闻通讯、新闻网站和内容汇总中被广泛传播,吸引了大量关注。
接下来,让我们看看——在我看来——关于提升 AI 引用率的三条最为普遍的建议。
最常见的 GEO 迷思:主张 vs. 现实
构建一个 llms.txt”
支持这一做法的主张包括:
-
AI 聊天机器人可以拥有一个集中的重要信息来源,用于引用。
-
这是一个轻量级文件,能让 AI 爬虫更容易评估你的网站。
从“错误推断阶梯”的角度来看,llms.txt 的主张仍然停留在“陈述”层级。
其中有些部分在事实上是成立的——例如,Google 以及其他公司确实会抓取这些文件,Google 甚至会对它们进行索引并为关键词排序——这些都有数据支持。
然而,并不存在任何数据或证据表明 llms.txt 能提升内容被 AI 纳入或引用的概率,更谈不上证明。
现实情况是,llms.txt 只是一个在 2024 年提出的提案,之所以获得关注,主要是因为被一些有影响力的人反复放大传播。
它被不断重复,最终成了非黑即白争论中最令人疲惫的论点之一。
一方完全否定它,而另一方则将其奉为能解决所有 AI 可见性问题的“秘密圣杯”。
原始提案中还写道:
“我们进一步建议,网站上那些可能对 LLM 有用的页面,应在原页面相同的 URL 下提供一个干净的 Markdown 版本,只需在原 URL 后追加 .md。”
这种做法会导致站内竞争、重复内容,以及不必要的抓取量增加。
唯一一个 llms.txt 合理的使用场景,是当你运营的是一个复杂的 API,而 AI 代理确实能从中获得实质性价值时。
(目前有一个小规模实验表明,无论是 llms.txt 还是 .md 文件,都不会对 AI 引用产生影响。)
所以,如果我是你,我会这样做:
按季度进行:
-
查看 OpenAI、Anthropic、Google 等公司是否公开宣布对 llms.txt 的支持。
-
通过日志文件观察 llms.txt 的抓取量随时间的变化(即使你没有提供 llms.txt 文件,也可以进行这一步)。
-
如果官方明确支持,再按照已发布的文档规范创建 llms.txt。
截至目前,没有任何人拥有证据——更不用说证明——表明 llms.txt 会对你的 AI 可见性产生实质性影响。
“使用 Schema 标记”
支持这一做法的主张包括:
-
机器喜欢结构化数据。
-
一般来说,“让事情尽可能简单”这一建议是成立的。
-
“微软这么说过。”
最后这一点尤为离谱。没有任何人能提供 Fabrice Canel 的直接原话,或他据称说过这些话时的具体语境。
针对这一建议,并不存在可靠的数据或证据。
现实情况是这样的:
关于训练(Training)
-
文本会被抽取,HTML 元素会被剥离。
-
在预训练之后进行的分词(tokenization)会破坏代码的完整性,即便标记结构能进入这一步。
-
大语言模型的存在,本身就基于对非结构化内容的结构化。
-
它们之所以能处理并生成 Schema,是因为它们在训练中学会了这些结构。
-
但这并不意味着你单个页面上的标记结构会影响基础模型所掌握的知识。
关于落地引用(Grounding)
-
没有证据表明 AI 聊天机器人会访问 Schema 标记。
-
相关性研究显示,使用 Schema 标记的网站在 AI 可见性方面表现更好,但存在许多竞争性解释可以说明这一现象。
-
最近的实验(包括这项和那项)却得出了相反的结果:AI 聊天机器人可访问的工具并不使用 HTML。
-
我最近在 Perplexity Comet 中亲自测试过这一点。即便 DOM 是开放的,它仍然“幻觉”出了页面上并不存在、且与实际内容不匹配的 Schema 标记。
-
此外,当有人说他们使用“结构化数据”时,可能指的是 Schema,但并不一定是。
所有 Schema 都是结构化数据,但并非所有结构化数据都是 Schema。在大多数情况下,他们指的是合适的 HTML 元素,例如表格和列表。
所以,如果我是你,我会这样做:
-
为支持的富结果(rich results)使用 Schema 标记。
-
在 Schema 标记中使用所有相关属性。
你可能会问,为什么我仍然推荐这样做。对我来说,扎实的 Schema 标记是良好 SEO 的一种“卫生因素”(hygiene factor)。
仅仅因为 AI 聊天机器人和代理目前还不使用 Schema,并不意味着它们将来也不会使用。
有人可能会说:“llms.txt 也可以这么看。”这话没错,但 llms.txt 并没有任何 SEO 方面的收益。
Schema 标记并不能直接改善 AI 系统处理我们内容的方式。
相反,它能帮助提升 AI 系统经常参考的信号,例如搜索排名——无论是前 10 名,还是在需要大规模展开(fan-out)查询的场景中。
“提供新鲜内容”
..
支持这一做法的主张包括:
-
AI 聊天机器人偏好新鲜内容。
-
对某些查询和提示词来说,内容新鲜度很重要。
-
较新的或最近更新的内容应该更准确。
-
与 llms.txt 和 Schema 标记相比,这条建议在证据和数据层面拥有更加扎实的基础。
现实情况是:
基础模型所包含的内容,通常截止到 2022 年底。
在吸收了这些训练数据之后,它们需要新鲜内容——也就是被引用的外部来源——因此,被引用的内容平均而言必须更加新近。
如果“新鲜度”与某个查询相关——OpenAI、Anthropic 和 Perplexity 都会将新鲜度作为是否启用网页搜索的信号之一——那么寻找最新来源就变得非常重要。
来自 Ahrefs、Generative Pulse 和 Seer Interactive 的研究支持了这一假设。
最近,还有一篇学术论文同样支持了这些观点。
不过,关于那篇论文,需要注意几点:
-
研究人员使用的是 API 结果,而非用户界面;由于聊天机器人系统提示词和 API 设置不同,结果可能存在显著差异。Surfer 最近发布的一项研究展示了这种差异可能有多大。
-
要求模型进行重新排序(rerank),并不等同于模型或聊天机器人在后台实际执行排序的方式。
-
日期的注入方式高度人工化,呈现出几乎完美的负相关关系,这可能夸大了研究结果。
尽管如此,这条建议看起来是最有力的,在真正影响 AI 可见性和提升引用率方面,证据最为充分。
所以,如果我是你,我会这样做:
-
添加一个相关日期,明确标示内容的最近更新时间。
-
保持更新时间的一致性,包括:
-
页面内容本身
-
Schema 标记
-
Sitemap 中的
lastmod
-
-
定期更新内容,尤其是那些新鲜度很重要的查询。当包含日期时,AI 聊天机器人的 fan-out 查询往往会释放“新鲜度”信号。
-
**切勿仅通过修改日期来人为“更新”内容。**Google 最多会保存网页的 20 个历史版本,并且能够识别这种操纵行为。
换句话说,这一条建议看起来是正当且可靠的。
摆脱 AI 搜索错误信息的漩涡
我们必须避免把 AI 搜索的错误信息 一铲一铲地堆进我们行业的墙体里。
否则,它终将变成我们不得不再挖出来的**“石棉”**。
任何吸引眼球的标题,都应该立刻引起警惕。
我理解相信“看似已经形成共识”的观点,或使用 AI 来做摘要的诱惑——那样更省力,我们都很忙。
问题在于,在 AI 出现之前,内容就已经多到难以消化;而 AI 的出现,只让内容变得更多。
我们无法消费和分析所有信息,于是开始依赖同样的工具——不仅用它们来生成内容,也用它们来获取和理解内容。
这就成了一个蛇咬自己尾巴的循环。
我们的“压缩文化”正冒着风险:制造出一个 AI 搜索错误信息的漩涡,并不断回流进那些我们既爱又恨的 AI 聊天机器人的训练数据中。
事实上,我们已经身处其中了。AI 聊天机器人有时会直接基于模型内部知识来回答 GEO 问题。
花点时间独立思考,亲自下场去验证。
试着理解,为什么某些事情应该有效,或者为什么不应该有效。
永远不要不加质疑地接受任何说法,不管是谁说的。权威不等于准确。
附言:本文可能包含谎言。