我用 AI 给 AI 广告打分，从夯到拉都有谁？

我用 AI 把市面上的 166 条贴片广告评估了一遍，发现 AI 大模型广告，依然在用 30 年前保健品的三板斧：妈妈洗脚 / 大家好才是真的好 / 送鸡蛋。

Apr 09, 2026

0. 写在前面：让 AI 来当广告打分员

传统广告测试两条路：要么做焦点小组 + 广告前测（3 周起步、单条花费几万起），要么上线看后验数据（钱已经花了才知道好坏）。

我把 AI Agent 小Hao 和市场研究方法论拼到一起，搭了一套AI广告评估系统：构建一组虚拟消费者数据库，覆盖一线/新一线/下沉市场，跨年龄、职业、家庭结构、可支配收入；每个虚拟消费者都有完整的生活背景、消费习惯、媒介偏好，价值观和生活态度；AI 会根据广告品类自动匹配对应的目标人群测试，让对应消费者看完广告后用自己的口吻打分和反馈。

评估指标分三大类——

记忆度（Memorability）：品牌记忆度 BR、信息记忆度 MR——看完记不记得是谁、记不记得它说了啥
行动力（Action Power）：购买/使用意愿 PI、品牌好感度 BF——看完愿不愿意购买/使用、对品牌的感情有没有正向变化
诊断类：喜好度 E、相关度 R、可信度 C、独特性 D——拆解广告本身的四个体感维度

每个综合打分 = 记忆度 + 行动力均值，以此作为排序依据。

整套系统可以用一句话概括：1/100 的成本，100 倍的速度，做和传统广告前测一致的事情。

第一期我们选择 AI 工具，是因为 2026 年开年国产大模型实在太卷了——春晚、前贴片、综艺，豆包、千问、元宝、夸克、通义、蚂蚁阿福密密麻麻轮番广告轰炸，开启了久违的红包大战，但广告本身到底打不打得动消费者？正好用 AI 给 AI 的广告打个分，看看从夯到拉都有谁。

本次评估对象：2025 年至今市面上投放的 166 条视频前贴片广告，其中 AI 工具品类 18 条。

如果你有前贴片广告需要测试，欢迎联系Hao或发邮件 hao@goodinsight.ai, 我们为你提供免费测试

1. AI 工具整体不会做广告

把 18 条 AI 工具广告放回 166 条全市场广告里看表现，拉了同期两个对比品类——食品饮料（约 53 条，公认最会做广告的红海品类）和 美妆护肤（40 条，成熟品类基准线）进行比较：

评级标准：综合分 = 记忆度 + 行动力的合成分。所有广告打分都对齐到全市场基线，绿色 = 显著优于市场表现（约 +1 个标准差以上），红色 = 显著差于市场表现（约 -1 个标准差以下）。这套口径让不同品类的广告可以直接横向比较。

食品饮料是天花板：62% 绿灯、17% 红灯——可口可乐、雪碧、伊利、农夫山泉这帮老快消玩家几十年的肌肉记忆，每条广告都打磨得极其熟练
美妆护肤贴着大盘走：20% 绿灯、25% 红灯——成熟品类的标准水平，几乎和全市场基线重合
AI 工具垫底：11% 绿灯、44% 红灯——红灯比例几乎接近全市场的 2 倍

广告业有句老话：“我知道我的广告费有一半是浪费的，但我不知道是哪一半。” 套到 AI 工具品类身上，这个比例直接翻倍——18 条广告里只有 2 条进了绿灯，也就是说大约 75% 的预算都没打到点子上（红灯 8 条 + 偏下的中等黄灯）。

2. 夯+顶级的 AI 广告在做什么：AI 广告的”三板斧”

先看 AI 工具品类 18 条广告的完整打分排名：

注：表中”整体广告中排名”是该条广告在全市场 166 条广告里的精确名次。

18 条里只有 2 条挤进了全市场绿灯区。把这 2 条加上后面排名较高的 3 条合并来看，全都落在三个 30 年前快消行业就用滥了的套路里。我把它叫AI 广告三板斧：妈妈洗脚 / 大家好才是真的好 / 送鸡蛋。

板斧一：妈妈洗脚（亲情 × 健康焦虑）

代表作：腾讯元宝《血压提醒篇》（综合分 3.92，整体排名 #21）。

剧情：穿风衣的女主角夜晚走在街上，掏出手机在家庭群 @ 元宝，设了个每天提醒爸爸量血压的任务。镜头一切，老两口客厅里相视一笑，AI 用”小棉袄”的口吻提醒爸爸该量血压了。15 秒，温情结束。

这条广告 8 个指标全部展开看：

除了品牌记忆度 BR 中等之外，其他 7 个指标全部进了全市场前 16%。这条广告几乎是教科书级别的”用情绪杠杆抬起所有维度”。

为什么消费者反应这么积极？看几条原话：

吴小丽（外地打工妹）：”眼眶都红了…我上个月刚给我妈买了血压计寄回去”
赵大勇（跑单大叔）：”心里一酸，想起爸妈在老家”
陈刚（工程师，父亲血压偏高）：”这条打到我了…医生让每天量但他老是忘”

腾讯元宝同期总共投了 4 条广告，但只有这一条进了全市场 Top 30——证明对元宝而言，”血压提醒”这个具体场景才真正打动了用户。

板斧一的致命之处：它打的是中国消费者最难绕开的情绪——”对父母的亏欠感”。AI 在这里不是工具，是孝心的代理人。这条广告其实可以一字不改换成保健品、智能手环、健康险——AI 只是借了个壳。

板斧二：大家好才是真的好（多场景蒙太奇 × 社会认同）

代表作：豆包 App《帮忙篇》（综合分 3.85，整体排名 #27）。

剧情：30 秒里塞进了 5 个生活切片——养花姑娘在花圃里拨弄藤蔓让豆包帮忙选花、过年一家人围坐年夜饭把没回家的舅舅 P 进全家福、小女孩睡前让豆包讲星空故事、奶奶在厨房问菜谱、博物馆里大叔让豆包识别文物纹样……每个场景都不超过 4 秒，温暖钢琴铺底，画面里反复浮出一行字：”每天，都有很多人找豆包帮忙”。整支片子像一封写给”AI 已经渗进日常每个缝隙”的情书。

注意这里的关键打法：豆包不是讲一个具体场景（那是元宝血压篇的路），而是用多场景蒙太奇告诉你”哪儿哪儿都有人在用，你身边的每个人都在用”——本质是把”社会认同”做成了视觉证据。

8 个指标全面展开：

豆包的打法和元宝血压篇完全相反：元宝是”一个具体场景做到极致”，豆包是”五个生活场景拼出一个氛围”。前者赢在精准击穿，后者赢在制作水准（喜好度 E 全市场前 3）+ 社会认同（”大家都在用”的安全感转化成下载欲望）。

但豆包的策略也有明显的代价。看核心目标人群（一线年轻白领）的反馈，吐槽点很集中：

“全片就是不同场景喊’豆包豆包’然后它帮你干活——选花、P 图、查花纹、讲故事，每个都是一闪而过，没有一个讲透的”
“场景太多了吧……跟我有关的好像就那个选花的姐姐，其他都是家庭场景，我一个大二的看着有点不是我的世界”
“ChatGPT 和 Gemini 都能做这些，没展示什么技术壁垒”

这是多场景蒙太奇的天花板：靠数量堆覆盖率，但每个场景都浅，差异化做不深。豆包能进 Top 30 主要靠制作和情感氛围撑起来，但一旦市场份额格局清晰，”大家都在用”这个套路就会同时失效——因为那时候用户已经知道谁是大多数，不需要广告再告诉他了。

板斧三：送鸡蛋（红包 × 利诱拉新）

代表作：千问《25 元免单卡》（综合分 3.10，整体排名 #79）。

剧情：年货节促销画风——主播式叫卖、红色弹幕、25 元免单卡满屏飞、千问 logo 配吃喝玩乐场景轰炸。15 秒里所有镜头都在喊”领钱”。

千问免单卡这条最有意思的地方是 可信度 C 跌到 1.62（全市场倒数 6%）——意思是消费者一致觉得”这是套路、这是噱头、领不到的”。然后 BF 品牌好感度只有 2.22（#133），说明就算真有人去领，也不会因此爱上千问这个品牌。

这就是 2026 年送鸡蛋打法的真相：消费者已经被抖音和拼多多教育过一轮了，他们能识别出红包钩子，会去领，但不会真心相信，也不会留下来。送鸡蛋还能拉新，但拉来的都是低质量羊毛党，留存率惨淡。

三板斧的共同点

妈妈洗脚 借家庭关系做情感杠杆，把 AI 工具变成”孝心代理”——但这套打法搞不定一线年轻人，他们对父母的亏欠感被 30 年保健品广告早就消耗殆尽。

大家好才是真的好 借从众心理做信任杠杆，把”用户多”等同于”产品好”。这套话术在产品同质化阶段有效，一旦市场份额格局清晰立刻失效——因为那时候用户已经知道谁是大多数，不需要广告再告诉他了。

送鸡蛋 借短期利益做尝试杠杆，用红包对冲消费者尝试成本。问题是消费者已经被抖音和拼多多教育出免疫力了——会去领，但不会留下，品牌好感度也不会提升。

所有三个套路的共同点：完全没在卖 AI。它们卖的是孝心、是从众、是薅羊毛。AI 只是个载体——剧本里把”AI 助手”换成保健品、银行 App、家政服务，几乎不用改一个字。

这就是目前国产 AI 广告的真相：当产品本身没有差异化，广告只能退化到通用情绪杠杆。

3. 那些拉完了的广告：失败的不是创意，是定位

榜单尾部的几条 AI 工具广告，先把火山引擎单拎出来——

例外：火山引擎（综合分 1.04，整体倒数第 1）

166 条广告里的绝对最后一名，但它其实不能算”翻车”——它本身是一条 2B 广告，主信息是”豆包大模型 + 火山引擎云服务，赋能出行/科研/开发”。这种广告的目标受众是企业 CTO、IT 决策者、AI 开发者，适合投放到 to B 的场景（行业峰会、技术媒体、LinkedIn、企业服务展会等），不适合投放到大众消费贴片这种 to C 流量池里。这是个例外，跳过不论。

同品牌内耗：元宝打元宝

腾讯元宝在 18 条 AI 工具广告里独占了 4 席：从 #1（血压篇 3.92）一路到 #17（健身房篇 1.93）。同一个品牌、同一个产品，分数能拉开近 2 倍。这就像双胞胎一个考了 95 分，一个考了 38 分——到底差异在哪？

先看看跟血压篇同期的 3 条元宝案例都讲了什么剧情：

🟡《元宝派·选择篇》整体 #107：60 秒长片，纯白底突然弹出”你好我是”三个黑色大字，再切到鲜亮翡翠绿的”元宝派” logo，年轻画外音”你好，我是元宝派”。后面用快剪堆叠各种社群场景——同事群、闺蜜群、同学群——展示 @ 元宝派的”群聊新玩法”。

🔴《团聚篇·AI 图片合成》整体 #147：火锅店里两个麻花辫女孩自拍，其中一个朋友没到场。她们 @ 元宝 AI，把没来的朋友 P 进合影，凑成”团聚”。15 秒，温情结束，主信息是”元宝 AI 帮你合成不在场的合影”。

🔴《健身房篇·AI 群聊》整体 #153：红 T 恤健身男在健身房做哑铃弯举，训练间隙在群聊里 @ 元宝问问题，AI 帮他组织朋友局、查数据。15 秒，主信息是”@ 一下元宝就能在群里调用 AI 助力”。

把好的 1 条和差的 3 条放一起，8 个指标全部展开：

有一个特别有意思的现象：

打分低的 3 条元宝广告里，有 2 条的”独特性 D”反而很高（4.48 和 4.15，都进了全市场前 15%）。

这说明什么？这些 AI 玩法确实新奇，没人做过——但新奇本身解决不了任何问题。

具体看差距落在哪：

MR 信息记忆度：血压篇 4.15（#18）vs 另外 3 条 1.71–2.42——人记不住”AI 玩法”到底能干啥
BF 品牌好感度：血压篇 4.49（#8）vs 另外 3 条 1.85–2.37——AI 玩法不会让人对元宝这个品牌产生感情
PI 购买/使用意愿：血压篇 4.16（#24）vs 另外 3 条 1.93–3.11——看完不会去下载

血压篇赢在哪里：有具体场景（家庭群定时提醒）、有具体人群（在外打工的子女）、有具体痛点（爸妈忘记量血压）。这三件事一旦齐全，所有指标都被拉起来。

其他 3 条输在哪里：都在卖”AI 玩法”——AI 帮你合成不在场的合影、AI 在群里答题。技术上很酷（独特性 D 高），但没有具体场景、没有具体人群、没有具体痛点。消费者共识是”哈哈有点意思”。

酷不等于刚需，刚需才能产生行动。这就是元宝广告最大的教训——炫技得分点错了，独特性 D 拉高了，但记忆度和行动力全部偏低。元宝同期 4 条广告里只有”血压提醒”一个方向真正打通，其他 3 条的综合效果只有血压提醒的一半。

功能 vs 场景：豆包 vs 千问《AI 干杯视频》

把豆包《帮忙篇》和千问《AI 干杯视频》放一起看，是这份榜单里最值得研究的一组对照：两条都是 AI 工具广告，都讲”AI 帮你”，但一条进了全市场 Top 30 绿灯，一条跌到红灯 #132。差异在哪？一个讲场景，一个讲功能。

先看千问这条的剧情：

🔴 千问《AI 干杯视频·年夜饭篇》整体 #132：暖黄色灯光下的年夜饭桌，六七个人围坐，龙虾、水果、红酒杯、红色花束。父亲穿格纹毛衣，子女各色装扮，每个人脸上都是真实的笑——温情到位。旁白响起：”新年最好听的——干杯！”接着是产品演示：用千问 APP 一键生成 AI 干杯视频，可以让任何人在任何场景里举杯相庆。15 秒，主信息是”千问能一键生成 AI 干杯视频”。

而豆包那条前面已经看过：30 秒拼了 5 个生活场景（养花姑娘选花、过年全家福 P 图、小女孩听星空故事、奶奶问菜谱、博物馆识纹样……）每段都是真实生活切片。

注意千问这条最魔幻的数据：

D 独特性 4.96，全市场第 2 名——18 条 AI 工具广告里独特性最高的一条。
但综合分 2.32，全市场红灯 #132——独特性遥遥领先 + 综合榜吊车尾的反差。

为什么？因为这两条广告卖的根本不是一个东西：

豆包《帮忙篇》卖的是生活场景：5 个真实生活切片，每段都是”我也会遇到的事”。消费者看完记住的是”豆包是我的生活助手”——BR 3.31、MR 3.44 都是中等偏上，PI 4.37 直接进了全市场前 10%。独特性 D 只有 3.67（中等），但记得住人、想用、有好感。

千问《AI 干杯视频》卖的是一个 AI 新功能：一个温情年夜饭氛围 + 一个产品功能演示。独特性 D 拉到 4.96（全市场第 2，18 条 AI 工具广告里最独特的一条），但消费者只记住了”哦有个 AI 能生成干杯视频”——BR 1.74（倒数 12%）、MR 1.85（倒数 13%）都跌穿地板，根本没记住是千问家做的。PI 3.26 中等，觉得有意思但不刚需。

千问这条踩的坑很典型：创意够新（独特性 D 几乎全市场最高），情感够温（年夜饭场面拍得比血压篇还浓），但广告想让消费者记住的东西错了。它让人记住了”哦有个 AI 能生成干杯视频”，却没让人记住”是千问家做的”，更没让人记住”这跟我有什么关系”。

豆包正好相反：5 个不同生活场景里，每段都让你觉得”这就是我的某个朋友/某个亲戚/某个时刻”——记住的不是功能名，是一群在用豆包的人。

得出一个反直觉但真实的结论：

在 15-30 秒的广告里，”卖功能”几乎一定输给”卖场景”。前者让消费者记住产品有多酷，后者让消费者记住自己什么时候会用它——而广告的本职是后者。

讲场景的进了全市场 Top 30，讲炫酷功能的进了全市场 Bottom 35。独特性是创意人的勋章，但记忆度才是消费者的钱包。这是 AI 工具品类最普遍的踩坑点——所有想用”AI 黑科技”惊艳消费者的广告，最后都会发现消费者只记得”哇好酷”然后划走。

失败模式总结

卖功能不卖场景**——千问《AI 干杯视频》是典型。独特性 D 全市场第 2，但 BR/MR 跌到倒数 12-13%，消费者只记得”哦有个 AI 能生成干杯视频”，根本没记住是千问家做的。

AI 炫技无落点——元宝《团聚篇》和《健身房篇》是典型。独特性 D 都很高，但记忆度和行动力全塌。技术上很酷，没有具体场景、具体人群、具体痛点，消费者反应是”哈哈有点意思”然后划走。

同品牌内耗——元宝家族 4 条同期投放，只有”血压提醒”1 条真正打通，其他 3 条互相抢预算，整体效果只有它一半。

4. 反过来想：不投广告的那批 AI 产品在做什么

到这里我想跳出榜单思考一个问题：

为什么 Sora、Seedance、可灵这种 AI 视频生成产品几乎从不投传统广告？为什么 Midjourney 从来没在前贴片出现过？

我的猜测是——这背后是两条不同的增长路径，没有对错，只是适配不同的产品阶段。

路径 A：PLG（产品自然增长）

典型：Seedance、可灵、Midjourney、早期 ChatGPT，Claude Code。

这条路径的前提是产品本身有”人无我有”的能力——视频生成的某个独特效果、图像风格的某种独占性、对话能力的代差。一旦能力差距足够大，UGC 自然会替你做营销：B 站 up 主天天发”我用 Seedance 做了个 XX”，可灵跨年生成的烟花视频自己就上了微博热搜。

PLG 路径下，广告预算约等于 0，但增长靠产品本身的”可炫耀性”驱动。

路径 B：广告驱动（红海突围）

典型：豆包、千问、元宝、夸克、通义。

当一个赛道里所有产品的能力、定位、品牌资产都差不多，PLG 走不通——用户没有理由”自发安利”一个和别家差不多的工具。这时候只能抢夺心智，广告就成了护城河的一部分。

广告驱动路径不是”低级”，它是产品同质化阶段的理性选择。但它有个隐藏成本：当所有竞品都在打三板斧（妈妈洗脚 + 大家好才是真的好 + 送鸡蛋），广告本身也在同质化——最后比的不是创意，而是预算规模。这就有点像八十年代央视春晚的酒类广告——大家都在喊”中国名酒、国宴用酒”，谁喊得响谁活下来。

一个观察

把这两条路径放一起，可以得到一个有点反直觉的判断：

看一个 AI 产品现在处于哪个阶段，可以看它的广告投放强度。狂投广告的，未必是不好——但大概率是产品端没拉开差距，必须靠营销补位。

这个反向指标对市场研究人员和投资人都有用：当一个 AI 工具开始密集投放前贴片，说明它已经从”产品自然增长”切换到”营销补位增长”——这个切换本身就是一个市场信号。

⚠️ 当然这个判断有边界：苹果差异化也大量投广告，可口可乐已经是品类绝对王者也每年烧几十亿。所以更准确的理解是——在产品定义还没稳定下来的早期红海赛道里，狂投广告往往意味着产品端拉不开差距。等市场份额格局清晰、品牌进入维护期之后，广告的角色就从”突围”变成了”巩固”，逻辑完全不同。

5. 几个值得继续追问的问题

写到这里我自己也有几个还没想清楚的问题，列出来供大家讨论：

三板斧能用多久：当所有 AI 大模型都开始打”妈妈洗脚”（已经在发生了——蚂蚁阿福基本是同款剧本），这个套路还能存续多久？

MR 高 vs BR 低的撕裂：腾讯元宝《血压提醒篇》信息记忆度 MR 4.15（前 10%），但品牌记忆度 BR 只有 2.91（中等）——意思是消费者记住了”AI 提醒爸妈量血压”这件事，但不一定记住是谁家的产品。这种”信息出圈但品牌沉没”的广告，到底算不算成功？

AI 广告的尽头是什么：如果产品差异化短期内无法建立，广告创意有没有办法跳出三板斧？我猜下一个突破口是”AI 工具人格化”——让 AI 本身成为可被记住的角色，而不是一个万能的工具。豆包其实已经在做了，但还不够极致。

6. 一句话总结

国产 AI 大模型这一波广告，本质上是用 30 年前的快消打法在卷 2026 年最新的 AI 品类。能跑出来的都是借了情感杠杆的，跑不出来的都还在炫技——而那些真正”人无我有”的 AI 产品，根本没出现在这份榜单里。

如果你有前贴片广告需要测试，欢迎联系Hao或发邮件 hao@goodinsight.ai, 我们为你提供免费测试

Share 好AI营销周报

好AI营销周报

Discussion about this post

Ready for more?