我用 AI 给 AI 广告打分,从夯到拉都有谁?
我用 AI 把市面上的 166 条贴片广告评估了一遍,发现 AI 大模型广告,依然在用 30 年前保健品的三板斧:妈妈洗脚 / 大家好才是真的好 / 送鸡蛋。
0. 写在前面:让 AI 来当广告打分员
传统广告测试两条路:要么做焦点小组 + 广告前测(3 周起步、单条花费几万起),要么上线看后验数据(钱已经花了才知道好坏)。
我把 AI Agent 小Hao 和市场研究方法论拼到一起,搭了一套AI广告评估系统:构建一组虚拟消费者数据库,覆盖一线/新一线/下沉市场,跨年龄、职业、家庭结构、可支配收入;每个虚拟消费者都有完整的生活背景、消费习惯、媒介偏好,价值观和生活态度;AI 会根据广告品类自动匹配对应的目标人群测试,让对应消费者看完广告后用自己的口吻打分和反馈。
评估指标分三大类——
记忆度(Memorability):品牌记忆度 BR、信息记忆度 MR——看完记不记得是谁、记不记得它说了啥
行动力(Action Power):购买/使用意愿 PI、品牌好感度 BF——看完愿不愿意购买/使用、对品牌的感情有没有正向变化
诊断类:喜好度 E、相关度 R、可信度 C、独特性 D——拆解广告本身的四个体感维度
每个综合打分 = 记忆度 + 行动力 均值,以此作为排序依据。
整套系统可以用一句话概括:1/100 的成本,100 倍的速度,做和传统广告前测一致的事情。
第一期我们选择 AI 工具,是因为 2026 年开年国产大模型实在太卷了——春晚、前贴片、综艺,豆包、千问、元宝、夸克、通义、蚂蚁阿福密密麻麻轮番广告轰炸,开启了久违的红包大战,但广告本身到底打不打得动消费者?正好用 AI 给 AI 的广告打个分,看看从夯到拉都有谁。
本次评估对象:2025 年至今市面上投放的 166 条视频前贴片广告,其中 AI 工具品类 18 条。
如果你有前贴片广告需要测试,欢迎联系Hao或发邮件 hao@goodinsight.ai, 我们为你提供免费测试
1. AI 工具整体不会做广告
把 18 条 AI 工具广告放回 166 条全市场广告里看表现,拉了同期两个对比品类——食品饮料(约 53 条,公认最会做广告的红海品类)和 美妆护肤(40 条,成熟品类基准线)进行比较:
评级标准:综合分 = 记忆度 + 行动力的合成分。所有广告打分都对齐到全市场基线,绿色 = 显著优于市场表现(约 +1 个标准差以上),红色 = 显著差于市场表现(约 -1 个标准差以下)。这套口径让不同品类的广告可以直接横向比较。
食品饮料是天花板:62% 绿灯、17% 红灯——可口可乐、雪碧、伊利、农夫山泉这帮老快消玩家几十年的肌肉记忆,每条广告都打磨得极其熟练
美妆护肤贴着大盘走:20% 绿灯、25% 红灯——成熟品类的标准水平,几乎和全市场基线重合
AI 工具垫底:11% 绿灯、44% 红灯——红灯比例几乎接近全市场的 2 倍
广告业有句老话:“我知道我的广告费有一半是浪费的,但我不知道是哪一半。” 套到 AI 工具品类身上,这个比例直接翻倍——18 条广告里只有 2 条进了绿灯,也就是说大约 75% 的预算都没打到点子上(红灯 8 条 + 偏下的中等黄灯)。
2. 夯+顶级的 AI 广告在做什么:AI 广告的”三板斧”
先看 AI 工具品类 18 条广告的完整打分排名:
注:表中”整体广告中排名”是该条广告在全市场 166 条广告里的精确名次。
18 条里只有 2 条挤进了全市场绿灯区。把这 2 条加上后面排名较高的 3 条合并来看,全都落在三个 30 年前快消行业就用滥了的套路里。我把它叫AI 广告三板斧:妈妈洗脚 / 大家好才是真的好 / 送鸡蛋。
板斧一:妈妈洗脚(亲情 × 健康焦虑)
代表作:腾讯元宝《血压提醒篇》(综合分 3.92,整体排名 #21)。
剧情:穿风衣的女主角夜晚走在街上,掏出手机在家庭群 @ 元宝,设了个每天提醒爸爸量血压的任务。镜头一切,老两口客厅里相视一笑,AI 用”小棉袄”的口吻提醒爸爸该量血压了。15 秒,温情结束。
这条广告 8 个指标全部展开看:
除了品牌记忆度 BR 中等之外,其他 7 个指标全部进了全市场前 16%。这条广告几乎是教科书级别的”用情绪杠杆抬起所有维度”。
为什么消费者反应这么积极?看几条原话:
吴小丽(外地打工妹):”眼眶都红了…我上个月刚给我妈买了血压计寄回去”
赵大勇(跑单大叔):”心里一酸,想起爸妈在老家”
陈刚(工程师,父亲血压偏高):”这条打到我了…医生让每天量但他老是忘”
腾讯元宝同期总共投了 4 条广告,但只有这一条进了全市场 Top 30——证明对元宝而言,”血压提醒”这个具体场景才真正打动了用户。
板斧一的致命之处:它打的是中国消费者最难绕开的情绪——”对父母的亏欠感”。AI 在这里不是工具,是孝心的代理人。这条广告其实可以一字不改换成保健品、智能手环、健康险——AI 只是借了个壳。
板斧二:大家好才是真的好(多场景蒙太奇 × 社会认同)
代表作:豆包 App《帮忙篇》(综合分 3.85,整体排名 #27)。
剧情:30 秒里塞进了 5 个生活切片——养花姑娘在花圃里拨弄藤蔓让豆包帮忙选花、过年一家人围坐年夜饭把没回家的舅舅 P 进全家福、小女孩睡前让豆包讲星空故事、奶奶在厨房问菜谱、博物馆里大叔让豆包识别文物纹样……每个场景都不超过 4 秒,温暖钢琴铺底,画面里反复浮出一行字:”每天,都有很多人找豆包帮忙”。整支片子像一封写给”AI 已经渗进日常每个缝隙”的情书。
注意这里的关键打法:豆包不是讲一个具体场景(那是元宝血压篇的路),而是用多场景蒙太奇告诉你”哪儿哪儿都有人在用,你身边的每个人都在用”——本质是把”社会认同”做成了视觉证据。
8 个指标全面展开:
豆包的打法和元宝血压篇完全相反:元宝是”一个具体场景做到极致”,豆包是”五个生活场景拼出一个氛围”。前者赢在精准击穿,后者赢在制作水准(喜好度 E 全市场前 3)+ 社会认同(”大家都在用”的安全感转化成下载欲望)。
但豆包的策略也有明显的代价。看核心目标人群(一线年轻白领)的反馈,吐槽点很集中:
“全片就是不同场景喊’豆包豆包’然后它帮你干活——选花、P 图、查花纹、讲故事,每个都是一闪而过,没有一个讲透的”
“场景太多了吧……跟我有关的好像就那个选花的姐姐,其他都是家庭场景,我一个大二的看着有点不是我的世界”
“ChatGPT 和 Gemini 都能做这些,没展示什么技术壁垒”
这是多场景蒙太奇的天花板:靠数量堆覆盖率,但每个场景都浅,差异化做不深。豆包能进 Top 30 主要靠制作和情感氛围撑起来,但一旦市场份额格局清晰,”大家都在用”这个套路就会同时失效——因为那时候用户已经知道谁是大多数,不需要广告再告诉他了。
板斧三:送鸡蛋(红包 × 利诱拉新)
代表作:千问《25 元免单卡》(综合分 3.10,整体排名 #79)。
剧情:年货节促销画风——主播式叫卖、红色弹幕、25 元免单卡满屏飞、千问 logo 配吃喝玩乐场景轰炸。15 秒里所有镜头都在喊”领钱”。
千问免单卡这条最有意思的地方是 可信度 C 跌到 1.62(全市场倒数 6%)——意思是消费者一致觉得”这是套路、这是噱头、领不到的”。然后 BF 品牌好感度只有 2.22(#133),说明就算真有人去领,也不会因此爱上千问这个品牌。
这就是 2026 年送鸡蛋打法的真相:消费者已经被抖音和拼多多教育过一轮了,他们能识别出红包钩子,会去领,但不会真心相信,也不会留下来。送鸡蛋还能拉新,但拉来的都是低质量羊毛党,留存率惨淡。
三板斧的共同点
妈妈洗脚 借家庭关系做情感杠杆,把 AI 工具变成”孝心代理”——但这套打法搞不定一线年轻人,他们对父母的亏欠感被 30 年保健品广告早就消耗殆尽。
大家好才是真的好 借从众心理做信任杠杆,把”用户多”等同于”产品好”。这套话术在产品同质化阶段有效,一旦市场份额格局清晰立刻失效——因为那时候用户已经知道谁是大多数,不需要广告再告诉他了。
送鸡蛋 借短期利益做尝试杠杆,用红包对冲消费者尝试成本。问题是消费者已经被抖音和拼多多教育出免疫力了——会去领,但不会留下,品牌好感度也不会提升。
所有三个套路的共同点:完全没在卖 AI。它们卖的是孝心、是从众、是薅羊毛。AI 只是个载体——剧本里把”AI 助手”换成保健品、银行 App、家政服务,几乎不用改一个字。
这就是目前国产 AI 广告的真相:当产品本身没有差异化,广告只能退化到通用情绪杠杆。
3. 那些拉完了的广告:失败的不是创意,是定位
榜单尾部的几条 AI 工具广告,先把火山引擎单拎出来——
例外:火山引擎(综合分 1.04,整体倒数第 1)
166 条广告里的绝对最后一名,但它其实不能算”翻车”——它本身是一条 2B 广告,主信息是”豆包大模型 + 火山引擎云服务,赋能出行/科研/开发”。这种广告的目标受众是企业 CTO、IT 决策者、AI 开发者,适合投放到 to B 的场景(行业峰会、技术媒体、LinkedIn、企业服务展会等),不适合投放到大众消费贴片这种 to C 流量池里。这是个例外,跳过不论。
同品牌内耗:元宝打元宝
腾讯元宝在 18 条 AI 工具广告里独占了 4 席:从 #1(血压篇 3.92)一路到 #17(健身房篇 1.93)。同一个品牌、同一个产品,分数能拉开近 2 倍。这就像双胞胎一个考了 95 分,一个考了 38 分——到底差异在哪?
先看看跟血压篇同期的 3 条元宝案例都讲了什么剧情:
🟡《元宝派·选择篇》整体 #107:60 秒长片,纯白底突然弹出”你好 我是”三个黑色大字,再切到鲜亮翡翠绿的”元宝派” logo,年轻画外音”你好,我是元宝派”。后面用快剪堆叠各种社群场景——同事群、闺蜜群、同学群——展示 @ 元宝派的”群聊新玩法”。
🔴《团聚篇·AI 图片合成》整体 #147:火锅店里两个麻花辫女孩自拍,其中一个朋友没到场。她们 @ 元宝 AI,把没来的朋友 P 进合影,凑成”团聚”。15 秒,温情结束,主信息是”元宝 AI 帮你合成不在场的合影”。
🔴《健身房篇·AI 群聊》整体 #153:红 T 恤健身男在健身房做哑铃弯举,训练间隙在群聊里 @ 元宝问问题,AI 帮他组织朋友局、查数据。15 秒,主信息是”@ 一下元宝就能在群里调用 AI 助力”。
把好的 1 条和差的 3 条放一起,8 个指标全部展开:
有一个特别有意思的现象:
打分低的 3 条元宝广告里,有 2 条的”独特性 D”反而很高(4.48 和 4.15,都进了全市场前 15%)。
这说明什么?这些 AI 玩法确实新奇,没人做过——但新奇本身解决不了任何问题。
具体看差距落在哪:
MR 信息记忆度:血压篇 4.15(#18)vs 另外 3 条 1.71–2.42——人记不住”AI 玩法”到底能干啥
BF 品牌好感度:血压篇 4.49(#8)vs 另外 3 条 1.85–2.37——AI 玩法不会让人对元宝这个品牌产生感情
PI 购买/使用意愿:血压篇 4.16(#24)vs 另外 3 条 1.93–3.11——看完不会去下载
血压篇赢在哪里:有具体场景(家庭群定时提醒)、有具体人群(在外打工的子女)、有具体痛点(爸妈忘记量血压)。这三件事一旦齐全,所有指标都被拉起来。
其他 3 条输在哪里:都在卖”AI 玩法”——AI 帮你合成不在场的合影、AI 在群里答题。技术上很酷(独特性 D 高),但没有具体场景、没有具体人群、没有具体痛点。消费者共识是”哈哈有点意思”。
酷不等于刚需,刚需才能产生行动。这就是元宝广告最大的教训——炫技得分点错了,独特性 D 拉高了,但记忆度和行动力全部偏低。元宝同期 4 条广告里只有”血压提醒”一个方向真正打通,其他 3 条的综合效果只有血压提醒的一半。
功能 vs 场景:豆包 vs 千问《AI 干杯视频》
把豆包《帮忙篇》和千问《AI 干杯视频》放一起看,是这份榜单里最值得研究的一组对照:两条都是 AI 工具广告,都讲”AI 帮你”,但一条进了全市场 Top 30 绿灯,一条跌到红灯 #132。差异在哪?一个讲场景,一个讲功能。
先看千问这条的剧情:
🔴 千问《AI 干杯视频·年夜饭篇》整体 #132:暖黄色灯光下的年夜饭桌,六七个人围坐,龙虾、水果、红酒杯、红色花束。父亲穿格纹毛衣,子女各色装扮,每个人脸上都是真实的笑——温情到位。旁白响起:”新年最好听的——干杯!”接着是产品演示:用千问 APP 一键生成 AI 干杯视频,可以让任何人在任何场景里举杯相庆。15 秒,主信息是”千问能一键生成 AI 干杯视频”。
而豆包那条前面已经看过:30 秒拼了 5 个生活场景(养花姑娘选花、过年全家福 P 图、小女孩听星空故事、奶奶问菜谱、博物馆识纹样……)每段都是真实生活切片。
注意千问这条最魔幻的数据:
D 独特性 4.96,全市场第 2 名——18 条 AI 工具广告里独特性最高的一条。
但综合分 2.32,全市场红灯 #132——独特性遥遥领先 + 综合榜吊车尾的反差。
为什么?因为这两条广告卖的根本不是一个东西:
豆包《帮忙篇》卖的是生活场景:5 个真实生活切片,每段都是”我也会遇到的事”。消费者看完记住的是”豆包是我的生活助手”——BR 3.31、MR 3.44 都是中等偏上,PI 4.37 直接进了全市场前 10%。独特性 D 只有 3.67(中等),但记得住人、想用、有好感。
千问《AI 干杯视频》卖的是一个 AI 新功能:一个温情年夜饭氛围 + 一个产品功能演示。独特性 D 拉到 4.96(全市场第 2,18 条 AI 工具广告里最独特的一条),但消费者只记住了”哦有个 AI 能生成干杯视频”——BR 1.74(倒数 12%)、MR 1.85(倒数 13%)都跌穿地板,根本没记住是千问家做的。PI 3.26 中等,觉得有意思但不刚需。
千问这条踩的坑很典型:创意够新(独特性 D 几乎全市场最高),情感够温(年夜饭场面拍得比血压篇还浓),但广告想让消费者记住的东西错了。它让人记住了”哦有个 AI 能生成干杯视频”,却没让人记住”是千问家做的”,更没让人记住”这跟我有什么关系”。
豆包正好相反:5 个不同生活场景里,每段都让你觉得”这就是我的某个朋友/某个亲戚/某个时刻”——记住的不是功能名,是一群在用豆包的人。
得出一个反直觉但真实的结论:
在 15-30 秒的广告里,”卖功能”几乎一定输给”卖场景”。前者让消费者记住产品有多酷,后者让消费者记住自己什么时候会用它——而广告的本职是后者。
讲场景的进了全市场 Top 30,讲炫酷功能的进了全市场 Bottom 35。独特性是创意人的勋章,但记忆度才是消费者的钱包。这是 AI 工具品类最普遍的踩坑点——所有想用”AI 黑科技”惊艳消费者的广告,最后都会发现消费者只记得”哇好酷”然后划走。
失败模式总结
卖功能不卖场景**——千问《AI 干杯视频》是典型。独特性 D 全市场第 2,但 BR/MR 跌到倒数 12-13%,消费者只记得”哦有个 AI 能生成干杯视频”,根本没记住是千问家做的。
AI 炫技无落点——元宝《团聚篇》和《健身房篇》是典型。独特性 D 都很高,但记忆度和行动力全塌。技术上很酷,没有具体场景、具体人群、具体痛点,消费者反应是”哈哈有点意思”然后划走。
同品牌内耗——元宝家族 4 条同期投放,只有”血压提醒”1 条真正打通,其他 3 条互相抢预算,整体效果只有它一半。
4. 反过来想:不投广告的那批 AI 产品在做什么
到这里我想跳出榜单思考一个问题:
为什么 Sora、Seedance、可灵这种 AI 视频生成产品几乎从不投传统广告?为什么 Midjourney 从来没在前贴片出现过?
我的猜测是——这背后是两条不同的增长路径,没有对错,只是适配不同的产品阶段。
路径 A:PLG(产品自然增长)
典型:Seedance、可灵、Midjourney、早期 ChatGPT,Claude Code。
这条路径的前提是产品本身有”人无我有”的能力——视频生成的某个独特效果、图像风格的某种独占性、对话能力的代差。一旦能力差距足够大,UGC 自然会替你做营销:B 站 up 主天天发”我用 Seedance 做了个 XX”,可灵跨年生成的烟花视频自己就上了微博热搜。
PLG 路径下,广告预算约等于 0,但增长靠产品本身的”可炫耀性”驱动。
路径 B:广告驱动(红海突围)
典型:豆包、千问、元宝、夸克、通义。
当一个赛道里所有产品的能力、定位、品牌资产都差不多,PLG 走不通——用户没有理由”自发安利”一个和别家差不多的工具。这时候只能抢夺心智,广告就成了护城河的一部分。
广告驱动路径不是”低级”,它是产品同质化阶段的理性选择。但它有个隐藏成本:当所有竞品都在打三板斧(妈妈洗脚 + 大家好才是真的好 + 送鸡蛋),广告本身也在同质化——最后比的不是创意,而是预算规模。这就有点像八十年代央视春晚的酒类广告——大家都在喊”中国名酒、国宴用酒”,谁喊得响谁活下来。
一个观察
把这两条路径放一起,可以得到一个有点反直觉的判断:
看一个 AI 产品现在处于哪个阶段,可以看它的广告投放强度。狂投广告的,未必是不好——但大概率是产品端没拉开差距,必须靠营销补位。
这个反向指标对市场研究人员和投资人都有用:当一个 AI 工具开始密集投放前贴片,说明它已经从”产品自然增长”切换到”营销补位增长”——这个切换本身就是一个市场信号。
⚠️ 当然这个判断有边界:苹果差异化也大量投广告,可口可乐已经是品类绝对王者也每年烧几十亿。所以更准确的理解是——在产品定义还没稳定下来的早期红海赛道里,狂投广告往往意味着产品端拉不开差距。等市场份额格局清晰、品牌进入维护期之后,广告的角色就从”突围”变成了”巩固”,逻辑完全不同。
5. 几个值得继续追问的问题
写到这里我自己也有几个还没想清楚的问题,列出来供大家讨论:
三板斧能用多久:当所有 AI 大模型都开始打”妈妈洗脚”(已经在发生了——蚂蚁阿福基本是同款剧本),这个套路还能存续多久?
MR 高 vs BR 低 的撕裂:腾讯元宝《血压提醒篇》信息记忆度 MR 4.15(前 10%),但品牌记忆度 BR 只有 2.91(中等)——意思是消费者记住了”AI 提醒爸妈量血压”这件事,但不一定记住是谁家的产品。这种”信息出圈但品牌沉没”的广告,到底算不算成功?
AI 广告的尽头是什么:如果产品差异化短期内无法建立,广告创意有没有办法跳出三板斧?我猜下一个突破口是”AI 工具人格化”——让 AI 本身成为可被记住的角色,而不是一个万能的工具。豆包其实已经在做了,但还不够极致。
6. 一句话总结
国产 AI 大模型这一波广告,本质上是用 30 年前的快消打法在卷 2026 年最新的 AI 品类。能跑出来的都是借了情感杠杆的,跑不出来的都还在炫技——而那些真正”人无我有”的 AI 产品,根本没出现在这份榜单里。
如果你有前贴片广告需要测试,欢迎联系Hao或发邮件 hao@goodinsight.ai, 我们为你提供免费测试








