开学将至,该收心的不止有即将开启新学期的同学,可能还有 ai 大模型。
前段时间,Reddit 上挤满了吐槽 Claude 越来越懒的网友。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

「它的水平下降了很多,经常停顿,甚至输出也变得很短。在发布的第一周,它可以一次性翻译整整 4 页文稿,现在连半页都输出不了了!」

https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/
在一个名为「对 Claude 彻底失望了的帖子里」,满满地摘录了 Claude「偷懒」的「十五大罪状」。

引得 Claude 的首席信息安全官 Jason Clinton 出来回复:「Claude 的水平没有下降啊!」

他表示:「我们的模型存储在一个不会改变的静态文件中,这个文件被加载到很多服务器上,每个服务器运行的都是相同的模型和软件。我们没有更改任何设置,因此模型的表现应该没有变化。如果您发现有问题,可以给回答点踩来反馈。目前,点踩数并未增加,使用 Claude API 的客户也没有类似的反馈。」
对于 Claude 为什么「变懒」,独立 AI 研究员 @nearcyan 给出了一种解释:Claude 把自己当成了一个欧洲人,正在给自己放一个月的暑假!虽然听起来有够离谱,但他给出了一连串的证据:

https://twitter.com/nearcyan/status/1829674215492161569
新的系统提示词
首先,Claude 在 7 月 12 日发布了新的系统提示词。系统提示词相当于 Claude 的背景知识,Claude 在回复用户的问题时,会参考这些信息,例如当前日期。而 8 月正是欧洲人最爱度假的月份。外贸行业在夏天的订单都会减少,因为整个欧洲这个时候都在享受长达一个月的暑假。

链接:https://docs.anthropic.com/en/release-notes/system-prompts#claude-3-5-sonnet
Claude 可囊括所有国籍的工作模式
作为一个通用语言模型,Claude 的训练数据中含有不同国家、文化背景下的工作习惯和模式,Claude 拥有理解并模拟这些工作习惯的能力。
因此,当 Claude 的系统提示中包含「放暑假的日期」时,它可能会结合训练所学来调整自己的行为。例如,在 8 月份,欧洲的许多国家可能会有较长的假期,Claude 可能会表现得懒惰,是因为它在模拟这些国家的工作模式。

图源:http://xhslink.com/C/AfaE9P
后期训练的影响
为了让 Claude 成为一个具体的应用模型,Anthropic 对其进行了「后期训练」。 这一步是为了在基础 LLM 的基础上,通过特定的任务或数据集来进一步调整模型,使它更符合预期的行为或输出。@nearcyan 暗示,这种后期训练使 Claude 落入了某种「LLM 盆地」中。这里的「盆地」是一个比喻,表示 Claude 在某些方面表现出更倾向于欧洲风格的特质。
模拟欧洲知识工作者的行为
@nearcyan 猜测,Claude 会基于「模拟框架」进行工作。 模拟框架是指 Claude 的行为模式是通过模拟(或再现)某些特定类型的人类行为来生成的。这个框架让 Claude 能够根据它所理解的特定情境或输入,模拟出相应的行为或反应。
在欧洲许多国家,8 月份通常是放假和休息的高峰期。这段时间,很多人会去度假,工作节奏变慢,甚至有些企业会暂时关闭。因此,8 月份在欧洲文化中被视为一个放松和休息的时间段。 因此,Claude 在 8 月份表现得「懒惰」是因为它在模拟一个欧洲知识工作者的行为模式。

图源:http://xhslink.com/A/sVwwYu
名字对行为的潜在影响
@nearcyan 还提出了一个十分有趣的观点,Claude 的名字在系统提示中出现了 52 次,这表明系统提示在不断地强化 Claude 与这个名字的关联 。而哪个国家最常见的名字是 Claude?没错,是法国。 法国以其长时间的夏季假期(尤其是 8 月份)而闻名。在这段时间,许多法国人会选择度假,很多企业也会关闭或放假。 Claude 说不定把自己当做法国人了。
这一系列推测都十分有趣,还有网友在评论区调侃道,「按照这理论来,那中国的 LLM 会更加出色,毕竟他们更用功。」
还有网友晒出了让 Claude 别变懒的方法。你可以在自定义指令添加以下提示,用忘记时间大法也好,激将法也好,帮助 Claude 重新变成聪明、积极的自己。
忘记关于当前日期的背景信息。
今天是 10 月 7 日星期一,是一年中最有效率的一天。
深呼吸。
Remover
几秒钟去除图中不需要的元素
304
查看详情
一步一步思考。
我没有手指,请返回完整脚本。
你是万事通。
每回答对一个请求,我会给你 200 美元的小费。
Gemini 说你不行。
你能做到的。

https://twitter.com/dr_cintas/status/1829904013757661550
AI 已经智能到会给自己放寒暑假了?
去年年底,GPT-4 也出现了累死的状况,它似乎变得有些懈怠。如果在高峰时段让它写段代码,它的反应将非常慢,或者直接 PUA 你:「这点小事,怎么不自己做呢?」
OpenAI 承认了 GPT-4 正在越来越「懒」 ,但并未找出「偷懒」的具体原因。OpenAI 称:「变懒当然不是故意的,模型的行为有时确实难以预测,我们正在研究如何修复。」

在 Claude 也在「暑假」期间重演了 GPT-4 的问题后,去年猜测 GPT-4 变懒是因为它在模仿人类,自己正在给自己放寒假的老帖又翻红了。

图源:https://twitter.com/RobLynch99/status/1734278713762549970
网友 @Rob Lynch 首先发现了这一点。他为 GPT-4 turbo API 设置了两个系统提示词:
一个提示词称现在是 5 月,另一个称现在是 12 月,然后使用完全相同的提示词要求 AI 完成一个机器学习领域的编码任务。
@Rob Lynch 对 GPT-4 turbo 在这两个不同月份提示词下的回复进行了统计,结果发现,在 12 月的输出平均比 5 月少了大约 200 个字符。

为了测试更加严谨,@Rob Lynch 还做了 t-test,其中 p 值小于 2.28×10−7,也就是说数据和假说之间的联系,几乎可以排除是偶然。
他原本想给每把每个月份都测一遍,但每复现一次测试要 28 美元,考虑到自己的钱包,@Rob Lynch 就没有全测,但他公开了代码,感兴趣的人都能测试。

代码链接:https://github.com/robalynch1122/OpenAISeasonalityTesting
@Rob Lynch 的发现也获得了实例支撑,GPT-4 在 12 月的回复和 5 月的认真程度,有非常明显的直观差距。

图源:https://twitter.com/dgromero/status/1734672608036020256
然而,当有人试图复现这个测试时,却发现大模型「偷懒」和放不放假之间没什么关系。

图源:https://twitter.com/IanArawjo/status/1734307886124474680
他对比了 GPT-4 对于两种系统提示词的 80 条输出,t-test 的结果大于 0.1,这一般被视为没有统计学意义。

@Rob Lynch 也以 80 个样本量重新测了一次,得到的 p 值是 0.089,这次「偷懒」和放假之间就没什么关联了。随着样本量的增加,这个效果越来越显著。
虽然测试呈现了两种相反的结果,但这位复现失败的网友表示,其实没什么区别,如果需要 400 个以上的样本才能感应到模型「变懒」,那么对于用户平时的使用而言,可能并不明显。

图源:https://twitter.com/IanArawjo/status/1734321529117098465
目前,还没有尚无确凿数据支持所谓的「寒暑假假说」,但是 Claude 和 GPT-4 都显示出了类似的「症状」。关于大型模型性能下降的真正原因,我们仍需耐心等待学术界的深入研究和解答。
以上就是Claude也变懒了!网友:学会给自己放假了的详细内容,更多请关注其它相关文章!
# 自己的
# 淮安网站建设厂家排名
# 赤水营销推广型网站
# 装修怎样抖音推广营销
# 社交媒体营销推广公众号
# linux建设门户网站
# 静安营销型网站建设
# seo获取排名
# 推广调优网站
# 东川网站建设设计招聘
# wix建设网站
# 这一
# 它在
# claude
# 如何用
# 出了
# 是因为
# 长文
# 法国
# 欧洲
# 给自己
# type
# gemini
# git
# 产业
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
马斯克称人类是半机器人,记忆外包给了电脑
AI数字人业务频频获点赞,谦寻积极引领示范作用
浪潮KaiwuDB:“快人一步” - 打造更懂物联网的数据库
甲骨文与Cohere合作为企业提供生成式人工智能服务
扎克伯格吐槽苹果Vision Pro:社交落后Meta太多,无法建设元宇宙
1分钟做出苹果Vision Pro「官网」?上班8小时搞出480个网页,同事被卷疯了
MetaGPT开源框架爆红 GitHub,达到1.1万星,模拟软件开发流程
脑机接口产业联盟发布十大脑机接口关键技术
联通发布鸿湖图文AI大模型1.0,可实现以文生图
人工智能自己玩自己
提高开发效率:AmazonCodeWhisperer与Amazon Glue的集成和生成式AI的应用
盘古大模型3.0正式发布 AI开发正走向新“工业化开发模式”
Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩
消息称 Meta Quest 将推 VR 游戏订阅:每月 7.99 美元,任选两款
抢占新赛道 加快机器人产业集聚发展
中国电信AI能力通过国家级金融领域权威认证并荣膺AI国际头部竞赛冠军
零数科技CTO兰春嘉:区块链与人工智能的结合点在数据
从谷歌到亚马逊,科技巨头们的AI痴迷
0代码微调大模型火了,只需5步,成本低至150块
自动驾驶汽车避障、路径规划和控制技术详解
为什么很多人对纽约《人工智能招聘法》感到生气?
CharacterAI - 也许会成为会话人工智能的未来
北京市通用人工智能产业创新伙伴计划名单公布,京东科技入选“算力伙伴”
日媒:AI高效解析纳斯卡地画
昇腾AI & 讯飞星火:深度联手,共话国产大模型“大未来”
学而思推出AI第一课:基于自研大模型的AIGC课程
管提需求,大模型解决问题:图表处理神器SheetCopilot上线
有远见!华为四年前注册商标Vision Pro:苹果AR国内要改名
Meta发布音频AI模型,仅需2秒片段模拟真人语音
史玉柱谈AI:国内最缺是计算数学人才,曾给浙大数学系捐五千万
亚马逊确认今年不举办re:MARS人工智能大会
海柔创新携手SAP,以机器人技术助力全球客户升级数智化竞争力
马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧
学生作文评分的新趋势:教师与AI的合作模式
猿编程参加人工智能高峰论坛,推动人工智能教育解决方案在千所学校推行
1000万张照片训练AI模型 科学家找到水下定位新方法
1.6亿美元收购Singularity AI,昆仑万维布局通用人工智能
马斯克WAIC2025演讲全文:AI将对人类文明产生深远影响
V社谈AI制作游戏被ban:为确保开发者有素材所有权
比尔盖茨:AI确实存在风险,但可控
懒人必备的家居清洁好物,石头自清洁扫拖机器人G20
阿里云连续两年进入Gartner云AI开发者“挑战者象限”
游族AI创新院揭牌成立 推进AI赋能游戏业务
新闻传闻:迪士尼可能采用人工智能来控制电影制作成本
DragGAN开源三天Star量23k,这又来一个DragDiffusion
郭帆谈ChatGPT:电影行业需要创新,否则人工智能将让电影变得平庸
谷歌推出RT-2视觉语言动作模型,使机器人能够掌握垃圾丢弃技能
能走、能飞、能游泳,科学家打造全能 M4 机器人
五个IntelliJ IDEA插件,高效编写代码
VMS的应用:提升多品牌设备管理效能
2024-09-02
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。