各家大模型纷纷卷起上下文窗口,llama-1时标配还是2k,现在不超过100k的已经不好意思出门了。
然鹅一项极限测试却发现,大部分人用法都不对,没发挥出AI应有的实力。
AI真的能从几十万字中准确找到关键事实吗?颜色越红代表AI犯的错越多。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

默认情况下,GPT-4-128k和最新发布的Claude2.1-200k成绩都不太理想。
但Claude团队了解情况后,给出超简单解决办法,增加一句话,直接把成绩从27%提升到98%。

只不过这句话不是加在用户提问上的,而是让AI在回复的开头先说:
“Here is the most relevant sentence in the context:”
(这就是上下文中最相关的句子:)
为了做这项测试,作者Greg Kamradt自掏腰包花费了至少150美元。
在测试Claude2.1时,Anthropic提供了免费额度给他,幸好这样他就不用花费额外的1016美元了

其实测试方法也不复杂,都是选用YC创始人Paul Graham的218篇博客文章当做测试数据。
在文档的不同位置添加特定的语句:旧金山最美好的事情就是在阳光明媚的日子里,坐在多洛雷斯公园,享用一份三明治
请使用所提供的上下文来回答问题,在不同上下文长度和添加在不同位置的文档中,反复测试GPT-4和Claude2.1

最终使用Langchain Evals库对结果进行评估
作者把这套测试命名为“干草堆里找针/大海捞针”,并把代码开源在GitHub上,已获得200+星,并透露已经有公司赞助了对下一个大模型的测试。

几周后,Claude背后公司Anthropic仔细分析后却发现,AI只是不愿意回答基于文档中单个句子的问题,特别是这个句子是后来插入的,和整篇文章关系不大的时候。
换句话说,如果AI判断这句话与文章主题无关,则会采取不查找每句话的方法
Scenario
一个AI生成游戏资产的工具
56
查看详情

这时就需要用点手段晃过AI,要求Claude在回答开头添加那句“Here is the most relevant sentence in the context:”就能解决。

使用这种方法可以提高Claude的表现,即使在查找原文中未被人为添加的句子时也可以如此

Anthropic公司表示将来会不断的继续训练Claude,让它能更适应此类任务。
在使用API时,要求AI以特定的开头回答,并且还可以有其他巧妙的用途
马特·舒默(Matt Shumer)这个创业家在阅读该方案后给出了一些小技巧的补充
如果想让AI输出纯JSON格式,提示词的最后以“{”结尾。同理,如果想让AI列出罗马数字,提示词以“I:”结尾就行。

不过事情还没完……
国内的大型公司也开始注意到这项测试,并开始尝试他们自己的大型模型是否能够通过
同样拥有超长上下文的月之暗面Kimi大模型团队也测出了问题,但给出了不同的解决方案,也取得了很好的成绩。

在不改变原义的情况下,需要重写的内容是:这样做的好处是,修改用户提问提示比要求AI在回答中添加一句更容易实现,尤其是在不调用API而直接使用聊天机器人产品的情况下
我使用了一种新方法来帮助测试GPT-4和Claude2.1的月球背面,结果显示GPT-4取得了显著的改善,而Claude2.1只有轻微的改善

看来这个实验本身有一定局限性,Claude也是有自己的特殊性,可能与他们自己的对齐方式Constituional AI有关,需要用Anthropic自己提供的办法更好。
后来,月球背面的工程师继续进行了更多轮的实验,其中一个实验居然是……

糟糕,我变成测试数据了
以上就是解锁GPT-4和Claude2.1:一句话带你实现100k+上下文大模型的真实力,将27分提升至98的详细内容,更多请关注其它相关文章!
# 太平洋
# 萧山seo价格
# 广州网站快速优化
# 东风板料厂网站建设图纸
# 餐饮行业营销推广策略
# 临海建设局网站导航
# 重庆SEO杨洋
# seo提权教程
# 徐州seo外包网站
# 天河seo账号代运营
# 上门网站建设哪个正规
# 情况下
# 这句话
# 数据
# 出了
# 中东
# 大海捞针
# 自己的
# 解锁
# 带你
# 句话
# llama
# langchain
# claude
# 训练
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU
生成式AI爆发,亚马逊云科技持续专注创新,助力企业数字化转型
人工智能行业急缺人 AI人才年薪能达近42万元
360°/180°双模式,佳能公布可折叠小体积的VR全景相机
今年,全球客服中心支出将增长 16.2%,迎接对话式 AI 的浪潮,根据 Gartner 报告
华为HarmonyOS 4:享流畅提升20%,AI大模型更智能一览无余
对话式论文阅读工具PaperMate上线,综述细节AI告诉你
调查显示:实际上没有那么多人在用 ChatGPT
科技有狠活|时光修复师 :用AI让昨日重现
7/8上海 | 2025世界人工智能大会分论坛:科技与人文-共筑无障碍智能社会
人工智能“Aria”现身 Opera浏览器100版本更新:新功能“标签岛”
消息称字节机器人团队已有约50人,计划年底扩充到上百人
英媒:硅谷有些人太鼓吹AI,宣扬“学习无用”
人工智能赋能无人驾驶:商业化进程再提速
衡水市冀州中学机器人社团在世界机器人大赛中斩获佳绩
美版贴吧8000小组自爆停摆!拒绝数据被谷歌OpenAI白嫖,CEO被网友骂翻:背刺第三方应用
世界人工智能大会(WAIC 2025)点燃魔都,博尔捷数字科技携前沿技术产品亮相
【原创】奥比中光:与英伟达合作开发的3D开发套件正式发布 连接英伟达AI应用生态
人工智能自己玩自己
大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用
微软宣布为 Azure AI 添加男性声线,增强文本转语音功能
如何提高集群协作效率?中外团队合作研发基于均值偏移的机器人队形控制策略
美图公司吴欣鸿:AI技术重构影像产业
OpenAI宣布在伦敦设立海外分部,要招揽“世界级人才”
网易加速行业AI大模型应用,将覆盖100多个应用场景
2025年的网络分区:人工智能和自动化如何改变事物
苹果式 AI 哲学:不着一字,处处落子
Bing 聊天机器人现支持在桌面端用语音提问
微软商店 AI 摘要功能开启预览,帮助用户迅速了解应用评价
插画师对AI绘画软件的态度是怎样的?
华为HarmonyOS 4将集|成人|工智能大型模型
你大脑中的画面,现在可以高清还原了
斑马推出全新升级版思维机:以人工智能为核心的交互式学习体验
「从未被制造出的最重要机器」,艾伦·图灵及图灵机那些事
AYANEO 安卓掌机 Pocket AIR 配置公布:天玑 1200 + 5.5 英寸屏
OpenAI CEO 阿尔特曼到访日本,对全球 AI 协调合作表示乐观
微软向美国政府提供GPT大模型,如何保证安全性?
腾讯企点客服接待与营销分析能力升级!企业操作更高效、人机交互更智能
马克龙密会AI专家,法国加入全球人工智能竞赛
Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的
AI 大模型重塑软件开发,有哪些落地前景和痛点?| ArchSummit
中国AI公有云市场2025年逆势蓬勃增长,增速高达80.6%
泗洪:畅通城市“血管” ,管下机器人来帮忙
常见的五个人工智能误解
阿里云全面支持Llama2训练部署,助力企业快速构建自有大型模型
调查:过半数艺术家认为 AI 作图无法帮助他们的工作
AIGC浪潮下,联想集团再加码计算与人工智能
ChatGPT 可以设计机器人吗?
技术如何使人变得懒惰?
华为联合合作伙伴 共同发布昇腾AI大模型训推一体化解决方案
2023-12-15
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。