gpt-4解决网络名梗“吉娃娃or蓝莓松饼”,一度惊艳无数人。
然而,如今它被指控为“作弊”!
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图片
全用原题中出现的图,只是打乱顺序和排列方式。
最新版本的GPT-4以其全模式合一的特点而闻名。然而,令人惊讶的是,它在识别图片数量方面出现了错误,而且连原本能够正确识别的吉娃娃也出现了识别错误
图片
GPT-4在原图上表现出色的原因是什么呢?
根据UCSC助理教授Xin Eric Wang的猜测,搞这项测试的原因是因为互联网上的原图太受欢迎了。他认为GPT-4在训练过程中多次遇到过原始答案,并成功地记住了它们
图灵奖三巨头中的LeCun也关注此事,并表示:
警惕在训练集上测试。
图片
原图究竟有多流行呢,不但是网络名梗,甚至在计算机视觉领域也成了经典问题,并多次出现在相关论文研究中。
图片
针对GPT-4的能力局限在哪个环节,许多网友提出了各自的测试方案,不考虑原图的影响
为了排除排列方式太复杂是否有影响,有人修改成简单3x3排列也认错很多。
图片
图片
有人把其中一些图拆出来单独发给GPT-4,得到了5/5的正确率。
图片
Xin Eric Wang认为,将这些容易混淆的图像放在一起正是这个挑战的核心
图片
最终,有人成功地同时运用了让人工智能“深呼吸”和“一步一步地思考”的两个关键技巧,并获得了正确的结果
魔术橡皮擦
智能擦除、填补背景内容
80
查看详情
图片
GPT-4在回答中的用词“这是视觉双关或著名梗图的一个例子”,也暴露了原图确实可能存在于训练数据里。重新表述如下:然而,GPT-4在其回答中使用了:“这是一个视觉双关或著名梗图的例子”,这也揭示了原始图片可能确实存在于训练数据中
图片
最后也有人测试了经常一起出现的“泰迪or炸鸡”测试,发现GPT-4也不能很好分辨。
图片
这个“蓝莓或者巧克力豆”实在有点过分……
图片
大模型“胡说八道”在学术界被称为幻觉问题,多模态大模型的视觉幻觉问题,已经成了最近研究的热门方向。
在EMNLP 2025的一项研究中,我们创
建了GVIL数据集,其中包含了1600个数据点,并对视觉幻觉问题进行了系统评估
图片
研究表明,较大规模的模型更容易受到错觉的影响,并且更接近人类的感知
图片
另一项最新研究的重点是评估两种幻觉类型:偏差和干扰
图片
图片
研究中指出GPT-4V一起解释多个图像时经常会困惑,单独发送图像时表现更好,符合“吉娃娃or松饼”测试中的观察结果。
图片
流行的缓解措施,如自我纠正和思维链提示,并不能有效解决这些问题,并且测试显示LLaVA和Bard等多模态模型也存在类似的问题
另外研究还发现,GPT-4V更擅长解释西方文化背景的图像或带有英文文字的图像。
比如GPT-4V能正确数出七个小矮人+白雪公主,却把七个葫芦娃数成了10个。
图片
参考链接:[1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv.org/abs/2311.00047[3]https://arxiv.org/abs/2311.03287
以上就是GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误的详细内容,更多请关注其它相关文章!
# 这是
# 营销推广美食方案
# 黄浦网站建设路冰店
# 正规网站推广的有效方式
# 德州知名网站优化价格
# 店员推广视频素材下载网站
# 甘泉全网营销推广有限公司
# 孝感关键词优化专家排名
# 郑州网站推广工作招聘
# seo的实施
# 日语报名网站建设需要
# 多模
# Bard
# 反超
# 的是
# 出现了
# 更适合
# 哪种
# 竞争对手
# 蓝莓
# 成了
# LLaVA
# GPT-4V
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
从GOXR到PartyOn,XRSPACE致力打造多元共赢的元宇宙世界
WHEE上线时间介绍
“世界上最像人的机器人”接入 Stable Diffusion ,现场完成作画
机构:边缘AI或是当前预期差最大的AI方向
科技数码圈的新物种 乐天派桌面机器人 AI +安卓+机器人 首发价1799元
2025 年开发者必须知道的六个 AI 工具
苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO
小米9号员工李明宣布创业:打造首款安卓桌面机器人
AI大模型时代,数据存储新基座助推教科研数智化跃迁
机构研选 | 虚拟电厂是电力物联网升级版 智能电网望迎来高速发展
Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代
参议院司法听证会:AI 不易管控,有可能被恶意分子利用来研发生化武器
猿辅导发布最新SaaS业务进展公告:Motiff UI设计工具推出三项新的AI功能
华为云盘古大模型3.0发布 AI云服务同时上线:200亿亿次性能
出门问问亮相2025世界人工智能大会,展示AI CoPilot解决方案
AYANEO 安卓掌机 Pocket AIR 配置公布:天玑 1200 + 5.5 英寸屏
AI人工智能软件,婚纱设计师的必备利器
Nature封面:量子计算机离实际应用还有两年
微软必应聊天现已在Chrome和Safari浏览器上可用,但仍有许多限制存在
图像生成过程中遭「截胡」:稳定扩散的失败案例受四大因素影响
AI与5G的强强联合:唤醒数字时代的无尽潜能
人工智能在服务优化方面优缺点有哪些
2025WRC世界机器人大赛锦标赛(烟台)收官!斯坦星球勇夺VEX赛项冠亚军!
pixivFANBOX 更新运营规则,禁止通过外链绕开 AI 生成禁令
大模型新品出现井喷,AI产业迎来新时代
Meta发布"类人"AI图像创建模型,能解决多出手指等Bug
机器人技能大比拼
GPT-4最全攻略来袭!OpenAI官方发布,六个月攒下来的使用经验都在里面了
五个IntelliJ IDEA插件,高效编写代码
Vision Pro头显重磅发布;苹果收购AR厂商Mira
Meta Connect 2025已确定时间为9月27-28,主题涵盖Quest 3与AI技术
华为即将推出HarmonyOS 4,再度领先行业的AI技术
Bing Chat 和 Bing Search 正式引入深色模式
"探索Meta发布的Quest MR/VR视频录制与拍摄指南"
遵义市首次引入手术机器人,成功实施全膝关节置换术
第二届光合组织AI解决方案大赛赛果揭晓
比尔盖茨:AI确实存在风险,但可控
当人工智能开始写高考作文?作家陈崇正、朱山坡谈文学与未来
「社交达人」GPT-4!解读表情、揣测心理全都会
陈根教授:离人形机器人时代还有10年吗?
苹果2万5的AR遭遇砍单95%:不及预期
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
AI大举入侵内容行业,哪些上市*及动漫公司进行了布局?
朝鲜出现国产大型察打一体无人机,实力世界第二,太意外了
揭晓2025年玻尔兹曼奖:Hopfield网络创始人荣获奖项
Gartner发布中国企业人工智能趋势浪潮3.0
GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型
第 66 届格莱美奖规定,AI 作品将无法获得评奖资格
特斯拉首发人形机器人“擎天柱”亮相世界人工智能大会
重磅! 捷通华声灵云AICC荣获第二届光合组织AI解决方案大赛二等奖
2023-11-13
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。