update: 增加了一个新的例子,自动驾驶配送车驶入新浦水泥地
万众瞩目之下,今天GPT4终于推送了vision相关的功能。今天下午抓紧和小伙伴一起测试了一下GPT对于图像感知的能力,虽有预期,但是还是大大震惊了我们。TL;DR 就是我认为自动驾驶中和语义相关的问题应该大模型都已经解决得很好了,但是大模型的可信性和空间感知能力方面仍然不尽如人意。解决一些所谓和效率相关的corner case应该是绰绰有余,但是想完全依赖大模型去独立完成驾驶保证安全性仍然十分遥远。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GPT4的描述
准确的部分:检测到了3辆卡车,前车车牌号基本正确(有汉字就忽略吧),天气和环境正确,在没有提示的情况下准确识别到了前方的未知障碍物
不准确的部分:第三辆卡车的位置左右不分,第二辆卡车头顶的文字瞎猜了一个(因为分辨率不足?)
这还不够,我们继续给一点提示,去问这个物体是什么,是不是可以压过去。

Impressive!类似的场景测试了多个,对于未知障碍物的表现可以说非常惊人了。

没有提示能自动识别到标牌这个应该是基操了,我们继续给一些hint

再次被震惊了。。。能自动讲出来卡车背后的雾气,也主动提到了水坑,但是再一次把方向说成了左侧。。。感觉这里可能需要一些prompt engineering能更好的让GPT输出位置和方向。

第一帧输入进去,因为没有时序信息,只是将右侧的卡车当做是停靠的了。于是再来一帧:
Voicepods
Voicepods是一个在线文本转语音平台,允许用户在30秒内将任何书面文本转换为音频文件。
142
查看详情

已经可以自动讲出,这两撞破了护栏,悬停在公路边缘,太棒
了。。。但是反而看上去更容易的道路标志出现了错误。。。只能说,这很大模型了,它永远能震惊你也永远不知道什么时候能蠢哭你。。。再来一帧:

这次,直接讲到了路面上的碎片,再次赞叹。。。只不过有一次把路上的箭头说错了。。。总体而言,这个场景中需要特别关注的信息都有覆盖,道路标志这种问题,瑕不掩瑜吧

只能说非常到位了,相比之下之前看上去无比困难的“有个人冲着你挥了挥手”这样的case就像小儿科一样,语义上的corner case可解。




开始比较保守,并没有直接猜测原因,给了多种猜测,这个也倒是符合alignment的目标。使用CoT之后问题发现问题是在于并不了解这辆车是个自动驾驶车辆,故通过prompt给出这个信息能给出比较准确的信息。最后通过一堆prompt,能够输出新铺设沥青,不适合驾驶这样的结论。最终结果来说还是OK,但是过程比较曲折,需要比较多的prompt engineering,要好好设计。这个原因可能也是因为不是第一视角的图片,只能通过第三视角去推测。所以这个例子并不十分精确。
快速的一些尝试已经完全证明了GPT4V的强大与泛化性能,适当的prompt应当可以完全发挥出GPT4V的实力。解决语义上的corner case应该非常可期,但幻觉的问题会仍然困扰着一些和安全相关场景中的应用。非常exciting,个人认为合理使用这样的大模型可以大大加快L4乃至L5自动驾驶的发展,然而是否LLM一定是要直接开车?尤其是端到端开车,仍然是一个值得商榷的问题。最近也有很多思考,找时间再来写个文章和大家聊聊~

原文链接:https://mp.weixin.qq.com/s/RtEek6HadErxXLSdtsMWHQ
以上就是Exciting!GPT-4V在自动驾驶中初探的详细内容,更多请关注其它相关文章!
# 中国
# 质量创意网站排名优化
# 网站优化平台哪个好推广
# 重庆做网站建设需求分析
# 西安网站优化电池充电
# 网站推广公司谁家好
# 云南网站建设银行待遇
# 亭湖区seo优化性价比
# 新区关键词排名谁家好
# 哈尔滨网站建设详细内容
# seo医疗机构
# 技术
# 上海
# 前车
# 腾讯
# 万元
# 华为
# 是一个
# 中国科学院
# 再来
# 开源
# 自动驾驶
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
灯塔AI大模型票房预测上线:开源算法不断提升精准度
世界人工智能大会中西部县域数字就业中心组团亮相
如何利用物联网技术提高企业生产线智能化水平,提升生产效率
IBM将模拟计算用于人工智能,重塑AI计算
直击上影节 | 光线传媒董事长王长田谈新技术:未来VR放映效果可能媲美影院
彭博社:苹果Vision Pro曾测试VR手柄追踪方案
探展WAIC | 第四范式“式说”聚焦toB大模型,布局生成式AI重构企业软件
能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高
华为云发布华为云盘古模型3.0和升腾AI云服务,亮点亮相2025华为开发者大会
羚客系统即将升级,推出全新的AI数字化工具
此「错」并非真的错:从四篇经典论文入手,理解Transformer架构图「错」在何处
国产医疗企业的人工智能
英伟达推出 L40S GPU,AI 推理性能超过 A100 约 1.2 倍
QQ音乐业内率先推出「AI一起听」功能,领取你的AI听歌助手
眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷
脑机接口产业联盟发布十大脑机接口关键技术
陈根:AI工具为游戏软件实时3D内容助力
陈根教授:离人形机器人时代还有10年吗?
特斯拉首发人形机器人“擎天柱”亮相世界人工智能大会
海南省公安机关警用无人机培训班结业并举行警航比武演练
喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新
无人机协助盐城交通执法的协同训练
广州团建公司方案 | 绝密飞行 → X-PLANE无人机团建主题团建
昇腾AI大模型训推一体化解决方案将在WAIC发布
Meta 发布 Voicebox AI 模型:可生成音频信息,用于 NPC 对话等
揭秘AI数字人语录:抖音AI小和尚、老者语录能赚钱吗?
AI智能室内效果图设计软件效果,确实惊到我了!
小米发布CyberDog2 - 他们的第二代仿生四足机器人展示
重磅! 捷通华声灵云AICC荣获第二届光合组织AI解决方案大赛二等奖
DreamAvatar数字人使用教程
应对算力挑战,亚马逊云科技发力AI基础设施建设
世界周刊丨AI“棱镜”?
WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相
人工智能如何帮助制造业?
IBM 与 NASA 携手开源地理空间 AI 模型,促进气候科学研究进步
微软AR/VR专利提出使用时间复用谐振驱动产生双极性电源
一句话搞定数据分析,浙大全新大模型数据助手,连搜集都省了
第二届光合组织AI解决方案大赛赛果揭晓
深圳人工智能企业超1900家
当人工智能开始写高考作文?作家陈崇正、朱山坡谈文学与未来
售价14.99万起!小米汽车部分信息疑遭AI曝光,内部人士回应:网传图片明显经过处理,不可轻信
美图公司:Wink国内首发AI画面拓展功能
随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了
浪潮KaiwuDB:“快人一步” - 打造更懂物联网的数据库
联合国秘书长称支持建立全球人工智能监管机构
陈根:AI冥想教练为用户提供个性化指导
基于预训练模型的金融事件分析及应用
马斯克称未来机器人数量将多于人类,特斯拉愿共享自动驾驶技术
Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务
全国青少年无人机大赛重庆市选拔赛开赛 1252名中小学生参加
2023-10-19
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。