马斯克直播演示特斯拉 fsd v12 测试版,该版本都有哪些值得关注的亮点? -云顶yd2223线路检测
13 个回答
直接上干货
现在所有的自动驾驶系统,基本分为三个大模块,他们是感知,决策,执行。在感知模块,不管是纯视觉还是融合感知方案,都会用ai对图像物体进行识别和标注,从图像中分离出人,车,道路边缘,异形障碍物等。然后将标注后的结果发送到决策部门,决策部门会根据感知部门发送的标注结果,在人类设置的规则框架下给出决策,这里所说的人类设置的规则框架包括但不限于:红灯停,绿灯行,人是高危群体要优先让行,直行车道不能转弯,转弯车道不能直行,在这些基本原则的框架下,再根据感知部门发送的标注信息进行实时决策,然后给到执行部门最终输出一个加速减速打方向的操作。
因为感知部门给出的结果对于决策部门非常重要,如果不能准确识别和标注出需要注意的物体,车辆决策部门将无法将此物体考虑在内,从而发生危险。这也就是之前一直在争论纯视觉还是激光雷达的原因,纯视觉最初对于非通用物体也就是我们常说的异形障碍物无法识别,后特斯拉推出了occupancy network用来解决此类问题,效果非常不错。但这已经不重要了,因为v12来了,特斯拉要把之前所有的积累全部扔进垃圾桶,这也就是我说特斯拉掀桌子的原因。
v12端到端的强大之处在于,他不再拥有感知模块,甚至他没有任何一个模块,在感知层面他不再识别摄像头拍到画面上的信息,也不再进行标注,他甚至不再看画面,他看的是画面的最小单元像素点。他把画面上像素的位置,组成的形状已经运行的规律直接输入到神经网络,神经网络拥有几亿英里的真实视频学习经验,他会把现在输入的像素与之前学习的像素进行对比,然后直接输出一个结果,这个结果就是刹车,油门,方向盘。v12内也不存在任何一条人类输入的指令,没有人告诉他红灯要停,绿灯可以走,没有人告诉他转弯车道不准执行,人类是脆弱的不可以撞。没有搜索决策树,没有剪枝,没有任何过程。
这里比较抽象我展开讲一下,如果v12看到面前有个人,在他的世界里这不是一个人,这是画面正中心出现了几万个像素点,他们组成了现在的形状,他会去对比之前人类驾驶时出现相同像素点时人类的操作,其他条件不变的情况下,他会直接用相同的操作去操作。同样,红绿灯,车道线,一切能被摄像头排到的画面,都是数以万个的像素点,他会把每一个情况下不同像素点的位置与之前他看到的人类驾驶相似场景进行对比,然后输出结果。这里面没有任何规则,只有神经网络和数以亿英里量级的真实驾驶bev画面学习经验。所以感知已经不重要了,你可以说一个异性障碍物识别有困难,但是拍到他没有任何困难,只要拍到他就会成为画面中的一堆像素点。这也就是纯视觉的最终云顶国际官网唯一官方网站的解决方案!
严格上来讲,在 未来 v12 运行时,驾驶视觉上不会显示任何物体,仪表盘上没有车道线行人和车辆,没有任何东西。因为正如我之前所说,v12 只接收像素不做任何识别,所以没得展示。但是我推测特斯拉会为了照顾用户体验,继续沿用 v11 的驾驶视觉预览,但这只是展示,系统层面已不再使用这些信息。这应该是 v12 之前版本唯一能留下的遗产了。
很多人会说,如果训练用的数据是鲁莽驾驶数据,训练出的ai不就非常危险,是的,但是这个特斯拉2年前就已经考虑到并开始布局,特斯拉在北美的保险业务衍生了一套驾驶员行为监测系统,他正在北美的所有车辆上悄悄运行,这一套系统会根据驾驶员驾驶行为进行严格的打分,特斯拉用来训练的数据全部来自90分以上驾驶员,可以说对数据的要求极为苛刻。
所以v12端到端是重新定义游戏规则的全新自动驾驶云顶国际官网唯一官方网站的解决方案,他方便快捷一步到位。很多人会说,别吹牛了,这么牛逼的路线,其他车企工程师想不到吗?他们为啥不去做?
这里我可以明确的告诉你,所有工程师都想得到,但是他们做不了,因为这个路线需要几十万颗英伟达h100级芯片组成的训练集,几亿英里的真实自动驾驶bev视频数据,每年超过20亿美元的训练成本。这三个条件里,每年20亿美元的训练成本反倒成为了最容易达到的,因为另外两个条件你甚至有钱都买不到。
最后,根据马斯克最新的发文推断,v12将大概率在6个月内上线,fsd也将在6个月内走出北美市场扩展到全球。让我们拭目以待。
8月28日更新:
补充下马斯克的直播,这里顺带顺带喷下推特直播的渣画质,连ceo直播都是渣画质。
原文评论里面有个老哥发了个很清晰的视频,我也搬运上来。
等有些老哥发为为的
先说黑点:
hw4内存太小 居然有8g的版本,储存也小才128g 。
都特么是水果开的好头。
亮点:
老板亲自直播l4,
国内厂家高低集体给磕一个吧。
马斯克吹牛的时候多了,最著名的就是“马斯克时间”,至少等于常规时间*2。
所以这件事还是先等等看,让时间证明一切。
但如果,我是说如果哈,这玩意真成了,配合加装光学仪器的星链卫星,进行全球实时智能监控咋弄?
都说了之前版本的自动驾驶是纯试验品,并且还让你掏钱去当试验员
这个版本的自动驾驶,编程代码占比大幅度缩小,然后主要交给神经网络决策
当然你可能吹这个多好多好,但是这东西靠一万块h100训练,需要多少道路行驶数据呢?都是视频数据
那么数据哪来的呢?试验员用老版本fsd时采集的
另外,国内的fsd,由于很多地方不让进,所以训练数据的场景不全,就算更新到v12,部分场景也可能出错
老马这么干弄不好要一统天下,因为数据这个门槛别的企业可能跨不过去,全球化卖车才能遍历所有情况。