楼主 关于特斯拉 FSD Beta 和「幽灵刹车」的消息有一些细节的变化
发表于2022-06-06 10:42:16查看 395回复10浏览 395

1、工程师在对 FSD Beta V10.12 进行了一些改进后,FSD Beta V10.12.2 将在周六向北美 10 万级的测试人员推送。

这是一件大事,想要让车辆完全自动驾驶是一项极其困难的任务,其开发人员必须秉承高度负责的态度。

么说 FSD Beta V10.12.2 的规推送一件事?

因为这可是特斯拉将「处理一数据的深神经络模型向通的大型」切换的始(其实早就开始尝试研了,公众知晓的时可以从 2021 年 5 月算起,有个著的事件:取消雷达纯视觉)。

但算法不同于硬件,其论文阶段到工程落地之间可需要 1 步,而通用大模型现在还处于些大的预研阶段,包括斯拉、谷歌微软等吧,都还没有能够用的型。但特斯拉的作是,给整个人工智领域带来了希望,到了可能,这就是星之火可以燎原。

,特斯拉正备将发项目提交给欧盟监管机构,以将 FSD Beta 引入欧洲道路。

以我们要知道,特斯拉的技术路径的底层逻辑解决两个关键词:「通用性」、「泛化性」。

2、Elon Musk 说,在下次更的 V10.13 中,斯拉 FSD Beta 将能够以零地图数据的情况下将车开到 GPS 

乍一,我为 Elon 说是,整个 FSD Beta 统在取消雷达后又要取消地图数据呢?

是这样,那国内的方案距特斯拉的技术方案就没什么可追赶的必要了,因为特斯拉不仅领先一万米,还骑摩托在跑。

斯拉目前不使用高地图,但依然需要航地图数据,但这仅仅说像们拿手机那样开导航,而是斯拉然需要导航地图里端红灯、每个红灯对应车道的数据,然后在车端融合,这个国内其明显。

Elon 说的「零地图数据」,取消导航数据,纯视觉做定,而 Elon 补充说这里的使用场则是多数没有 GPS 信号覆盖的停车场或者酒店入口

在这些场景,没有导航自动驾很多况下不可的,但对于斯拉来说,任何正常的道场景都应该可用才

那怎么解决呢?

Elon 说,特斯拉会使用「性测」、「车轮运动」、「纯觉定」的方式去做实时知,从而模拟出场模型。

可以理解成特斯拉要做类似鹏的 VPA 了,但区别在于斯拉做这个不需要自建图的,纯靠车辆实时执行。

这就是特斯拉算法厉害地方,以及纯视觉潜力,这一先放放我们面讲。
 
3、 V10.13 ,特斯拉将对十字口控进行大改进,特别是「长无保护左转」。

字面意思 :「长保护左转」,就是较长距的无护左转。

想知道为什么 Elon 会特意强调这项功,就要知道「长无护左转」为么难?

这个要从道路则来讲,车辆右转了极少部分口设有红绿,驾者只需要观察行人就好;左转区别非常,需要注意向红灯、跨车道变化(向车道避开对象车道)、人、机动

对于们人来说,理解起来很简,但对于自驾驶统来说,这小小变化直灾,因为这要求系统知能力要更,特别是在同一时段对于交通物体的识别分类常难做。

在系内的表现则,系要在极短的时间内判断 「灯 + 路 + 人 + 自车」,它们与车辆之间的关系(括距、移速度、形态)。

而之以「长无保护左转」时好时坏大概率是因为:经网络算法 RNN 去处理时序和空数据时候因为随数据变长精下降原因。

虽然 RNN 具有「记忆」能力,但在极短时内局感受的增,则会引入多噪声和无效信息。

对于目检测任务来说,若受野小,目标尺很大,或者目标尺很小,感受很大,模型收敛困,会严重影响检测性能。

一般检测网络 anchor 大小获取都要依赖不同层的特征图,因为不同层次特征图,其受野小不同,这样检测络才会适应同尺的目

因此,算法需要在络层持一「感野」佳的态,这就是斯拉另一杀器Transformer 。

 CNN ,信息只能从局部始,随着层数的增加,能够被感知到的域逐增大。然而 Transformer 从输开始,每一层结构都可以到所有的信息,并且建立基本单元之间关联,这也意味着 Transformer 能够处理更加复杂问题。

说了那么多啥意思?

「长保护左转」对道路上车辆检测要非常确,其是流较时难比较,不出现任何误检和漏检。

其次决策统难也很,必须要见缝插针汇入流中。

以我猜测: V10.13 本中 Transformer 的应深度加大了,也就把 CNN 和 Transformer 进行了更深度整合,主干络用 CNN 提网络度;主干网络用 Transformer 升感知结果度。

是,控变得更加腻与准了。

这就是斯拉觉的潜力,过算法不断压榨硬件的潜力。

但为么在切换纯觉后,特斯拉「幽刹车」的投诉增加呢?

因为直接将 Transformer 应到视觉上,会存一些题。

一,核心块多注意力机制(Multi-Head Self-Attention )的计算量与 block 的个数成正比,因此在视觉中 block 数量要远多于 NLP 中句子的词数,这就造成了计算量的陡增。

二,Transformer 擅长全局关的学习,对局部节信息关注有限,然而视觉中很任务需要足够丰富细节息做判断,比如语义分割。

以,工程师需要对核心模块的注意力机进行优化。

这就是上我们说的:把 CNN 和 Transformer 进整合,通过控制 block 粒度,使 Transformer 够感知不同尺度信息,从而达到局部和全局的息融合。

(这是,国内其他引入 Transformer 的公司抄特斯拉作业的地方。)

但问题是,现在工程优化进没有这么快,在开我说:特斯拉在尝试将处理单数据深度经网络模型向通用大模型切换。

推特上,有友问 Elon 「幽灵刹车」咋整的,还能能行。

Andrej Karpathy 在这推下回答了段话(下面会解释):

1、I am cautiously and slightly unnervingly looking forward to the gradual and inevitable unification of languageimages/video and audio infoundation models. I think that's going to look pretty wild.

(直译:我谨慎而略带不安地期待语言、图像/视频和音频基础型中逐渐而可避免的统。我觉得这起来会很疯狂。)

2、Every task bolted on top will enjoy orders of magnitude more data-efficient training than what we are used to today.

(直译:每个任务都将享受到比我们今天习的数据效率更高的数量级培训。)  3、They will be endowed with agency over originally human APls:screen+keyboard/mouse in the digital realm and humanoid bodies in the physical realm. And gradually they will swap us out.  (直译:它们将被赋予比原始人类API更大力量:数字领域的幕+键盘/鼠标,理领的人形身体。)  确实挺难懂我来解释一:  从后往前是斯拉或者说 FSD Beta 的目是让像人样,就是 Elon 常说的「现实世界的人工智」。  机就像人一样,可以拥有一大脑接入肢体。  但想要做到这个,就需要大的技术支撑,人工智能方向要将模态数据,包括图像、频、文字、音都集中到个基础模型。  这也就是业常说通用人工智。  基于这个模型再去训练一些特定任务的话,就会非常也不需要大的数据。  而目,大都有些研究工作,但还没有能够实用模型。  这又带来了另一个问题:用模型和类似 Transformer 这样的区别是啥?  先这两个维度的概念  比如,Transformer 能同时处理图像和文字数据,那么就可认为往通模型方向进一步。  就是说,Transformer有成为通用型的潜力。  但目前般都还是处理单一类型的数据,比如只处理图像数据或者只处理文字数据。  而 CNN 这种模型,只处理图像数据,因此没有成为通模型潜力。因为 Transformer 本身从自然语言处理领来的,现在视觉任务上取得成功,因此有潜力的。  从这个角去看,自动驾驶其从来就不是件竞争,而软件(算法)但竞争,特斯拉的厉害之处在于,将论文实践到了工程应用领域。  而要做这步,没有 利坚 这种国家的产业能力,以及人才和资本场的优势,们国想追确实很。  可想而知,国内人工智能公司的容易。