关于特斯拉 FSD Beta 和「幽灵刹车」的消息有一些细节的变化_Model 3社区

楼主关于特斯拉 FSD Beta 和「幽灵刹车」的消息有一些细节的变化

发表于2022-06-06 10:42:16回复10浏览 395

1、工程师在对 FSD Beta V10.12 进行了一些改进后，FSD Beta V10.12.2 将在周六向北美 10 万级的测试人员推送。

这是一件大事，想要让车辆完全自动驾驶是一项极其困难的任务，其开发人员必须秉承高度负责的态度。

为么说 FSD Beta V10.12.2 的规推送一件事？

因为这可是特斯拉将「处理一数据的深神经络模型向通的大型」切换的始（其实早就开始尝试研了，公众知晓的时可以从 2021 年 5 月算起，有个著的事件：取消雷达纯视觉）。

但算法不同于硬件，其论文阶段到工程落地之间可需要 1 步，而通用大模型现在还处于些大的预研阶段，包括斯拉、谷歌微软等吧，都还没有能够用的型。但特斯拉的作是，给整个人工智领域带来了希望，到了可能，这就是星之火可以燎原。

此，特斯拉正备将发项目提交给欧盟监管机构，以将 FSD Beta 引入欧洲道路。

以我们要知道，特斯拉的技术路径的底层逻辑解决两个关键词：「通用性」、「泛化性」。

2、Elon Musk 说，在下次更的 V10.13 中，斯拉 FSD Beta 将能够以零地图数据的情况下将车开到 GPS 。

乍一，我为 Elon 说是，整个 FSD Beta 统在取消雷达后又要取消地图数据呢？

如是这样，那国内的方案距特斯拉的技术方案就没什么可追赶的必要了，因为特斯拉不仅领先一万米，还骑摩托在跑。

斯拉目前不使用高地图，但依然需要航地图数据，但这仅仅说像们拿手机那样开导航，而是斯拉然需要导航地图里端红灯、每个红灯对应车道的数据，然后在车端融合，这个国内其明显。

Elon 说的「零地图数据」，取消导航数据，纯视觉做定，而 Elon 补充说这里的使用场则是多数没有 GPS 信号覆盖的停车场或者酒店入口。

在这些场景，没有导航自动驾很多况下不可的，但对于斯拉来说，任何正常的道场景都应该可用才。

那怎么解决呢？

Elon 说，特斯拉会使用「性测」、「车轮运动」、「纯觉定」的方式去做实时知，从而模拟出场模型。

可以理解成特斯拉要做类似鹏的 VPA 了，但区别在于斯拉做这个不需要自建图的，纯靠车辆实时执行。

这就是特斯拉算法厉害地方，以及纯视觉潜力，这一先放放我们面讲。

3、 V10.13 ，特斯拉将对十字口控进行大改进，特别是「长无保护左转」。

字面意思：「长保护左转」，就是较长距的无护左转。

想知道为什么 Elon 会特意强调这项功，就要知道「长无护左转」为么难？

这个要从道路则来讲，车辆右转了极少部分口设有红绿，驾者只需要观察行人就好；左转区别非常，需要注意向红灯、跨车道变化（向车道避开对象车道）、人、机动。

对于们人来说，理解起来很简，但对于自驾驶统来说，这小小变化直灾，因为这要求系统知能力要更，特别是在同一时段对于交通物体的识别分类常难做。

在系内的表现则，系要在极短的时间内判断「灯 + 路 + 人 + 自车」，它们与车辆之间的关系（括距、移速度、形态）。

而之以「长无保护左转」时好时坏大概率是因为：经网络算法 RNN 去处理时序和空数据时候因为随数据变长精下降原因。

虽然 RNN 具有「记忆」能力，但在极短时内局感受的增，则会引入多噪声和无效信息。

对于目检测任务来说，若受野小，目标尺很大，或者目标尺很小，感受很大，模型收敛困，会严重影响检测性能。

所一般检测网络 anchor 大小获取都要依赖不同层的特征图，因为不同层次特征图，其受野小不同，这样检测络才会适应同尺的目。

因此，算法需要在络层持一「感野」佳的态，这就是斯拉另一杀器Transformer 。

 CNN ，信息只能从局部始，随着层数的增加，能够被感知到的域逐增大。然而 Transformer 从输开始，每一层结构都可以到所有的信息，并且建立基本单元之间关联，这也意味着 Transformer 能够处理更加复杂问题。

说了那么多啥意思？

就「长保护左转」对道路上车辆检测要非常确，其是流较时难比较，不出现任何误检和漏检。

其次决策统难也很，必须要见缝插针汇入流中。

以我猜测： V10.13 本中 Transformer 的应深度加大了，也就把 CNN 和 Transformer 进行了更深度整合，主干络用 CNN 提网络度；主干网络用 Transformer 升感知结果度。

结是，控变得更加腻与准了。

这就是斯拉觉的潜力，过算法不断压榨硬件的潜力。

但为么在切换纯觉后，特斯拉「幽刹车」的投诉增加呢？

因为直接将 Transformer 应到视觉上，会存一些题。

一，核心块多注意力机制（Multi-Head Self-Attention ）的计算量与 block 的个数成正比，因此在视觉中 block 数量要远多于 NLP 中句子的词数，这就造成了计算量的陡增。

二，Transformer 擅长全局关的学习，对局部节信息关注有限，然而视觉中很任务需要足够丰富细节息做判断，比如语义分割。

以，工程师需要对核心模块的注意力机进行优化。

这就是上我们说的：把 CNN 和 Transformer 进整合，通过控制 block 粒度，使 Transformer 够感知不同尺度信息，从而达到局部和全局的息融合。

（这是，国内其他引入 Transformer 的公司抄特斯拉作业的地方。）

但问题是，现在工程优化进没有这么快，在开我说：特斯拉在尝试将处理单数据深度经网络模型向通用大模型切换。

推特上，有友问 Elon 「幽灵刹车」咋整的，还能能行。

Andrej Karpathy 在这推下回答了段话（下面会解释）：

1、I am cautiously and slightly unnervingly looking forward to the gradual and inevitable unification of languageimages/video and audio infoundation models. I think that's going to look pretty wild.

（直译：我谨慎而略带不安地期待语言、图像/视频和音频基础型中逐渐而可避免的统。我觉得这起来会很疯狂。）

2、Every task bolted on top will enjoy orders of magnitude more data-efficient training than what we are used to today.

（直译：每个任务都将享受到比我们今天习的数据效率更高的数量级培训。） 3、They will be endowed with agency over originally human APls：screen+keyboard/mouse in the digital realm and humanoid bodies in the physical realm. And gradually they will swap us out. （直译：它们将被赋予比原始人类API更大力量：数字领域的幕+键盘/鼠标，理领的人形身体。）确实挺难懂我来解释一：从后往前是斯拉或者说 FSD Beta 的目是让像人样，就是 Elon 常说的「现实世界的人工智」。机就像人一样，可以拥有一大脑接入肢体。但想要做到这个，就需要大的技术支撑，人工智能方向要将模态数据，包括图像、频、文字、音都集中到个基础模型。这也就是业常说通用人工智。基于这个模型再去训练一些特定任务的话，就会非常也不需要大的数据。而目，大都有些研究工作，但还没有能够实用模型。这又带来了另一个问题：用模型和类似 Transformer 这样的区别是啥？ 先这两个维度的概念比如，Transformer 能同时处理图像和文字数据，那么就可认为往通模型方向进一步。 就是说，Transformer有成为通用型的潜力。但目前般都还是处理单一类型的数据，比如只处理图像数据或者只处理文字数据。而 CNN 这种模型，只处理图像数据，因此没有成为通模型潜力。因为 Transformer 本身从自然语言处理领来的，现在视觉任务上取得成功，因此有潜力的。从这个角去看，自动驾驶其从来就不是件竞争，而软件（算法）但竞争，特斯拉的厉害之处在于，将论文实践到了工程应用领域。而要做这步，没有 利坚这种国家的产业能力，以及人才和资本场的优势，们国想追确实很。可想而知，国内人工智能公司的容易。