最近大家可能也是在找关于特斯拉底层逻辑-如何训练自动驾驶?相关内容吧?为了整理这篇内容,我特意和朋友,还有公司身边的同事,沟通了很久...也在网上查阅了很多资料,总结了一些关于的相关内容以及这类内容周边的一些相关知识点,接下来一起来了解一下吧,希望通过对“特斯拉底层逻辑-如何训练自动驾驶?”的相关介绍,对大家有所帮助!
特斯拉底层逻辑-如何训练自动驾驶?
如果机器人有大脑会是什么样子?
在科幻电影《机械姬》、搜索引擎公司"蓝皮书"CEO 纳森,世界上最大的,向观众展示了他们发明的机器人大脑,并留下了这样一句话:“人们认为搜索引擎是人们思考的东西,但实际上它是人们思考的方式。
该片于2015年上映,被认为是人工智能粉丝必看的电影之一,获得多部国际电影大奖包括奥斯卡金像奖。然而,在众多奖项中,“最佳女配角”和艾丽西卡·维坎德”是影片中智能机器人“艾娃”的冠军。
“艾娃”是Nathan给“她”起的名字。为了创造出可以独立思考的人工智能Nathan用自己的搜索引擎“蓝皮书”的算法构建了艾娃 brain的“思维”,让它可以学习人类的思维方式。
同样,如果你想让机器具有人类思维,请参见特斯拉自动驾驶AI 。在2019 特斯拉自动驾驶日,安德鲁·卡帕西(Andrej Karpathy,特斯拉 AI 首席经理)明确向公众传达了特斯拉自动驾驶正在模仿人类驾驶,因为目前的交通系统是基于人类视觉和认知系统设计的。
因此,特斯拉开发了“人工神经网络”,并用大量有效的驾驶数据对其进行了训练。在这个过程中,视觉算法不断改进迭代,终于在今年年中去掉了毫米波雷达。但随着超算Dojo 浮出水面,长期被诟病为特斯拉,只能算是辅助驾驶,与真正的自动驾驶相去甚远。
从学会开车,到懂得如何比人类更好地驾驶,做一个优秀的”老司机”是特斯拉自动驾驶持续优化的底层逻辑。
云端司机"的神经网络。
纯视觉自动驾驶方案是特斯拉的独门绝技,但需要建立在计算机视觉的深度训练上。
计算机视觉是一门研究机器如何“看”的科学。当人类看到一张照片时,他们可以清楚地分辨出照片中的东西,比如一张美丽的风景照片或一只小狗的照片。然而,计算机看到的是像素,由图像的小方块组成。这些小方块有确定的位置和相应的颜色值。计算机“记住”的是这一堆数字字符,而不是具体的字符。
要想让计算机像人类一样快速准确地识别画面中的事物,机器还拥有一个人工大脑来模拟人脑处理图像信息的过程,分为输入层、隐藏层和输出层。其中有许多人工神经元,可以看作是人脑初级视皮层中的锥体细胞和中间神经元。
整个训练过程也可以类比为儿童的图片识别,通过反复的输入、比较、修正,完成机器图像识别。通常在训练初期,人工神经网络识别结果的准确率很低,输出结果与实际值的相似度可能只有10%。为了提高精度,需要将误差从输出层反向传播到输入层,并在反向传播中修改神经网络隐藏层的参数值。经过数百万次训练,误差会逐渐收敛,直到输入输出匹配度达到99%。
以上流程是理解特斯拉自动驾驶AI 的关键,但特斯拉开发人工神经网络专注于驾驶领域并成为全职云端司机。对于它来说,最好的学习资料就是驾驶数据,大量来自现实世界的多样化驾驶训练数据集就是自动驾驶AI 一本可以应对各种路况和交通问题的宝典。
在暗影模式的支持下,特斯拉全球数百万辆车队时刻的行驶数据成为了这片云的养分”老司机”提升其驾驶能力。到目前为止,特斯拉 Autopilot 已经能够瞬间识别道路上各种动静态目标、路标、交通符号的语义,其反应速度甚至比人脑条件反射还要快。
除了处理日常驾驶场景,AI 司机还需要处理一些罕见的Corner案件。在2020拟阵机器学习大会上,Capassi以流量指数STOP为例,讲解了Autopilot 处理这些长尾情况的具体方法。
在日常驾驶过程中,车辆总会经过各种STOP指示灯,最正常的情况是一个STOP标志站在路边或路中间,红色背景上有白色的字符。但现实生活中总会出现一些意想不到的情况,驾驶员偶尔会遇到一些需要结合具体背景来理解的奇怪指标,包括但不限于以下几种:
无效STOP指标,如被某人持有,但无意义;STOP指示器,下面有文字说明,例如,右边一行不受限制;STOP字母被树枝和建筑物挡住的索引...这些都是罕见但无数的情况。
在上述情况下,人类驾驶员在大多数情况下可以轻松识别“STOP”,并迅速做出反应。然而,对于计算机来说,情况变得复杂了。毕竟它看到的不是一个具体的“STOP”,而是一堆毫无意义的数字代码。如果遇到现有训练数据集中没有出现的东西,比如上面的一些奇怪且相对少见的指标,自动驾驶神经网络就无法处理。
这种罕见的长尾数据通常是无穷无尽的,但必须在最短的时间内处理。如果一切都是人工操作,无疑会耗费巨大的时间和资源。虽然在8月20日的AI 发布会上,Capassi透露特斯拉的队伍规模已经达到了1000人的水平,但是面对海量的流量数据,1000人还是杯水车薪。为此,特斯拉内部开发数据离线自动标注(数据自动标注)和自动训练框架“/KLOC-19”。
首先,特斯拉神经网络团队在了解这些长尾情况后,会编译一个样本数据集,并创建一个局部小神经网络进行学习和训练(与其他神经网络并行),通过OTA部署到世界英语地区特斯拉车辆。
再次使用车辆阴影模式。但如果实际驾驶情况与自动驾驶AI 决策不一致,这部分驾驶数据会自动上传到特斯拉后台数据引擎。自动标记后,将重新纳入现有的数据训练集中,继续训练原神经网络,直到掌握新的数据。
这样,随着大量训练数据的馈入,神经网络变得“见多识广”更聪明,能够在不同条件下识别出STOP logo,准确率从40%逐渐提升到99%,从而完成单任务学习。
但这只是学习一个静态信号,汽车行驶过程中会涌现出无数的静态和动态信号,比如路边的树木、路障、电线杆等。,而动态信号包括行人、车辆等。,这些信号由摄像机捕捉,然后通过神经网络进行训练和学习。目前,特斯拉的自动驾驶神经网络已经发展出了九大主干神经(绣球)和48 个神经网络,可以识别1000多种目标。
但是,让自动驾驶AI 学会驾驶是不够的,要让它像人类老司机,驾驶方便,安全平稳。
摆脱拐杖,Autopilot 早期成长。
任何一个有经验的驾驶员都可以在不同的路况下轻松判断前方车辆与我们的距离,从而为行车安全留下一定的距离。
但是对于传感器来说,要想判断物体的距离,就必须了解物体的深度。否则,在他们眼里,两个一模一样的车,离我们10米,离我们5米,就会被认为是一大一小的关系。
对此,部分汽车厂商选择激光雷达路线探测深度,而特斯拉则选择纯视觉算法模仿人类视觉感知深度。但特斯拉率先构建了毫米波雷达与视觉感知的融合路线,直到今年5月才正式宣布拆除毫米波雷达,推出纯视觉版Autopilot。
事情发生的时候,各行各业一片哗然,很多人都无法理解特斯拉为什么要去掉单价只有300元、能为行车安全提供额外保障的性价比雷达。众所周知,在特斯拉早期多传感器融合路线中,毫米波雷达的存在就像一个蹒跚学步的孩子,只是帮助神经网络学习和训练深度标注。
在2019年的自动驾驶大会上,卡帕西就这样引入了毫米波雷达。他说,“神经网络学习如何预测深度的最好方法是通过深度标注的数据集进行训练,但毫米波雷达反馈的深度数据精度高于人工标注深度。”因此,毫米波雷达的引入本质上是用来训练和提高神经网络对深度的预测。
值得一提的是,在他讲解的背景幻灯片右下角,清晰地标明了带毫米波雷达的自动驾驶算法是“Semi automonos Self Driving”,翻译过来就是半自动驾驶。显然,特斯拉 Autopilot 在当时只是一个半成品。
特斯拉的视觉算法在预测物体深度、速度和加速度的性能达到取代毫米波雷达的水平之前,是真正独立的。
在2021年6月的 CVPR 大会上,卡帕西表示,毫米波雷达采集的数据中出现了“间歇性翻车”甚至误判。他举了三个具体的例子,分别是前方车辆的突然刹车,桥下前方车辆的速度,路边静止货车的判断。
案例一:前方车辆突然停车,毫米波雷达在短时间内六次失去目标车辆。丢失状态下车辆前方车辆的位置、速度、加速度均为零。
案例二:当行驶中的汽车经过桥下时,雷达将静止物体视为静止物体;此时视觉传感器计算行驶车辆的速度和位移,使数据融合后的曲线传递前方车辆正在减速制动的错误信息。
案例三:高速公路旁停着一辆白色大卡车。纯视觉算法在距离目标车辆180米处发现白色卡车并做出预测,但融合算法直到距离110米才给出反馈,延迟5秒。
在上述情况下,纯视觉算法输出稳定,比雷达+视觉融合算法要好得多,雷达+视觉融合算法精确跟踪前车行驶情况,做出深度、速度、加速度等数据。
不仅如此,纯视觉算法还可以在雾、烟、灰尘等环境下保持前方车辆的速度和距离测量,因此去除毫米波雷达也就不足为奇了。根据在特斯拉 AI Day上发布的最新信息,目前,特斯拉每周可以获得1万条恶劣环境下人们驾驶的短视频,包括大雨、大雪、大雾、黑夜、强光等。通过学习和训练这些标记材料,神经网络可以在没有毫米波雷达的情况下准确感知前方车辆的距离。
可以说特斯拉宣布要拿走毫米波雷达的信心,对其纯视觉算法的成熟充满信心。在无监督自学的加持下,特斯拉明显加快了纯视觉算法的迭代和改进。
今年7月10日,特斯拉视觉版FSD在美国正式开始内部测试,2000名受邀车主通过OTA升级到FSD Beta V9.0。大部分是特斯拉和中小型 KOL、Youtube 博主 Chunk Cook(以下简称CC)的粉丝。
系统一更新,CC就开始新版本的FSD路试,并将测试视频上传到输油管道。视频中,他来到一个车流量大、车速快的T型路口进行转弯测试。结果显示,7次中只有1次,FSD成功完成自动驾驶,其余都需要手动接管方向盘才能完成驾驶。
但很快,随着FSD在7月底推新版本V9.1,CC发现升级后的FSD性能超出了他的预期。他还在同一条路上进行了7次自动驾驶测试,结果显示,7次自动驾驶测试中有4次成功完成,但转弯速度有些“慢”,没有表现出老司机应有的果断,但新版本Autopilot 在综合得分上优于旧版本。
8月16日,特斯拉 FSD升级到新版本V9.2 CC也率先测试并上传视频,依然是路段,但测试时间改为夜间。他公开表示,这一次最明显的改进是Autopilot ,它在转弯时可以像人类驾驶员一样果断加速。
前后一个月,纯视觉Autopilot 在同一条路上进步神速,背后是人工神经网络,强大自学能力的体现。马斯克表示,FSD beta V9.3和9.4已经在准备中,细节会根据车主的使用情况不断优化,提升用户体验,V10会有较大改动。
Dojo 发射,模拟极限。
需要注意的是,当你对特斯拉纯视觉Autopilot 各种老司机操作惊叹不已的时候,你不要忘记,这些路测大多发生在北美,而在非英语区,比如人口密集的亚洲,城市道路交通的复杂程度与人口稀少的北美大不相同,所以如何让神经网络学会应对各种路况和交通是值得思考的。
采集现场数据是方法之一,但前提是你有大量车队在区域内行驶,另一个解决方案是对自动驾驶进行模拟测试。模拟,简单地说,就是利用真实的数据在计算机系统中重建和再现实时的动态场景。
模拟测试除了模拟不同城市的交通状况外,还可以模拟一些极端场景,如各种突发交通事件或极其罕见的交通状况。On AI DAY,特斯拉工程师给出了具体的例子,包括在高速公路上行驶的行人、大量的行人或非常狭窄的行驶道路。
这些情况往往非常极端,出现在日常驾驶场景中的概率很小,但正因为如此,通过仿真训练神经网络才有真正的价值,只有通过训练,神经网络才能学会正确反应。
为了真正发挥训练作用,这些模拟测试必须充分还原现实场景,包括各种行人、车辆、绿林、路障、信号灯等。,以及你在路上看到的几乎所有交通元素。目前,特斯拉已经创建了3.71亿幅车内网络训练图像和4.8亿个标签,数据规模仍在快速扩张。
重要的是要知道,模拟测试的保真度与计算机能够提供的数据处理能力成正比。特斯拉AI /的仿真越强,对硬件计算能力和读写速度的要求就越高。
马斯克曾在2020WAIC大会上表示,计算机视觉已经超越了人类专家的水平,但保证计算机视觉实现的关键是计算能力的大小。因此,特斯拉准备了顶级超算Dojo,确保所有操作都能高效、准确地完成。
在AI 日,超级计算机Dojo 揭开庐山真面目,内置3000 Dojo 1芯片,组装成ExaPOD峰值计算能力为1.1 EFLOPS ,超越全球最快超级计算机日本富越,成为全球第一。发布会结束后,马斯克在推特上回复了网友的提问,称ExaPOD的计算能力足以模拟人脑。
目前性能猛兽Dojo ,专注于训练特斯拉自动驾驶神经网络。有了它,神经网络的学习潜力一下子变得深不可测。截至目前,特斯拉还收集了自动驾驶的三大要素,包括数据、算法和计算能力,为L5级自动驾驶的硬件和软件做准备。
然而,特斯拉还有很长的路要走,包括法律和道德考验。
以上就是一些关于特斯拉底层逻辑-如何训练自动驾驶?的相关内容以及这类内容周边的一些相关知识点,希望通过的介绍,对大家有所帮助!后续我们还会更新更多关于的相关资讯内容,关注我们,每日了解最新热点资讯,关注社会动态!
评论