端侧 AI 的硬件大潮袭来前，更应该了解特斯拉的成功故事

OpenAI 的神奇在边际递减。Sora无法涌现真实世界的物理法则，成本和效用没法商业闭环；o1被推测的CoT+RL 路线展现了强大的数学推理能力，但依旧争论不停，跟随者寥寥；GPT-5听不到好消息同时，坏消息先来了，OpenAI的高层团队和核心技术骨干几乎全部出走。

AGI 的终极远景固然吸引人，在历史级的天量资本投入和期待下，OpenAI 似乎都架不住，要从非营利性组织向正常企业「转型」。

大模型从「中枢」走向「边缘」

今年以来，有一股明显的市场力量，驱动大模型向PC、手机、汽车向这些边缘端渗透，这些恰好也是人们工作、学习、生活、出行，最高频使用的终端。

一个普通用户每天产生的文本数据、图像数据、声音数据，散落在各个终端，如果这些数据推送给大模型交互、处理，可以极大地提升我们工作学习的效率，带入更便捷和更高质量的生活。

比如AIPC，有了大模型GUI Agent，可以做到用户指令生成屏幕操作。大模型可以自动进行工作邮件和会议快速总结，读取经营统计数据，瞬间转换成markdown表格，长图文在正确的提示词交互下，快速生成指定汇报主题的PPT。

AI Phone 相比AIPC，多模态数据和应用为丰富。智能手机有10多种不同种类的传感器，位置GPS、摄像头cmos、加速度、气压计、麦克风阵列，手机能调用的App种类和数量也极为丰富，大模型被封装成更高权限层级的个人助手，融入手机OS，能实现自动化智能操作和高效交互。

智能汽车更进一步，各类传感器数量高达数百个，可以控制的权限和实现的更复杂。智能汽车交互方式多样，频次多、粘性强、多模态数据规模大，大模型在这种复杂传感器、多种交互和功能、融入了人际互动的移动空间，天然能够重新组织、协调、梳理、关联，将其整合成为一个高度智能的服务整体。比如通过语音和汽车交流，智能座舱基于大模型可以自动制作、控制、定向生成符合用户情绪偏好的音乐、氛围灯、影视内容，创造超级个性化的舒适智能空间。

从正常的商业视角审视，把最高频的三个消费电子让大模型接管或重铸，想象力太太太大了。大模型公司有概率上演，当年苹果和谷歌替换诺基亚、摩托罗拉，这种生态位切换的故事。

特斯拉的故事，给了一点启示

当一种新的、截然不同的计算需求和设备形态出现的时候，同类的终端厂商和上游的芯片厂商不一定能最快反应过来。

举个离我们最近的例子。今天风光无限的 Elon Musk，全民偶像、超级极客、世界首富，助他真正登上神坛，是其创立的特斯拉改变了百年汽车工业。Musk掌控下的特斯拉，早在2014年就发布了HW 1.0，即特斯拉Hardware Platform ，电动汽车中用于自动驾驶功能的计算和传感系统。

特斯拉电动汽车的魔力，可能并非大胆采用了一系列眼花缭乱的、汽车巨头不敢尝试的“新技术”。一体化压铸、线控底盘、松下动力电池、灵感来自服务器分级管理的BMS电池管理系统，这些都可以被其他厂商快速模仿并掉价，但从2014年的HW 1.0升级到2024年的HW 4.0，目标直指Full Self-Driving，FSD，它可没有容易被模仿和追赶了。

2018 年初，特斯拉深陷产能危机、面临生死考验时，马斯克坚持研发 “基于大规模神经网络训练的全自动驾驶方案”。

凝视深渊的马斯克，在2019 年4月发布了 HW 3.0 硬件，两颗 FSD 第一代自动驾驶AI计算芯片，纸面算力7倍于当时英伟达车端智驾芯片 Xavier。

车身分布几个分辨率并不高的摄像头，配合在车端本地运行、实时数据处理的智驾芯片，以及不断上传到云端服务器的驾驶数据训练神经网络，当特斯拉发展到 FSD v12的时候，迎来了“端到端”的突破：：一端输入摄像头等传感器捕捉的数据，另一端输出复杂路况环境下的自动驾驶。

端到端的神经网络，直接从大量真实的车辆驾驶、转向、加速减速踩踏板、倒车、泊车等操作车辆的数据中学习，不是穷尽各种可能的驾驶路况编写固定的规则和决策链路，而是在神经网络的“黑盒”中直接输出开放式环境下的驾驶动作。FSD v12 中，30 万行规则代码被减少到2000 多行，不到原来的 1%，原有的“固定”规则不复存在。端到端方案的本质不同在于，摄像头等传感器获得的原始信息没有经过一环一环预设的、不同模块的过滤和处理，而是直接传递到神经网络，输出驾驶“决策”。传感器信息的无损传递，模型从数据学习到更多的驾驶关联和隐层信息，各种复杂场景不需要一一编写规则，从而提升真实开放环境下的自动驾驶能力。

训练神经网络，学会像人类一样的开车。这种底层能力的领先，一整套方案的构建，传感器分布，视觉识别算法，Jim Keller操刀的自研终端智驾芯片，Andrej Karpathy主导开发的大规模自动驾驶神经网络，还有多年实际运行大量人类司机上传的天量驾驶数据，短时间内，是不可能有其他厂商能够进行一一复制。

大模型上端，被忽略的东西

电动化、电气化架构容易追赶，特斯拉把电动汽车另一个竞争层次，智能化中的自动驾驶，带到了一个新高度。早在2014年就推出的HW1.0，这种远见，从今天的视角来看，非常罕见。

因为下游任务和需求的变化，传导到上游厂商，一般存在一个时间差。以上游构成智驾系统最关键硬件的算力芯片来说，设计专门的微架构，推出专用芯片，通常情况下，一定是巨大的市场驱动。在产品还没有跑出一个巨大的市场，没有需求验证的情况下，敢重构一个体系，并且积累先发优势，直到今天特斯拉无法复制、难以撼动。

特斯拉的发展故事，对于今天的大模型上PC端、手机端，依然有很强的借鉴意义。

今天AIPC、AI Phone的热潮，大模型融入最高频消费电子终端，本质是改变了什么？又需要提前布局，在什么层面进行竞争？

大模型运行在端侧最大的优势，有的人说，是数据本地处理，隐私和数据安全。但是云端的能力明显更强、更全面。隐私安全和能力更强怎么取舍，现实情况，消费者更愿意让渡隐私换取方便。除非那种对数据安全有极高需求的垂直行业。

不依赖网络和云端算力的真正优势，可能在于多模态的感知在终端本体实时进行、实时处理，当手机、AR眼镜、机器人需要大模型常驻，服务即时响应，端侧模型的不可替代价值就显现出来。你不可能等着图片、长文本、视频、声音上传云端，推理计算，再返回结果，有两次的网络传输延迟。

在消费者日常高频请求、高频度推理的时候，调用设备自身的算力，几乎没有成本。在云端每进行一次推理，完成一次任务，它的消耗却不能忽略，如果云端模型有天量的用户，也意味着天量的算力储备、电力消耗、带宽需求，用户量和交互请求的增长，服务器集群也要跟着扩建。

并不是所有的任务都需要调用云端的强大能力。压缩在端侧的小模型，随着模型能力发展，应该处理绝大多数高频任务和请求，而且On-device LoRA，几乎等同于只懂你一人、只服务你一个人的大模型。

端侧模型的趋势不可阻挡。端侧模型always-on的运行需求，已经开始主导硬件的演进。来自行业一线的基本判断是，“大模型在端侧的落地，内存大小、带宽的限制超过了算力限制。”算力可以很大，但数据会成为瓶颈，芯片一定要和算法做联合优化。

端侧模型厂商、芯片厂商、终端公司，最近有一个明显的趋势，它们在共同优化端侧模型在各种终端的运行。

之前，以云端大模型见长、主走B端的智谱，下半年开始瞄准AI Phone、AI PC，在C端的AI 硬件上动作频频，官宣与中国三星合作，开启与多家芯片公司的协作。同属清华系今年年初开始All in 端侧模型的面壁智能，在完成了跟MediaTek最新一代旗舰移动SoC天玑9400的端侧模型联合调校之后，再与英特尔协作，两家公司进行MiniCPM模型在酷睿Ultra 二代旗舰芯片的部署支持、适配优化、计算加速。荣耀、vivo这些终端品牌接连发布自研端侧模型和跑在上层的应用。

端侧模型和底层算力芯片，模型层和算力层的打通意义在于，终端推理的性能优化至关重要，经过优化的推理性能，以及芯片微架构的改进，可以较未经优化的原始性能提升数十倍。一个案例是，面壁MiniCPM在今年9月份这次和英特尔芯片的适配，相比2月份的“首次”，仅隔半年，提速169%。

现代的主流计算有三种体系，CPU、GPU 和ASIC思想下专门的NPU。从软件编写的角度看，CPU在通用性支持复杂指令和逻辑方面最强，高效率编译的开发工作量最小。GPU在硬件上比CPU更简单，数千个针对单一任务的并行处理单元，线程最多，但是软件编写更难，CUDA就是英伟达的长期耕耘才铸造的高效率GPU程序开发壁垒。而AI计算加速，Transformer原生优化的微架构，它需要非常大的矩阵乘法器，却是少得多的线程来做高负载的数学运算，它的编译难度是最大的。

大模型上端，早早着手硬件架构的演化，发展出在内存、数据处理带宽、更高编译效率的芯片架构，不仅仅是模型的压缩和性能更强，算力芯片和模型的联合优化，谁能提前布局、重视、乃至重构出一套体系，谁的胜算可能更大。

最后还是举特斯拉智驾的例子。直到今天，发展端到端智驾系统各家厂商使出了浑身解数，打造智能汽车这一的关键能力，但是底层的智驾芯片厂商，针对端到端还没有能拿出高算力、高带宽、适用专用算法的AI计算架构，主要动作依然是在传统架构下，优化制程工艺、提升AI算力。

如今国内车企主流使用的智驾芯片NVIDIA DRIVE Orin发布于2019年，地平线的征程5芯片发布于2021年。专用架构的AI芯片相较于通用芯片几乎是碾压式领先，若能基于端到端大模型优化和设计芯片，紧跟算法和模型的变化，必然能够推动端到端技术的进步和领先。

底层芯片厂商迟迟没有推出针对端到端大模型设计的芯片，在于端到端大模型真正爆火，还是特斯拉FSD Beta V12.3版本示范的。这种全新思维和体系的智驾系统，端到端大模型仍处于落地早期阶段，对于行业上游的底层硬件厂商还没有起到深刻影响。

等上游芯片终于推出了高效率的端到端智驾芯片，追赶上FSD，这个时间差之内，特斯拉新的FSD芯片和积累的大量人类驾驶数据训练的模型，恐怕又甩出追赶者一大截了。

端侧 AI 的硬件大潮袭来前，更应该了解特斯拉的成功故事

干货教程更多>>