首页 > 实用技巧 > 干货教程 > AI大家说 | 自动驾驶、人形机器人、数据瓶颈 OpenAI 创始成员谈未来

AI大家说 | 自动驾驶、人形机器人、数据瓶颈 OpenAI 创始成员谈未来

发布时间:2024-09-23 16:47:03来源: 13041198719

近日,OpenAI的早期成员和著名AI研究者Andrej Karpathy在No Priors播客中现身,畅聊了他对AI现状与未来发展,以及自动驾驶、人形机器人等行业的预判。

 

访谈涵盖了广泛的主题,从自动驾驶技术的现状和未来,到AI研究的最新进展;从大语言模型的发展潜力,到AI在教育领域的革命性应用;从人机融合的可能性,到AI对人类认知和学习方式的深远影响。Karpathy凭借其在OpenAI、特斯拉等顶尖科技公司的丰富经验,输出了独特而深刻的见解。

 

Karpathy在访谈中强调,AI不应该是取代人类,而是应该成为赋能人类的工具。他深入探讨了AI研究的技术细节,包括Transformer架构的重要性、合成数据的潜力与挑战、小型高效模型的发展前景等。本期「AI大家说」精选了本次访谈中Karpathy的观点。

 

来源:No Priors

 

01 自动驾驶与人形机器人

 

Q:人形机器人的第一个落地场景是什么?

 

Karpathy:很多人可能会想着让机器人去洗衣服、做家务什么的,但我觉得那会很晚才实现。我不认为B2C是个好起点。

 

我认为最好的第一批客户就是公司自己。可以先在工厂里使用它,比如做一些物料搬运的工作。你可以自己先孵化它,然后第二步再去做B2B。你可以去那些有大型仓库的公司,帮他们处理物料、签合同、设置围栏,做所有这些事情。等你在多家公司验证过后,我觉得那时才能开始进入B2C应用领域。我相信未来我们会看到B2C的机器人出现,比如像宇树科技推出的产品。可能还会有一些人在这些平台上建立一个生态系统。总之,最初肯定还是会涉及大量的物料搬运,逐步向更具体的应用发展。

 

Q:你如何看待现在自动驾驶的能力发展路径?

 

Karpathy:我曾在自动驾驶领域花了大约五年的时间。我觉得自动驾驶其实和AGI在某种层面上是相似的,而且我觉得我们在自动驾驶方面已经触及到了一点AGI——现在一些自动驾驶已经可以做到带你在某个城市里随意地逛了。然而,它还没有实现全球化。

 

最近自动驾驶有个趋势,就是向端到端深度学习的转化,用神经网络逐步取代整个系统栈。像这样的端到端系统,在大约10年内,可能就是一个完整的神经网络了。视频流输入神经网络,最后直接输出控制指令。这种端到端驾驶,只是模仿人类的行为,用很少的监督数据去训练一个庞大的神经网络。对于几亿个参数来说,这种信号太少了。所以,这些中间层表征可以帮助开发各种特征和检测器,让端到端部分变得更容易。

 

Q:人形机器人有什么是可以转移到自动驾驶的吗?

 

Karpathy:其实,我觉得车在自动驾驶中基本上就是个机器人。很多人认为特斯拉只是一家汽车公司,但它其实是一家大规模的机器人公司。规模化本身也是一个完全不同的变量。他们不是在造单一的产品,而是在造可以制造产品的机器,这完全是两回事。从汽车到人形机器人的转变其实没那么难。早期版本的Optimus机器人甚至以为自己是辆车,因为它用的电脑和摄像头跟车完全一样。特别有趣的是,我们在机器人上运行的是汽车的算法,而它却在办公室里四处移动,试图识别可驾驶的空间,但实际上它面对的是步行空间。虽然有些细微的调整需要做,但基本上,它在开车的环境里运行,实际上只是在行走

 

虽然目前会缺少数据,但其实在智能方面,有很多可以转移的东西。不仅是具体的神经网络,还包括整个方法论、团队,以及所有的协调和大家使用的方法。

 

Q:你认为相对于未来,现在的机器人技术里缺少了什么关键技术?

 

Karpathy:在人形机器人这种形态中,下半身的控制可能不太适合通过示范来进行模仿学习。因为下半身涉及很多像倒立摆控制这样复杂的力学问题。而对于上半身,我觉得可能需要更多的远程操作、数据收集和端到端的处理。

 

02 AI的现在与未来

 

Q:你怎么看待数据壁垒以及规模进一步发展的成本问题?

 

Karpathy:首先我不认为神经网络架构在从根本上限制我们了。以前Transformer是一种瓶颈,但现在它已经不再是瓶颈了。现在我们更多地在讨论的是:使用什么是损失函数?数据集在哪里?这些问题几乎成为了瓶颈。

 

这不再是一个基于你想要它变成什么而重新配置的通用组织。这就是为什么许多研究已经转移到了这个领域。很多公司和其他应用这种技术的企业不再怎么考虑Transformer的架构创新了——它在过去五年里没有太多革命性的变化,大家现在已经把它视为理所当然,直接使用并进行训练。现在,大部分的创新都集中在数据集和功能细节的优化上。这是目前行业内活跃的讨论和改进领域。

 

现在,很多工作都在语言模型(LMS)上进行。而互联网数据并不是我们理想中的Transformer训练数据。我们真正想要的,是更接近人类大脑中的“内心独白”那种数据——当你在解决问题时,你的大脑会产生一系列思维轨迹。如果我们能得到上亿条这样的数据,类似于AGI的想法,那我们就能取得很大进展。但目前我们还没有达到这个水平。

 

所以,现在很多工作都围绕着互联网数据展开。这些数据虽然不是完美的,但已经非常接近,因为互联网上有足够的推理痕迹和丰富的知识,而Transformer的作用就是让这些数据得以有效利用。

 

我认为,接下来很多工作将聚焦于如何将数据集重构为更类似于“内心独白”的格式。合成数据的生成在这方面能提供很大帮助。

 

有趣的是,当前的模型在很大程度上帮助我们构建下一代模型。它就像在攀登楼梯,一步步向前推进。

 

Q:你认为合成数据有多大用处,或者说能带我们走多远?

 

Karpathy:我认为合成数据的确是我们进步的关键之一,但一个常见的问题是,模型在生成内容时可能出现“坍塌”现象,输出变得单一。

 

比如,让ChatGPT讲笑话时,它可能只会重复三四个笑话,缺乏足够的变化。这种“熵”降低现象表现在单个结果上并不明显,但从整体来看,模型的输出会失去多样性和丰富性。

 

如果你没有保持这种数据的随机性和多样性,你就会得到一个贫瘠的数据集,失去了原有的活力。这种问题在表面上不易察觉,但实际上它会极大影响模型的性能。因此,在生成合成数据时,你必须非常小心,确保数据集中保留足够的熵。

 

Q:你认为我们从这项研究中对人类认知了解了什么?

Karpathy:总体而言,这两者还是有很大差异的,但确实有一些相似之处。例如,在很多方面Transformer比人脑更高效。它们之所以还不如人脑,主要是因为数据问题——这算是一个大概的解释。

 

比如,Transformer在记忆序列方面比人类强多了。你给它一个序列,它可以在前后进行操作,记住并完成整个序列。而人类,只看一遍是记不住的。

 

所以在某些方面,像Transformer这样的模型,尤其是在梯度优化上,可能比大脑还要有效。尽管它们还不完美,但在很多认知任务上,我认为它们有很大的潜力。

 

我觉得人类大脑有很多限制。我们的工作记忆非常小,而Transformers的工作记忆要大得多,并且这种差距会持续扩大。它们是更高效的学习者。大脑在各种限制下工作,比如不清楚大脑是否使用反向传播,也不知道那会如何运行。大脑是一个非常随机、动态的系统,受环境和其他因素的制约。所以,我认为我们现在的技术,潜力上比大脑更强,只是还没完全到达那个水平。

 

Q:未来随着时间推移,人类会怎么样和AI系统结合?

 

Karpathy:我们其实已经在某种程度上融合了。问题在于输入输出的瓶颈。但大多数情况下,如果你拥有这些模型中的任何一个,你已经在使用它们了。或许未来,通过某种形式的融合可以解决未来与AI或其他系统的潜在冲突。我觉得这有点像大脑的外层皮质。我们是在新皮层上继续构建。只是这次,它是在云端,而不是在我们头脑里,但本质上,它是大脑的下一层。

 

Q:你认为未来的模型会是什么样的?

 

Karpathy:我觉得模型可以小到让你意想不到。现在的模型浪费了很多容量在记住一些不重要的东西上,这是因为我们用的数据集没有整理得很好。我认为这种情况会改进的。我们需要做的是找到认知的核心部分,我相信这个核心可以非常小。它只需要能思考,如果需要查找信息,它知道怎么用不同的工具来获取。

 

我觉得10亿参数就够了。我们有可能做到这一点。模型可以做得非常小。这是因为蒸馏技术很有效。蒸馏就是用一个大模型或者大量的计算资源去训练一个小模型,你可以把很多功能压缩到一个小模型里。

 

也许这个未来不是一个单一的模型,可能是并行的一组模型。你能从并行处理的优势中获益。我觉得公司在某种程度上也应该强调工作中的并行化。不过,公司存在的层级结构是为了有效地组织信息。

干货教程更多>>

Audio-Technica 监听耳机 ATH-M20x 和麦克风 AT2020 白色型号 舒服不伤耳,轻便不漏音,QCY C30开放式耳夹耳机 中消协36款无线耳机比较试验:漫步者、万魔等表现较好 新一代蓝牙核心规范发布,2028年蓝牙设备年出货量将达75亿台 0.013精度、无线4K,aesco首发两款无线电感轴键盘 百元无线轻量化鼠标,黑爵A159 Pro评测PAW3395、无线8K、磁吸充电 联发科天玑9400处理器GPU跑分曝光,比苹果A18 Pro强86% 安谋科技首款自研“玲珑”DPU和新一代VPU处理器公布,自研相关芯片出货量已超5亿颗|硅基世界 为什么后来的笔记本电脑都设计成不能升级cpu了? 4070和7900xt怎么选 显卡4070和7900xt对比详解 AOC“U32U3D”31.5英寸显示器开售:4K 60Hz Nano IPS,3789元 优派“VX2757-2K-PRO-3”27英寸显示器上架:2K 240Hz,1299元 高配小主机加装SSD固态硬盘,我选择性能与设计兼备的希捷酷鱼 530 微星为旗下主板提供基于AGESA 1.2.0.2 BIOS:降低CCD延迟,提升CPU性能 想升级主机,又不想淘汰DDR4内存,哪种升级方案性价比最高? 【两千字】微星MAG PANO 100L PZ刃PLUS海景房机箱游戏主机配置分析 高性价比的6款mini小主机,最低200元,最贵才500元 腾讯出品的7款黑科技工具,哪款是你的最爱? 腾讯视频正式定档!9月29号正式开播,男女主颜值超级养眼,爱了 海尔智家连续5个交易日上涨,期间累计涨幅10.36% 2024中网开赛,海尔作为独家家电合作伙伴亮相! 营收 (亿元)数据---美的 海尔 格力 海信 美菱 TCL 格力电器9月23日创一年新高,盘中最高触及41.63元 吴洪亮:以美的方式双向奔赴、照鉴未来 长虹发布“全球首款”AI电视Q10T MAX,支持人感交流,无开机广告 AI大家说 | 自动驾驶、人形机器人、数据瓶颈 OpenAI 创始成员谈未来 免费!共8天!贵阳高新区造无人驾驶小巴邀你体验 和无人驾驶小巴免费打卡贵州科学城的一天! 清华大学教授唐杰:探索人工智能技术的更多可能! 新华全媒+|声、视、感,在“三谷”看安徽人工智能产业新趋势