以GPT-4为代表的大型模型已经内置了大脑留学英语,下一步就是需要一个能够承载这个大脑的机器人本体。
昨晚,人形机器人明星公司Figure AI震撼发布了一段视频,展示了他们的机器人Figure 01在OpenAI强大模型的支持下进行的一系列对话交互。
视频中的机器人表现出了灵活的操作反应,与人类交流的流畅度几乎可以与真人相媲美。
这距离Figure AI获得OpenAI、微软、英伟达等公司投资还不到半个月。 它还让我看到了OpenA最强大的多模态大型模型在有实体的情况下会是什么样子。
图01,最懂你的人形机器人?
得益于OpenAI多模态大模型的强大支持,图01现在已经成为桌面上的物体识别专家。 苹果、滤水器、杯子和盘子对它来说都是小菜一碟。
当你饿了学英文,想让它吃一大口的时候,它会立刻理解你的想法,顺利地递给你一个苹果。
此外,它甚至可以捡起你丢弃的垃圾,并向你解释为什么它刚刚给了你苹果。 借助大模型佛山英语辅导班学英语,图01可以理解餐桌上唯一的食物——苹果。
在人的指挥下,人物01还可以做家务、收餐具。 这个机器人简直就是家庭生活中的最佳伙伴。
完整视频如下(已翻译):
您当前的设备暂时不支持播放
视频来自:@op7418
看到这段令人震惊的视频后,网友们的反应五花八门。
网友们迫不及待地给图01分配任务。任务列表里怎么混有机器人前辈的电影呢。
参赛者们是不是见此害怕,心中着急懂你英语A+学英语武汉,准备暗自摩拳擦掌,准备一场技术大比拼呢?
更有兴奋的网友表示,AGI的曙光似乎指日可待。
当然,也总有一些批评的声音。 有网友抱怨,这个机器人说话怎么会结巴呢?
网友们也不放过调侃的机会。
Figure AI 负责人 Brett Adock 也不甘寂寞剑桥少儿英语,在 X 上跳出来给出了精彩解读:
该视频演示了端到端神经网络的应用。 在此过程中不使用远程控制(teleop)。 视频以实际速度(1.0 倍速)拍摄并且是连续的。 正如您在视频中看到的懂你英语A+,机器人的速度有了显着提高,我们正在逐渐达到与人类相似的速度。
无需远程控制,自学成才
那么图01是怎么做到的呢?
图 AI 团队负责人 Corey Lynch 在 X 上对此进行了解释。
具体来说,视频中演示的所有行为都是学习的(不是远程控制的)并以真实的速度(1.0 倍速度)执行。
Figure AI 将机器人摄像头捕捉到的图像和通过机载麦克风记录的语音转录文本输入到由 OpenAI 训练的多模态模型中武汉学英语,该模型可以理解图像和文本信息。
该模型处理整个对话历史记录,包括过去的图像,以生成口头响应并通过文本转语音与人类对话。 同一模型还负责决定执行哪些学习的闭环行为来响应给定的命令。 它将特定的神经网络权重加载到GPU上并执行相应的策略。
将Figure 01 连接到大型预训练多模态模型为其带来了许多有趣的新功能。
现在,图01+OpenAI可以:
详细说明其周围环境。
做出决定时使用常识推理。 例如北京英文,“餐具,比如盘子和杯子机构英文,接下来很可能会被移到晾衣架上。”
将模糊的高级指令(例如“我饿了”)转换为适合情境的行为儿童学英语,例如“递给那个人一个苹果”。
用简单的英语解释为什么它执行特定的操作。 例如,“这是我可以从餐桌上提供的唯一可食用的物品。”
说到图01通过学习掌握的精细动手能力,背后其实有一系列复杂而微妙的原理。
所有行为均由神经网络的视觉到运动转换器策略驱动网课外教,该策略直接将图像像素映射到动作。 这些网络以每秒 10 帧的速率接收机器人内置的图像儿童英语培训,并每秒生成 200 次 200 次 24 自由度运动(包括手腕姿势和手指关节角度)。
这些运动作为高速“设定点”,由更高速的全身控制器进行跟踪,确保运动的精确执行。
这种设计实现了有效的关注点分离:互联网预训练模型对图像和文本执行常识推理,以生成高级计划。
学习到的视觉运动策略执行该计划大庆英语,执行难以手动指定的快速反应行为,例如在任何位置操纵可变形袋子。
同时,全身控制器还负责保证动作的安全性和稳定性,例如保持机器人的平衡。
对于图01所取得的巨大进步,科里·林奇感叹道:
就在几年前,我还以为与能够自主规划和执行学习行为的人形机器人进行全面对话将在未来几十年内完成。 显然,很多事情都发生了巨大的变化。
这会是人形机器人的 GPT 时刻吗?
不得不说懂你英语A+,图01的开发速度就像是踩着油门,一路狂奔。
今年1月,图01掌握了煮咖啡的技巧。 这一成就归功于端到端神经网络的引入,使机器人能够自主学习并纠正错误,仅需要 10 个小时的训练。
一个月后芜湖英语,Figure 01 学会了抬起箱子并将其运送到传送带上的新技能,尽管速度只有人类的 16.7%。
在这个过程中,Figure AI商业化的脚步并没有停止。 与宝马制造公司签署商业协议,将人工智能和机器人技术融入汽车生产线,并落户宝马工厂。
随后,就在两周前,Figure 宣布完成 6.75 亿美元的 B 轮融资,公司估值飙升至 26 亿美元。
投资者几乎覆盖了硅谷的一半——微软、OpenAI Venture Fund、NVIDIA、Jeff Bezos、Parkway Venture Capital、Intel Capital和Align Ventures等。
当时,OpenAI和Figure还宣布将联合开发下一代人形机器人AI模型。 OpenAI的多模态模型将扩展到机器人感知、推理和交互。
现在英语外教,从图01中,我们似乎能够瞥见未来生活的一个草稿。
事实上,在大型模型出现之前惠州英语,机器人就是专门的设备。 现在随着大型模型的通用能力,通用机器人开始出现。 现在我们不仅需要ChatGPT英文口语,还需要WorkGPT。
这些演变间接印证了一条清晰可见的路径:大型AI模型扎根后,最终将进入现实世界,而具身智能是最好的路径。
一直活跃在AI第一线的NVIDIA创始人黄仁勋曾表示:“体现智能将引领下一波人工智能浪潮。”
将OpenAI大模型融入图01也是一种有意的战略布局。
成熟的人工智能大模型充当人工大脑昆明外教,模拟人脑复杂的神经网络,实现语言理解、视觉识别、情境推理等认知功能,为机器人解决更高层次的认知和决策问题。
同时,机器人本体中集成了各种传感器、执行器和计算单元,实现感知以及与环境的交互。 例如,视觉系统可以捕获图像和视频,触觉传感器可以感知物体的形状和纹理。
Figure AI创始人Brett Adcock此前在接受采访时表示,未来1-2年,Figure AI将重点开发标志性产品英语一年多少钱,并期望在未来一两年内向公众展示人形机器人的研发成果外教网上,涵盖AI系统、底层控制等,最终诞生出能在日常生活中大显身手的机器人。
他还透露,从成本来看,一个人形机器人大约有1000个零件,重量约为150磅(68公斤),而电动汽车可能有大约10000个零件,重量高达1800磅(1800-2250公斤)。
因此,从长远来看,人形机器人的成本预计将低于廉价电动汽车,具体取决于执行器、电机组件、传感器和计算成本的成本。
机器人专家 Eric Jang 曾提出自己的见解:“虽然很多 AI 研究人员认为通用机器人还需要几十年的时间才能普及,但不要忘记 ChatGPT 几乎是一夜之间诞生的。”
一年前的今天学英语英文,OpenAI 发布了 GPT-4ChatGPT终于有身体了,能说话、看书、做家务外教英语,向世界证明了大型模型的力量。
一年后的今天,我们没有等到GPT-5,但我们也迎来了图01。这会是人形机器人的GPT-4时刻吗?