
2026 年央视春晚展示的机器东谈主以致不错夹烤肠和用竹签串烤肠了,还有一台登上本次春晚的机器东谈主的价钱以致还是下探到万元以下,距离参加寻常庶民家确凿不远了。关联词,有一天确凿来了一个机器东谈主到你家里帮衬,扫尾它卡在了没法帮你回微信的第一步?
这听起来像是一个见笑,但其实是现时机器东谈主进家门遭逢的真实问题。现时许多事情都离不开手机:智能门锁需要授权密码、刷个抖音都得用手指滑动解锁。若是机器东谈主不会操作手机,那么当它干完扫地擦窗的活儿,碰到这些需要依赖手机的任务就只颖悟横眉。
英国伦敦大学学院汪军栽种团队赵皓宇博士生和相助者打造了一个名为 See-Control(视控)的框架,让机器东谈主像东谈主相通看屏幕和想考,然后使用机械手指戳点屏幕操控手机,透顶绕开了已往智高手机助手必须给手机插数据线以及使用系统斥地者器具能力操控的老蹊径。

图 | 赵皓宇(起原:受访者)
赵皓宇告诉 DeepTech:“咱们解决了现时大部分厂家都存在的一个痛点:自动化手机助手操作手机必须要通过系统斥地者器具配合数据线来与电脑聚首,何况只可操控单一手机操作系统。联想一下你家里有一台机器东谈主。也许是家务机器东谈主,或者你桌上的机械臂。通过咱们都备纯视觉的决策,不依赖任何平台斥地软件,不错推广到纵情的触屏斥地且不需要任何线接。同期用户不错保证苦衷不会有任何涌现,因为手机完都备全是机械臂物理点击交互,不需要绽开任何权限、斥地者条约,也不需要下载任何软件。用户都备无须惦记手契机不会涌现苦衷。包括部分不会用智高手机的老东谈主、不会用斥地者选项在内的非专科用户也不错通过这套系统来受益。”

频频,当咱们但愿使用电脑端正智高手机时,会使用一种叫作念 ADB(Android Debug Bridge,安卓调试桥)的器具。它就像一根“数字电缆”,让法子员不错径直向手机系统发送指示。
但问题就在这里,使用 ADB 的边幅与东谈主类使用手机的边幅并不相通,咱们不会把一根线插进大脑来翻开行使,而是通过看屏幕、用手指轻触来完成操作。另外,ADB 只撑持 Android 平台,还需要开启特殊的斥地者模式,这本人就可能带来一定的安全风险,就像给系统留了一扇莫得上锁的后门。
而基于物理交互边幅的 See-Control 的使命旨趣突出像咱们教老东谈主使用智高手机:机器东谈主盯着屏幕截图,脑子里的大模子分析这是微信红包照旧糊弄聚首,然后决定到底是点一下、齐整下照旧打几个字。统共这个词过程都备不碰手机核心部分,就像使用指尖操作相通自然。
为了让它真实靠谱,该团队极端盘算了 155 个日常任务让机器东谈主熟悉,从最节略的翻开成就,到复杂的在小红书搜索攻略、截图、发给微信好友,难度步步升级。测试扫尾诚然不算完好,节略任务的见效用还行(大于 90%),跳动多个 APP 的任务还有点昆季无措。但是,场所还是十分明晰,那等于改日的家用机器东谈主不错通过不雅察和触摸来接纳你的手机杂活。
该团队将手机操作问题建模为部分可不雅测马尔可夫决策过程(POMDP),何况将多模态大模子智商装进了机器东谈主里,使用了 GPT-4o、QwenVL 这么的视觉讲话模子,让机器东谈主不仅大致看见屏幕上的图标和笔墨,还能贯通点击某个头像背后的酬酢意图。
有个突出有瞻仰的盘算是视觉辅导:在智能体发出要对图标进行定位的指示时,机器东谈主先是用一个名为 Grounding DINO 的主见检测模子,把屏幕上可交互的按钮沿途框出来,标上数字 123,假如用户重心披萨,这时机器东谈主就会问大模子用户让点披萨应该点哪一个,大模子一看 3 号是某披萨品牌的图标,OK 就它了。这套历程效法了东谈主类扫一眼屏幕、锁定主见的本能响应。

自然,要让机器东谈主确凿在你的手机屏幕上戳来戳去,还需要解决几个头疼的技艺难题。最典型的是复返、退出和打字这三个动作。以前使用电脑上的系统斥地者器具举例 Android Debug Bridge(ADB)调试手机,一条指示就能处罚;现时机器东谈主只可使用物理手势,想复返就得从左向右滑,想了债到桌面就得从底部朝上推,突出是打字,OD体育还需要对虚构键盘的每一个键的位置都有准确的知道。这亦然现时复杂任务的见效用较低的原因。
但是该团队留了一个后手。他们把机器东谈主每次操作的想考过程和动作纪录沿途保存下来,作念成一个数据集公开共享。这里既有见效的资格,也有失败的申饬,以致标注了“这一步点对了吗”“统共这个词任务完成没”等信息,让其他讨论者也不错依靠这些数据磨练出更灵巧的机器东谈主。

行使场景自然距离咱们卓著近。比如,改日你在沙发上喊一声“帮我交话费”,机器东谈主就会摇摇晃晃地走过来,看入辖下手机屏幕点开支付宝和输入密码;再比如,当你外出健忘带手机,良友让家里的机器东谈主帮你截图快递二维码发到你的智高腕表上进行闪送;再再比如,家里有老东谈主不会使用打车软件,机器东谈主不错代劳叫车,送到病院还能帮衬挂号。
赵皓宇示意:“咱们作念的用户测试自满,好多东谈主都以为这种口头大致极猛进程上匡助到老年东谈主、过错东谈主士,或者一些没未必辰用手机的东谈主,极大减缓使命时辰,进步使命效果。联想一位重度畅通约束患者或老大的老东谈主:他们可能无法捏持手机,或者因为手抖而难以精确点击轻飘的图标。有了 See-Control,只需对语音助手说一句:‘给我孙子打微信电话。’机器东谈主就会自动在手机屏幕上操作——翻开行使、找到关系东谈主、点击招呼按钮,一气呵成。它像一座桥梁,把数字寰宇与用户的肉体死心聚首起来,让正本难题以致不能能完成的操作,变得节略而可及。”
平方活命中咱们可能要抢券、点外卖,这一切都融会过手机助手解决掉。通过赋能机器东谈主使用手机,咱们不错幻想不仅仅让手机助手点外卖,机器东谈主以致不错完成点外卖到帮你径直将外卖拿到你的身边的全历程。同期也有买卖可能性,比如在小红书自动寻找商机、恢复挑剔、找到相应帖子,这都能便利日常活命,极大减缓使命历程。“因为咱们这个解决决策是沿途物理讲和,遁入了行使本人存在的死心。”他说。
这种操作边幅不错自然地保护苦衷。已往用系统斥地者器具,等于给机器东谈主开了一扇后门,关系东谈主、相册、聊天纪录等一望浩瀚。现时它只可看到屏幕,让它点啥就点啥,绝未几看一眼。
{jz:field.toptypename/}自然,现时的原型机还比拟节略,只须一根手指,作念不了放大和松开这种双指操作,响应速率也有所蔓延。据了解,该团队刻意使用最节略的机械臂作念测试,等于为了先把最难的问题暴露馅来,比如怎么在反光的屏幕上精确定位,怎么贯通林林总总的 UI 盘算,怎么从不实中学习。这些问题一朝解决,改日搭配更纯确凿机械手、更快的腹地推理芯片,也许过不了几年确凿只需动动嘴就能让机器东谈骨干活了。

赵皓宇示意:“咱们的愿景是通过 See-Control 这套系统,完满一个协调的解决决策。这套决策不存在职何平台死心,等于用一套纯视觉的决策,通过手机屏幕画面,让机器东谈主像模拟东谈主类那样去主管手机。沿途都是拟确凿、物理的操作,不限于任何手机、任何平台。在改日,咱们也但愿这套纯视觉决策不错无缝衔尾到不同的触摸斥地上头,通过机械臂完成一切需要像东谈主类相通交互的逻辑。”
在改日,其但愿机器东谈主不仅仅家中的扫地机器东谈主,而是大致看成一个核心、一个全面的助手来匡助东谈主类活命。不错联想,改日可能有过错东谈主士通过咱们这套具身智能体来点外卖,机器东谈主就不错去拿外卖、下订单,都备完满自动交互。