新闻与活动 西湖新闻 有趣的实验

“老张”归来,重新定义人机交互
有趣的实验
冯晨希 工学院 2025年04月15日
媒体联系 张弛邮箱: media@westlake.edu.cn
电话: +86-(0)571-86886861
公共事务部

2008年,徐州树人中学的论坛里,一款名叫《树人历险记》的游戏悄然登上精华帖榜首。红黄相间的教学楼,紧闭的操场大门,像素化的校园里藏着少年的探险梦。游戏的开发者只留下一个神秘的署名——“老张”。

“老张”名叫张驰,14岁,课余时间全砸在了自学编程上。他用笨拙的代码,将现实中的校园一寸寸搬进游戏世界。玩家们追逐、探索、解谜,在虚拟世界的走廊上肆意奔跑。游戏一时风靡校园,“老张”这个名字,也成了贴吧里的一段传说。2020年,仍有玩家偶尔登录,在早已停更的《树人历险记》里转悠几圈。像素画风早已过时,但那些粗糙的代码里,藏着一个少年对“创造世界”最初的执念。

应该没人能想到,这个躲在屏幕后的初一学生,会在十多年后,用另一种方式重新定义人与机器的交互。



01  让机器理解人类

“帮我给同事发送一封邮件,告知周五下午2点开会的地点在E2-216。”

“好的,已发送。目前有12人确认参会,6人未回复,需要再次通知吗?”


这段看似是人与人之间的对话,实则发生在人和智能体AppAgent之间。

AppAgent是诞生在西湖大学张驰实验室的最新研究成果。简单来说,它可以理解人的语音指令,并通过操作手机,帮助人类完成一系列操作。

AppAgent自动发送邮件示例

比如,我们不再需要记住“打开APP-选餐厅-挑菜品-下单”这样的固定流程,而是可以直接说:“我饿了,想吃点东西”,智能体就能理解意图,甚至主动推荐:“附近有家新开的披萨店,评分很高,要不要试试?”

再比如,当年轻人用五秒钟完成外卖下单时,很多老人还在艰难地学习APP的使用方法。他们的小本子上记满了密密麻麻的操作步骤,可一旦APP界面更新,这些笔记就全都作废了。AppAgent或许可以改变这一局面,老年人不再需要皱着眉头,把手机拿远,费劲地点击手机,而是把需求告诉AppAgent,让它去执行,语音导航、上网买菜、查询药品说明书等操作,它都能轻松完成。

这两个例子给我们的直观感受是,AI变聪明了。但聪明背后的原因是思考逻辑的转变。

“最早,计算机只认命令行,程序员们必须记住一长串晦涩的指令才能让它干活,就像和一台机器说密语——只有懂行的人才能驾驭。后来,图形界面(GUI)出现了,复杂的代码操作被隐藏在按钮、菜单和拖拽手势背后,普通人不再需要理解背后的原理,点一点、划一划就能完成任务。而今天,诸如AppAgent一类的智能体的出现,让交互方式又向前迈进了一步——这一次,技术直接理解了人类的语言。”张驰解释道,这种变化是AI开发者对每一个真实个体的关注和理解。

AppAgent自动P图示例

或许,人工智能的终极目标,是让机器理解人类,而非让人类理解机器。



02  让AI长出“眼睛和手”

“早上好,先生。今日天气晴,气温23度。需要我为您启动Mark VII战甲吗?”


这是《钢铁侠》中贾维斯与托尼·斯塔克的经典对话。在那个充满未来感的电影宇宙里,AI助手能操控战甲、管理实验室,甚至预判主人的每一个需求。西湖大学张驰团队研发的AppAgent,可能是普通人触手可及的“贾维斯”雏形。

但“贾维斯”毕竟是科幻电影。回归现实,智能体AppAgent究竟是如何工作的?

像人类初次接触一个新的APP一样。当AppAgent装入你手机的那一刻,它就长出了“眼睛”,能够看到手机屏幕按钮所在的位置。接着它会开始自主探索,比如点击“微信图标”,微信呈现出聊天界面,AppAgent马上就会知道微信是一款聊天软件。在自主探索过程中,AppAgent通过一系列预定义的动作与手机应用互动,观察每个动作带来的界面变化,构建出属于自己的知识库。一段时间后,这个知识库就会覆盖社交媒体、电子邮件、地图、购物以及复杂的图像编辑工具,摇身一变,成为一个有“知识储备”的智能体。

AppAgent自主探索示例

除了自主探索,AppAgent还能向人类学习。比如,你用手机管理过一次日历,过程中点击了“确认、撤销、完成”等按钮,安排好了某一天的会议日程。AppAgent就不仅知道这个软件可以管理日历,还学会了软件中人类操作过程中点击的每一个按钮,下一次管理日程这件事,就可以交给它来处理。

AppAgent部署使用示例

“把每一步操作前后的界面截图保存下来,通过对比分析每个按钮、菜单等功能是做什么用的,操作后有什么变化。最后把这些发现整理成文档,写明各个界面元素的作用和操作后的效果。”张驰介绍了智能体背后的技术细节。

如果说大语言模型是“大脑”,智能体就是延伸出的“一只手”。

大语言模型的局限,在于被封印在语音和文本里,看不见也摸不到真实世界的交互界面。而AppAgent的突破正在于此,它为AI装上了观察屏幕的“眼睛”和点击操作的“手指”。在不久的将来,或许每个人都能拥有一个真正理解数字世界,并能替我们完成重复性工作的AI智能助手。



03  AI向好,但风险尚存

“儿子,我刚刚收到一条短信说中奖了,要点击链接领奖...”

“妈!千万别点!那是诈骗!”


技术的普及往往伴随新的挑战。当AI助手为我们打开便利之门时,数据安全的暗流也在门缝间悄然涌动。

想象这样一个场景:林阿姨让AppAgent帮孙子报名夏令营。AI流畅地打开浏览器,填入身份证号、家庭住址、紧急联系人……突然弹出支付失败的提示。第二天,林阿姨接到自称“夏令营老师”的电话,对方准确报出孩子的过敏史和放学路线。原来昨晚的报名网站是钓鱼页面,AI在操作时,所有输入信息都已暴露在黑客的监控下。

AppAgent是否会存在这样的问题?张驰坦言:“安全确实是一个很值得讨论的问题,现有的Agent涉及密码输入、支付等敏感操作,会自动切换为人工模式,确保不记录任何敏感信息。更高级别的保密性,或许是我们未来考虑的研究方向。”

AI在进步,但也伴随着风险。研究者们对此有什么思考?

张驰回忆起2016年。阿尔法狗以4:1击败李世石时,他刚结束在澳大利亚的交换学习,第一次真正触摸到AI研究的脉搏。那场人机对战像一场全球震颤的地震——有人欢呼机器智慧的崛起,也有人恐惧“人类被取代”的预言。张驰反复观看阿尔法狗的棋局回放,白色光标如幽灵般落在棋盘上,那一刻他忽然理解了技术的两面性:创新的另一面,也可能是失控的“黑箱”。

当技术狂奔时,或许真正的冒险,是在便利与安全间找到那个微妙的平衡点。


04  尾声

夕阳将树影拉长在红黄相间的教学楼上,那个曾用像素方块搭建世界的少年,如今正编织着更复杂的规则。

2008年,《树人历险记》的玩家们总爱聚在树人中学操场那扇紧闭的铁门前——游戏里,那是一个神秘的探险区,门后藏着少年“老张”精心设计的代码,也藏着玩家们对未知的想象。

实验室的屏幕蓝光映在张驰脸上,像极了当年贴吧里跳动的像素。智能体的“眼睛”正扫描着无数虚拟门扉:支付页面的加密锁、隐私协议的迷宫、弹窗广告的诱饵……每一扇门后都可能藏着风险,但也通向更自由的交互。

他忽然想起初中操场那扇铁门。当年,锈蚀的门锁挡住了少年探索的脚步,门后的世界成了永远的谜。如今,他终于能用算法铸成钥匙,在安全与自由的边界,谨慎地推开那道尘封的门——这一次,光终于能照进去了。

该研究工作被人机交互领域顶级国际会议 CHI 2025(The ACM CHI Conference on Human Factors in Computing Systems)录用。

通用人工智能(AGI)实验室关注生成式人工智能,多模态大模型研究,长期招收科研助理、访问学生、博士生、博士后。如有兴趣加入,请邮件联系chizhang@westlake.edu.cn。

Baidu
map