“老张”归来，重新定义人机交互

有趣的实验

冯晨希工学院 2025年04月15日

媒体联系张弛邮箱: media@westlake.edu.cn
电话: +86-(0)571-86886861 公共事务部

2008年，徐州树人中学的论坛里，一款名叫《树人历险记》的游戏悄然登上精华帖榜首。红黄相间的教学楼，紧闭的操场大门，像素化的校园里藏着少年的探险梦。游戏的开发者只留下一个神秘的署名——“老张”。

“老张”名叫张驰，14岁，课余时间全砸在了自学编程上。他用笨拙的代码，将现实中的校园一寸寸搬进游戏世界。玩家们追逐、探索、解谜，在虚拟世界的走廊上肆意奔跑。游戏一时风靡校园，“老张”这个名字，也成了贴吧里的一段传说。2020年，仍有玩家偶尔登录，在早已停更的《树人历险记》里转悠几圈。像素画风早已过时，但那些粗糙的代码里，藏着一个少年对“创造世界”最初的执念。

应该没人能想到，这个躲在屏幕后的初一学生，会在十多年后，用另一种方式重新定义人与机器的交互。

01 让机器理解人类

“帮我给同事发送一封邮件，告知周五下午2点开会的地点在E2-216。”

“好的，已发送。目前有12人确认参会，6人未回复，需要再次通知吗？”

这段看似是人与人之间的对话，实则发生在人和智能体AppAgent之间。

AppAgent是诞生在西湖大学张驰实验室的最新研究成果。简单来说，它可以理解人的语音指令，并通过操作手机，帮助人类完成一系列操作。

AppAgent自动发送邮件示例

比如，我们不再需要记住“打开APP-选餐厅-挑菜品-下单”这样的固定流程，而是可以直接说：“我饿了，想吃点东西”，智能体就能理解意图，甚至主动推荐：“附近有家新开的披萨店，评分很高，要不要试试？”

再比如，当年轻人用五秒钟完成外卖下单时，很多老人还在艰难地学习APP的使用方法。他们的小本子上记满了密密麻麻的操作步骤，可一旦APP界面更新，这些笔记就全都作废了。AppAgent或许可以改变这一局面，老年人不再需要皱着眉头，把手机拿远，费劲地点击手机，而是把需求告诉AppAgent，让它去执行，语音导航、上网买菜、查询药品说明书等操作，它都能轻松完成。

这两个例子给我们的直观感受是，AI变聪明了。但聪明背后的原因是思考逻辑的转变。

“最早，计算机只认命令行，程序员们必须记住一长串晦涩的指令才能让它干活，就像和一台机器说密语——只有懂行的人才能驾驭。后来，图形界面（GUI）出现了，复杂的代码操作被隐藏在按钮、菜单和拖拽手势背后，普通人不再需要理解背后的原理，点一点、划一划就能完成任务。而今天，诸如AppAgent一类的智能体的出现，让交互方式又向前迈进了一步——这一次，技术直接理解了人类的语言。”张驰解释道，这种变化是AI开发者对每一个真实个体的关注和理解。

AppAgent自动P图示例

或许，人工智能的终极目标，是让机器理解人类，而非让人类理解机器。

02 让AI长出“眼睛和手”

“早上好，先生。今日天气晴，气温23度。需要我为您启动Mark VII战甲吗？”

这是《钢铁侠》中贾维斯与托尼·斯塔克的经典对话。在那个充满未来感的电影宇宙里，AI助手能操控战甲、管理实验室，甚至预判主人的每一个需求。西湖大学张驰团队研发的AppAgent，可能是普通人触手可及的“贾维斯”雏形。

但“贾维斯”毕竟是科幻电影。回归现实，智能体AppAgent究竟是如何工作的？

像人类初次接触一个新的APP一样。当AppAgent装入你手机的那一刻，它就长出了“眼睛”，能够看到手机屏幕按钮所在的位置。接着它会开始自主探索，比如点击“微信图标”，微信呈现出聊天界面，AppAgent马上就会知道微信是一款聊天软件。在自主探索过程中，AppAgent通过一系列预定义的动作与手机应用互动，观察每个动作带来的界面变化，构建出属于自己的知识库。一段时间后，这个知识库就会覆盖社交媒体、电子邮件、地图、购物以及复杂的图像编辑工具，摇身一变，成为一个有“知识储备”的智能体。

AppAgent自主探索示例

除了自主探索，AppAgent还能向人类学习。比如，你用手机管理过一次日历，过程中点击了“确认、撤销、完成”等按钮，安排好了某一天的会议日程。AppAgent就不仅知道这个软件可以管理日历，还学会了软件中人类操作过程中点击的每一个按钮，下一次管理日程这件事，就可以交给它来处理。

AppAgent部署使用示例

“把每一步操作前后的界面截图保存下来，通过对比分析每个按钮、菜单等功能是做什么用的，操作后有什么变化。最后把这些发现整理成文档，写明各个界面元素的作用和操作后的效果。”张驰介绍了智能体背后的技术细节。

如果说大语言模型是“大脑”，智能体就是延伸出的“一只手”。

大语言模型的局限，在于被封印在语音和文本里，看不见也摸不到真实世界的交互界面。而AppAgent的突破正在于此，它为AI装上了观察屏幕的“眼睛”和点击操作的“手指”。在不久的将来，或许每个人都能拥有一个真正理解数字世界，并能替我们完成重复性工作的AI智能助手。

03 AI向好，但风险尚存

“儿子，我刚刚收到一条短信说中奖了，要点击链接领奖...”

“妈！千万别点！那是诈骗！”

技术的普及往往伴随新的挑战。当AI助手为我们打开便利之门时，数据安全的暗流也在门缝间悄然涌动。

想象这样一个场景：林阿姨让AppAgent帮孙子报名夏令营。AI流畅地打开浏览器，填入身份证号、家庭住址、紧急联系人……突然弹出支付失败的提示。第二天，林阿姨接到自称“夏令营老师”的电话，对方准确报出孩子的过敏史和放学路线。原来昨晚的报名网站是钓鱼页面，AI在操作时，所有输入信息都已暴露在黑客的监控下。

AppAgent是否会存在这样的问题？张驰坦言：“安全确实是一个很值得讨论的问题，现有的Agent涉及密码输入、支付等敏感操作，会自动切换为人工模式，确保不记录任何敏感信息。更高级别的保密性，或许是我们未来考虑的研究方向。”

AI在进步，但也伴随着风险。研究者们对此有什么思考？

张驰回忆起2016年。阿尔法狗以4:1击败李世石时，他刚结束在澳大利亚的交换学习，第一次真正触摸到AI研究的脉搏。那场人机对战像一场全球震颤的地震——有人欢呼机器智慧的崛起，也有人恐惧“人类被取代”的预言。张驰反复观看阿尔法狗的棋局回放，白色光标如幽灵般落在棋盘上，那一刻他忽然理解了技术的两面性：创新的另一面，也可能是失控的“黑箱”。

当技术狂奔时，或许真正的冒险，是在便利与安全间找到那个微妙的平衡点。

04 尾声

夕阳将树影拉长在红黄相间的教学楼上，那个曾用像素方块搭建世界的少年，如今正编织着更复杂的规则。

2008年，《树人历险记》的玩家们总爱聚在树人中学操场那扇紧闭的铁门前——游戏里，那是一个神秘的探险区，门后藏着少年“老张”精心设计的代码，也藏着玩家们对未知的想象。

实验室的屏幕蓝光映在张驰脸上，像极了当年贴吧里跳动的像素。智能体的“眼睛”正扫描着无数虚拟门扉：支付页面的加密锁、隐私协议的迷宫、弹窗广告的诱饵……每一扇门后都可能藏着风险，但也通向更自由的交互。

他忽然想起初中操场那扇铁门。当年，锈蚀的门锁挡住了少年探索的脚步，门后的世界成了永远的谜。如今，他终于能用算法铸成钥匙，在安全与自由的边界，谨慎地推开那道尘封的门——这一次，光终于能照进去了。

该研究工作被人机交互领域顶级国际会议 CHI 2025（The ACM CHI Conference on Human Factors in Computing Systems）录用。

通用人工智能（AGI）实验室关注生成式人工智能，多模态大模型研究，长期招收科研助理、访问学生、博士生、博士后。如有兴趣加入，请邮件联系chizhang@westlake.edu.cn。