在AI技术日新月异的今天,国内大厂字节跳动紧跟国际步伐,于近日在GitHub平台推出了一款面向图形化用户界面(GUI)的全新自动化操作模型——UI-TARS。这款模型拥有高达70亿参数,巧妙地将视觉理解、文本处理、操作规划及记忆管理等核心组件融为一体,能够在跨平台环境下完成复杂任务,其能力堪比人类,能够感知界面信息、推理操作步骤并精准执行交互指令。
UI-TARS的推出,标志着字节跳动在AI智能体领域迈出了坚实的一步。通过官方公布的一段演示视频,我们可以看到UI-TARS如何自动完成发布推文的全过程,展现了其强大的自动化处理能力。尽管目前仍处于预览及迭代阶段,需要人工辅助完成部分点击及文案撰写,但UI-TARS已在MacOS与Windows系统上线,为用户提供了全新的自动化体验。
无独有偶,就在两天前的1月24日,美国OpenAI公司正式推出了其首款AI智能体功能应用“Operator”。这款应用能够模拟人类操作浏览器,完成购物、订餐、论文整理等一系列复杂任务,通过融合视觉识别与高级推理的CUA模型,实现了复杂步骤的精准规划。目前,“Operator”已向每月200美元订阅的美国ChatGPT Pro用户开放测试,标志着AI智能体技术正逐步走向成熟。
近年来,“AI智能体”概念持续升温,吸引了众多企业和研究团队的关注。智谱推出了AutoGLM、GLM-PC等多个AI智能体应用产品;字节跳动的AI应用开发平台扣子已发布超过200万个智能体,引领国内AI智能体技术的发展潮流。在今年的CES展会上,英伟达CEO黄仁勋更是预言,AI智能体应用或将成为下一个价值数万亿美元的机器人产业。
AI智能体,作为一个具有智能的实体,能够自主感知环境、做出决策并执行行动。它可以是程序、系统,也可以是机器人,能够像有智商、有情商的“小助手”一样,协助用户高效完成各类任务。随着AI技术的不断进步,AI智能体已具备类似人类的思考和规划能力,能够与人类及环境进行高效交互,完成特定任务。
自2022年底ChatGPT风靡全球以来,生成式AI应用的发展便成为业界热议的话题。斯坦福大学和谷歌的联合研究团队更是通过一项研究,展示了接入ChatGPT的虚拟人在虚拟小镇Smallville中表现出的各种人类行为,进一步带火了AI智能体概念。如今,AI智能体已在客服、编程、内容创作、知识获取、财务、手机助手、工业制造等多个领域得到广泛应用,展现出巨大的市场潜力和商业价值。
以OpenAI的“Operator”为例,它不仅能够根据用户需求捕获屏幕画面,制定下一步计划,还能使用虚拟鼠标和键盘精确执行操作,直到任务完成或需要用户输入。这种能力使得AI智能体能够成为用户的得力助手,帮助用户高效完成各类任务。
随着AI智能体技术的不断发展,越来越多的企业开始认识到AI智能体在降本增效方面的重要作用。火山引擎副总裁张鑫表示,未来企业需要通过0代码方式快速、广泛实现创新应用,构建自己的AI能力中心。这将有助于企业在复杂多变的数字环境中实现更高效、更智能的运营。
同时,AI技术的深度融合也正加速推动企业AI事项的落地与实践。F5作为全球领先的多云应用交付网络和应用安全解决方案提供商,正通过其丰富的AI和机器学习技术经验,全面赋能企业客户。F5亚太区首席技术官Mohan Veloo表示,未来AI应用将更加依赖于API,相关API接口也将呈现爆炸式增长。因此,如何有效利用AI大模型能力实现应用方向的创新部署,将成为企业发展的关键。