葡萄京娱乐网站app官网模子也不错自动玩《炉石外传》-葡萄京娱乐场游戏大厅 葡萄京娱乐场app下载
发布日期:2024-12-03 05:55 点击次数:199Claude操控电脑葡萄京娱乐网站app官网,究竟不错作念到什么进程?
新加坡国立大学团队在 20 多个场景下作念了全面测试,其中最引东谈主在意的是:AI 不错自动玩手游清平常任务了!
掂量中选用了米哈游《崩坏:星穹铁谈》,不错跟它说"帮我完成今天的模拟六合",然后,Claude 就会立即治安大开游戏菜单、找到星穹里的"黄金花萼"、自动建造 6 次挑战次数:
致使还不错开动自动交游、恭候交游为止后退出,这一套组合操作险些鸿章钜字……
并且细心哦,这不仅是传统游戏外挂那样的机械操作,Claude 还能智能招引游戏限定和意见,字据界面上不同的任务进行调度。
这下好了,东谈主类只可在一旁干横目了。
除了更多测试场景外,论文还提议了一个开箱即用的自动 GUI 框架。
有网友看到视频后评叙述:以后我去上学的时候,就不错让 Claude 帮我玩逐日任务了。
还不错自动完成好多办公任务
Claude Computer Use 的潜能还远远莫得被东谈主类发掘——
掂量团队还测试了好多平常办公场景下它的性能:
1. 网页搜索
它不错在 Amazon 和 Apple 官方网站上告捷完成下单购物的任务,礼聘心思树立、填写地址齐大约拿抓。
2. 责任经由
模子还告捷完成了在 Apple Music 添加歌曲、裁剪 Excel 数据、在 App Store 装配利用等自动任务。
诚然界面联想和跳转逻辑愈加复杂,它照旧能智能地舆受命务的最终意见,真的一个熟谙的好 AI(欢腾)!
3.. 办公坐褥力软件
此外,它还不错在 Outook 中转发邮件、调度 Word 布局、建造 PowerPoint 布景建造和插入三角形形态等等,这下真的不错大大增强坐褥力了(AI 不消论 -1)。
4. 还不错玩其他游戏
除了《崩坏:星穹铁谈》,模子也不错自动玩《炉石外传》,包括创建和重定名牌组、使用豪杰妙技等等。
Claude Computer Use API + 自动化 GUI 框架
你可能会酷爱,强如 Claude Computer Use,是怎样作念到自动完成任务的呢?
底下咱们就沿路来望望背后的框架联想——
具体来说,团队基于 Claude Computer Use 的 API 联想了一个自动化 GUI 框架,主要分为以下 6 个部分:
1. 系统教导
Claude Computer Use 的系统教导包括环境轮廓、可用函数和参数刻画。用户不错通过编写 块来调用这些函数,举例贪图机交互、Bash Shel 呐喊和文献裁剪用具。
2. 状况不雅察
Claude Computer Use 通过及时截图不雅察环境,不依赖元数据或 HTML。每个技术步长事后,模子齐会保留历史截图,匡助生成下一步的四肢。
3. 推理范式
Claude Computer Use 接管了一种推理 - 行动范式,通过不雅察环境来决定下一步的四肢。这种范式不错让模子在高度动态的 GUI 环境中生成更可靠的四肢。
4. 用具使用
Claude Computer Use 提供了三种用具:贪图机用具、文本裁剪器用具和 Bash 用具,它们不错匡助模子与贪图机进行交互,实施多样任务。
5.GUI 四肢空间
GUI 四肢空间内置了统共原始的鼠标和键盘四肢,如鼠标迁徙、点击、按键组合、拖放和截图等。模子会字据需要自行组合。
6. 历史视觉高下文感触
模子在每个技术步长齐会保留历史截图,以扶植四肢生成过程。具体公式如下:
性能测试
为了愈加庸俗地测试 Claude Computer Use 和 GUI 框架连结后的性能后果,团队还联想了详细的测试现实,包括
1. 数据收罗:现实联想包括在 Windows 和 macOS 上通过 ComputerUse Out-of-the-Box 平台进行评估。评估任务消散了庸俗的利用范围,包括网页搜索、责任经由、办公坐褥力软件和视频游戏等。
2. 样本礼聘:礼聘了 20 个任务,涵盖 12 个软件或网站,分为以下三个范围:网页搜索、责任经由、办公坐褥力和视频游戏。具体的任务不错稽察下表:
3. 参数树立:系统分辦率建造为 Windows 的(1366,768)和 macOS 的(1344,756)。过程中还加入了东谈主类评审和评估用于监控和审查过程,确保任务的顺利完成。
诚然 Claude Computer Use 在之前的例子中弘扬齐十分利弊,但当网页或软件的页面过于复杂时,模子也出现了一些失败案例:
1. 缜密网页操作失败:在 Fox Sports 订阅任务中失败,造作原因主要在于模子莫得正确导航到" Account "选项卡。
2. 办公软件失败:在 Word 中更新简历模板、和在 PPT 中插入编号标记两个任务中失败,造作原因在于模子未能准确礼聘和定位文本字段。
不外举座来说,Claude Computer Use 照旧很棒了,并且这功能也刚刚发布没多久,将来可期!
团队还公开了统共测试用例的具体信息,感风趣的小伙伴不错点 GitHub 表情贯串稽察更多音信~
Claude 诚恳,以后我的 PPT 和 Steam 就委派你了(bushi)
参考而已:
https://arxiv.org/pdf/2411.10323
https://github.com/showlab/computer_use_ootb葡萄京娱乐网站app官网