据 Beating 称,微软最近开源了 Phi-Ground 模型家族,旨在解决“AI 应该在计算机屏幕上点击哪里”的问题。该 40 亿参数版本,并结合用于指令规划的更大语言模型,在 Showdown 基准测试中超过了 OpenAI Operator 和 Claude Computer Use 的点击准确率,并在包括 ScreenSpot-Pro 在内的五项评估中位列所有 100 亿以下参数模型的第一名。
团队在超过 4000 万个数据样本上进行了训练,并发现学术论文中使用的三种常见训练技术在规模化时变得无效。关键思路证明很简单:以常规数字输出坐标,例如“523, 417.” 先前的研究为坐标发明了专门的位置词汇,但这些方法无法规模化。团队还发现,将文本指令放在图像之前可以提升性能,因为模型在处理像素时能够识别目标。此外,诸如 DPO 之类的强化学习方法在微调之后仍能提高准确率。
© 版权声明
免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。
本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复
THE END



