自选
我的自选
查看全部
市值 价格 24h%
  • 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

微软免费AI模型在网页浏览方面超越OpenAI与谷歌

2026-05-23 05:04:12
收藏

想象一下:告诉计算机查找度假租赁信息,同时比较五个网站的数据,填写预订表单,最后确认离海滩最近的那一家。而你只需要起身冲杯咖啡,回来时一切就已办妥。这就是“计算机使用智能体”所承诺的未来——它能像人类一样阅读浏览器屏幕内容,并执行点击、滚动、输入等操作,且无需任何特殊插件。

OpenAI最早于2025年1月推出了Operator服务,每月收费200美元,后并入ChatGPT智能体并于同年8月关闭。谷歌则推出了Gemini 2.5计算机使用功能。这两者均属于闭源、基于云端且运行成本高昂的方案。

本周,微软研究院发布了一款名为Fara1.5的小型模型——在关键基准测试中,它的表现超越了上述两者。

该系列包含三种规模:40亿、90亿和270亿参数,均基于阿里巴巴的Qwen3.5基础模型构建,并由微软针对浏览器操作进行微调,全部权重均已公开。(参数规模决定了AI模型的知识广度,通常参数越多能力越强。)

实现这一突破需要从根本上重新思考整个开发流程。“我们从一个简单的问题出发:如何让小模型真正擅长智能体任务?”AI前沿团队写道,“答案贯穿了完整生命周期——数据生成、训练目标、模型设计与协同机制必须整体重构,而非孤立优化。”

Online-Mind2Web是微软致力突破的核心基准测试。它评估AI智能体在136个热门真实网站中完成300项多样化任务(如比较产品、填写表单、预约服务)的正确率,以在实际动态网络环境下正确完成任务的百分比作为评分标准。

Fara1.5-27B取得了72%的得分。OpenAI Operator为58.3%,谷歌Gemini 2.5计算机使用功能为57.3%。领先的闭源替代方案Yutori Navigator n1达到64.7%。即便是中等规模的Fara1.5-9B也实现了63.4%的得分,超越OpenAI与谷歌的方案。

开源竞品同样未能企及:阿里巴巴的80亿参数GUI-Owl-1.5得分为48.6%;AI2的MolmoWeb为35.3%;微软此前发布的Fara-7B仅为34.1%——这意味着新版本在相近规模下性能近乎翻倍。

在另一项衡量实时网络任务成功率的WebVoyager基准测试中,Fara1.5-27B以88.6%的得分略超OpenAI Operator的87.0%,同时击败了参数量达300亿的Holo2模型(83.0%)。

训练管道的创新突破

核心优势源于训练流程的创新。微软采用名为FaraGen1.5的系统生成训练数据,其精妙之处在于:使用OpenAI的GPT-5.4作为“教师智能体”演示浏览器任务完成过程,这些演示最终转化为Fara1.5的训练数据。这实质上是用竞争对手的最强模型来训练开源替代品。

团队还创建了六个功能完整的仿真实网站(包括邮箱、日历、交易平台等),使模型能练习需要登录或涉及不可逆操作(如发送邮件、预订航班)的任务,而无需触及真实账户。这种合成领域训练策略,正是Fara1.5比前代模型更擅长处理“受限任务”的关键。

所有模型均设计为在执行不可逆操作前暂停并请求确认。“在关键决策点设置防护机制与保持用户操作流畅性之间取得平衡至关重要,”微软研究院高级项目经理表示,“像微软研究院Magentic-UI这样的交互界面,既能提供必要的干预机会,也有助于避免用户陷入审批疲劳。”

这尤其重要,因为OpenAI推出ChatGPT智能体时曾明确提示风险:“当授权智能体访问网站或启用连接器时,它将能获取敏感数据,包括邮件、文件或账户信息。”

Fara1.5的所有操作均在MagenticLite沙箱浏览器环境中运行,该系统会记录每个步骤并允许用户随时终止进程。

开放生态的竞争优势

浏览器AI领域已形成激烈竞争格局——谷歌在Chrome中集成Gemini,Perplexity推出Comet,Anthropic发布Chrome版Claude。Fara1.5的差异化优势在于其开放性:公开模型权重、在GitHub发布推理代码、支持用户自主部署硬件。Fara1.5-9B已上线Azure AI Foundry,40亿与270亿版本即将发布。微软表示计划将Fara1.5的应用场景从浏览器扩展至桌面与企业软件领域。

展开阅读全文
更多新闻