OpenAI发布全新MLE-bench基准，领先一步掌握AI性能评估，AI前沿，智能科技前沿网

品玩10月12日讯，据 The Decoder 报道， OpenAI 公司推出 MLE-bench 新基准，旨在评估 AI 智能体在开发机器学习解决方案方面的能力。

该基准包括 75 个 Kaggle 竞赛，旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛涵盖了多个领域，包括自然语言处理、计算机视觉和信号处理等等。

OpenAI 在 MLE-bench 上测试了多个 AI 模型和智能体框架，使用 AIDE 框架的 o1-preview 模型表现最佳，在 16.9% 的比赛中至少获得了一枚铜牌，该结果超越了 Anthropic 的 Claude 3.5 Sonnet。