塔斯娱乐资讯网

评估大模型数学能力的榜单MathArena里,DeepSeek冲到开源第一且超过

评估大模型数学能力的榜单MathArena里,DeepSeek冲到开源第一且超过Claude-Opus-4.6、4.7了。和kimi2.6差不多。另外这个榜单里OpenAI是真猛。这个榜单只使用大模型没见过的题做评测,所以基本可以杜绝靠训练数据打榜的风险。AI创造营