塔斯娱乐资讯网

评估大模型数学能力的榜单MathArena里，DeepSeek冲到开源第一且超过

2026-04-26 17:09:56 蚁工厂科技

评估大模型数学能力的榜单MathArena里，DeepSeek冲到开源第一且超过Claude-Opus-4.6、4.7了。和kimi2.6差不多。另外这个榜单里OpenAI是真猛。这个榜单只使用大模型没见过的题做评测，所以基本可以杜绝靠训练数据打榜的风险。AI创造营

阅读：7 点赞：0

猜你喜欢

论大学生的网购相似度能多高

2026-04-23 国舅搞笑

标签：大学生大学就业

大学生的水牛学习法

2026-04-25 维斯塔记

标签：大学生大学就业

大学理工女发视频吐槽：大学生是世界上最xing压抑的群体了！这位女大学生在视频

大学理工女发视频吐槽：大学生是世界上最xing压抑的群体了！这位女大学生在视频

2026-04-25 说三道五

标签：大学生 ai 大学就业

数学成绩拔尖的孩子与普通孩子的四个区别❗

数学成绩拔尖的孩子与普通孩子的四个区别❗

2026-04-26 鸽子育儿

标签：数学

部门新来了个实习生，每天第一个到，最后一个走，午休还在看专业书。转正答辩那天，

部门新来了个实习生，每天第一个到，最后一个走，午休还在看专业书。转正答辩那天，

2026-04-26 视搞笑的

标签：实习生大学

又是中文十级难度考试！

2026-04-26 双红翻倍日记

语文老师：我要验π数学老师：π没有问题

语文老师：我要验π数学老师：π没有问题

2026-04-16 清澈的爱照耀你

标签：数学

最难学的十个专业：第一名：临床医学第二名：数学与应用数学第三名：

最难学的十个专业：第一名：临床医学第二名：数学与应用数学第三名：

2026-04-24 吾思无邪笔记

标签：数学临床医学土木工程通信工程