#Claude4.8# 上周我就吐槽用了 Claude Opus 4.8 感觉没

#Claude4.8# 上周我就吐槽用了 Claude Opus 4.8 感觉没那么好用，又高强度体验了两天，确认了这个感觉。。。而且不少人怀疑，Opus 4.8 似乎蒸了，蒸的还是 DeepSeek 和千问。。。Anthropic 你小子蒸了后还不好用就罪加一等了。

根据官方的博客，这回 Opus 4.8 改动并不大。最显著的改进之一，就是更诚实了。而我对此的感觉就是变得极其保守。在一些比较危险的问题上，会疯狂叠甲。这当然是负责任的。但从用户体验上来说，这可能会导致很多问题得不到确定的答复，相当难受。

另外，如果想要 Opus 4.8 保持水准，最好不要尝试 High 以下的性能（effort)。高消耗，才有好表现。例如我让他总结今日科技新闻，但 Opus 4.8 Low 给出的第一条新闻就是三天前的，连自家的新闻都搞错。想让它做事实核查，还得再追问一遍，说好的主动检查发现问题提出异议，用最准确的答案稳稳接住我呢？

我又试了试它的代码能力，只能说能力强还是用时间和 token 换的。我找了一个超难题 LCP 82 丢给 Opus 4.8，即使开 Extra 模式，123行代码，它也足足思考了二十多分钟。结果的确是相当不错，现在能做到这种程度的模型并不多。作为对比，GPT-5.5 思考了两分钟，就给出了一个测试案例通过 99% 的答案。唯一一个案例失败的原因，是时间超限，其实也不算答错。这明显比 Opus 4.8 要省得多。

差评君又尝试让 Opus 4.8 独立制作一个日式校园 galgame，不得不说现在 AI 写的项目代码层次分明，框架清楚。我浅玩了一下，所有功能包括存档，自动播放，CG 画廊等等，没有任何 bug。但是 Claude 断断续续做了足足一个多小时。而 GPT-5.5 虽然简陋很多，该有的功能一样不差，只用了五分钟。

所以，花更多的钱和时间换来的答案值不值得？可能也只有大伙儿自己心里清楚了。总的来说，Opus 4.8平平常常普普通通，太谨慎让它真没那么好用了。作为业界价格的巅峰，用 Claude 最好的模型，不舍得开最好的性能；开最高的性能，不舍得用最好的模型。还一口气推出了5种档位，普通人真搞不明白什么时候用哪个。虽然交出的参数答卷越来越漂亮，可那些曾经让用户感到惊艳的极致体验，又要什么时候才能回来呢？

塔斯娱乐资讯网

#Claude4.8# 上周我就吐槽用了 Claude Opus 4.8 感觉没

热门分类