塔斯娱乐资讯网

#Claude4.8# 上周我就吐槽用了 Claude Opus 4.8 感觉没

#Claude4.8# 上周我就吐槽用了 Claude Opus 4.8 感觉没那么好用,又高强度体验了两天,确认了这个感觉。。。而且不少人怀疑,Opus 4.8 似乎蒸了,蒸的还是 DeepSeek 和千问。。。Anthropic 你小子蒸了后还不好用就罪加一等了。

根据官方的博客,这回 Opus 4.8 改动并不大。最显著的改进之一,就是更诚实了。而我对此的感觉就是变得极其保守。在一些比较危险的问题上,会疯狂叠甲。这当然是负责任的。但从用户体验上来说,这可能会导致很多问题得不到确定的答复,相当难受。

另外,如果想要 Opus 4.8 保持水准,最好不要尝试 High 以下的性能(effort)。高消耗,才有好表现。例如我让他总结今日科技新闻,但 Opus 4.8 Low 给出的第一条新闻就是三天前的,连自家的新闻都搞错。想让它做事实核查,还得再追问一遍,说好的主动检查发现问题提出异议,用最准确的答案稳稳接住我呢?

我又试了试它的代码能力,只能说能力强还是用时间和 token 换的。我找了一个超难题 LCP 82 丢给 Opus 4.8,即使开 Extra 模式,123行代码,它也足足思考了二十多分钟。结果的确是相当不错,现在能做到这种程度的模型并不多。作为对比,GPT-5.5 思考了两分钟,就给出了一个测试案例通过 99% 的答案。唯一一个案例失败的原因,是时间超限,其实也不算答错。这明显比 Opus 4.8 要省得多。

差评君又尝试让 Opus 4.8 独立制作一个日式校园 galgame,不得不说现在 AI 写的项目代码层次分明,框架清楚。我浅玩了一下,所有功能包括存档,自动播放,CG 画廊等等,没有任何 bug。但是 Claude 断断续续做了足足一个多小时。而 GPT-5.5 虽然简陋很多,该有的功能一样不差,只用了五分钟。

所以,花更多的钱和时间换来的答案值不值得?可能也只有大伙儿自己心里清楚了。总的来说,Opus 4.8平平常常普普通通,太谨慎让它真没那么好用了。作为业界价格的巅峰,用 Claude 最好的模型,不舍得开最好的性能;开最高的性能,不舍得用最好的模型。还一口气推出了5种档位,普通人真搞不明白什么时候用哪个。虽然交出的参数答卷越来越漂亮,可那些曾经让用户感到惊艳的极致体验,又要什么时候才能回来呢?