An early Claude Mythos Preview snapshot we provided METR has a time horizon of more than 2x the next best model on their 80% success rate benchmark
我们提供给 METR 的一个早期 Claude Mythos Preview 快照,在他们以 80% 成功率为基准的 benchmark(基准测试)上,其 time horizon(时间跨度)超过了排名第二的最佳模型的 2 倍。