Speaker 211:34 - 12:11
我应该开车还是走路?而今天最先进的模型会告诉你走路去,因为距离太近了。怎么会出现这种情况:最先进的 Opus 4.7 一方面能同时重构一个 100,000 行代码规模的 code base,或者找出 zero day vulnerabilities(零日漏洞),另一方面却告诉我应该走路去这个 car wash?这太离谱了。而只要这些模型仍然保有这种 jagged 的特性,就说明第一,也许有些地方略微不对劲;第二,你确实需要在 loop(回路)里参与一点,你需要把它们当作工具来使用,而且你确实得持续关注它们到底在做什么。