这就是我们组建起第一批成员的方式,而我们认为他们是音频领域最优秀的一批 researcher。多年下来,他们依然在帮助我们把很多 model 持续推进到 production(生产环境)中。之后我们推出了产品。我认为我们采取的一个稍有不同的做法是非常快地 monetizing(商业化变现),也就是尽快获得一些 revenue stream(收入来源)回流,这样我们就能为大量 model 相关工作提供资金。
所以我们最开始做的是第一个 text to speech model,也就是那个终于能够理解书面内容上下文的 model。基于这种上下文理解,它可以从文本中给出正确的情绪、正确的 intonation(语调)。所以如果是一句开心的话,你就能听出那种开心;如果是一段 dialogue(对话),它也能把对话恰当地说出来。然后我们就持续不断地在这个基础上增加能力。
所以一开始的问题是如何打破语言障碍。要解决 dubbing(配音),你需要解决 transcription,也就是理解内容;然后是 translation;再然后是 text to speech。所以我们最先看到的是 text to speech。接着我们知道自己需要加入一个数据组件,也就是 speech to text,以及以出色的方式转写内容的能力。然后再思考如何把这些 model 组合在一起。
所以如今,我们的研究已经覆盖了 audio 的全栈:无论是 text to speech、speech to text,还是把这些模型结合起来,用于 localization(本地化)与 dubbing(配音),再配合 voice engine 做 orchestration(编排),而且也能把这些能力扩展到 music 上。
然后第二个时刻,是我们第一次让它笑出来的时候。大家当时就觉得,好吧,这才是真正让整个体验更像人的东西。笑声、停顿、那些 um、那些不完美之处。所以我们开始把这些东西做出来,那对我们来说就是一个关键时刻,因为我们凭借第一个会笑的 AI model 登上了 hacker news 热榜,这让我们非常自豪。当然,接下来的几年里,这种进展还在继续扩展。你可能还记得,在 2023、2024 年,有一段 Javier Malay 的演讲 viral 了,因为你可以让他讲其他语言。
这种 emotional intelligence,是我们终于在内部看到了可行的解决路径的东西,而这会持续带来一次次能力上的跃迁。然后第二个方向,会应用在这里,但也会扩展到更广义的 audio 领域,也就是 audio general intelligence:你可以把多个 audio model 在同一条流里组合起来。也就是说,从理论上讲,你可以有一个 model 先进行 narrate(旁白),然后停下来,再用同一个连续的声音开始 singing。这在今天是极其难以组合的,但我认为很快就会成为可能。
但最近,他们推出了一个可交互版本。所以我不知道这对这位听众来说是不是个好的参照,不过我们最近和他们合作,把 Gordon Ramsay 带了进来,让他可以教你做饭。这样当你在厨房里的时候,他基本上就可以对你“吼”,帮助你做得更好。或者也许一个更好的例子是 Chris Voss:你当然可以学谈判,但你还可以通过在电话里实时和 Chris 谈判来提升自己,我觉得这是个非常了不起的方向。
大多数人会有大约 10 个 direct reports(直接汇报对象)。这样组织会相对更扁平,也让我们行动得更快一点。我们做过一件事,在这种模式下非常令人意外的是,我们其实也在 Ukraine government 身上看到了非常相似的做法:每个团队里,哪怕不是 technical team,也会配有 engineer。也就是说,我们的 people team、go to market team、legal team 里,都会有一名 engineer,帮助搭建 automation(自动化)流程,提升、升级团队中其他成员的能力。最近这件事帮了我们很大忙,因为我相信你们很多人也在经历:现在大家都会进行 vibe coding,会大量借助 coding 来完成工作,即使他们并不是技术背景。
所以我认为这仍然需要一次很大的 step change(跃迁式改进)才能真正实现。类似情况也会出现在一个非常不同的领域——music 这一侧。我觉得在音乐领域,你可以得到不错的 production music(制作型音乐),但即使有 artist 的参与,你也还做不出 Top Charts 级别的音乐。我认为这会在未来一两年内发生变化。
所以当然,我们做的是多种不同的 models。最近我很荣幸见到了 Jensen,他当时评论了其中几个 models。他说,我们的 speech to text,或者 speech to text models,是 technology,而 text to speech 是 artistry,而我们都是 artists。所以他算是赢得了一个终身客户。不过,当然,我们也确实相信,要真正把 text to speech 做好、把那种 emotionality 做到位,里面的确有一点这种艺术成分。