所以很多人都劝我们不要做一家音乐公司。这并不是一个最容易做的行业。Speech(语音)非常大,构建 speech technologies(语音技术)也有很多很好的商业 use cases(应用场景)。但当你深夜还在玩手里的这个东西,玩到根本不想去睡觉时,那其实就是一个非常明确的信号:这就是你该去做的事。
而且从某种奇怪的意义上说,我们其实一直都在做这件事。我们大致知道 v six 和 v seven 会是什么样。到了某个阶段,你会希望模型具备很多能力,也会有很多想做的改进,这时候说“好,到这里为止,这就是分界线,这一版我们叫它 v 5.5,后面的内容都放进下一代模型里”,某种程度上几乎是一个带有任意性的切分。这样做也几乎只是为了保持一个稳定的发布节奏,知道我们在什么时候发布东西。
如果你想一想,去听演唱会本身就是一件天然带有社交性的事,尽管你真正注视的其实只有表演者;但某种程度上,正是你周围的人构成了这种体验。相比之下,比如去电影院看电影,就不会因为周围有人而被提升到同样的程度;拿空荡荡的电影院来对比,这种差异就更明显了。所以我认为,这在很大程度上是因为人类通过嘴巴和耳朵进行声音交流,因此音乐其实是一种比文字更早的沟通方式。和其他事物相比,我觉得它更深地写在我们的 DNA 里。当然我有偏见,我显然很爱音乐。
这就好像世界上的每个人都有创造力。创造会让你产生某种特别的感受。这就像是写在我们 DNA 里的东西,而我们本质上是在用技术让每个人都能感受到那种温暖而美好的感觉。对我个人来说,做这件事的很多灵感,都来自于回想我最珍贵的一些记忆,或者说我人生中最珍贵的一些记忆,就是和朋友们一起做音乐,甚至都不是在乐队里演出。比如排练本身就特别有趣,而且一起做音乐会让你和别人变得非常亲近。
他们懂音乐,也懂音乐文化。他们培养并塑造明星,而这些明星能够与数十亿人产生共鸣。在我看来,如果音乐世界分裂成两个世界,那会非常可惜:一个是 AI 音乐世界,一个是非 AI 音乐世界。首先,这本身就说不通,因为大多数音乐里都会有一些 AI。其次,让最终用户在脑子里把这些东西分开、还得去不同平台上完成本质相似的使用模式或互动,这本身就不是一件好事。
所以,我对和 Warner 一起做的事情最兴奋的一点,其实是共同打造那些以前根本不可能存在的东西,打造能让粉丝与自己最喜欢的 artist(艺人)互动的产品,并真正以对所有人都是 positive-sum(正和)的方式,加深 artist 与 fan(粉丝)之间的连接。这对 artist 很棒,他们能和粉丝互动;这对粉丝也很棒,他们会感觉自己能够通过音乐与喜爱的 artist 互动;这对 rights holders(权利持有人)也很棒。
我喜欢这个想法。好,我们刚才谈了很多 model layer(模型层),然后还有我想可以称之为音乐创作的 cultural experience(文化体验)。我也很想聊聊 application layer(应用层)的产品构建,因为我觉得这也是你们一直非常、非常有创新性的一个领域。你们对于如何思考 application layer 的构建,采取的是什么方法?
我觉得很容易看清 AI 会如何自动化大量现有的业务流程。但要设想 AI 会如何渗透进我们真正玩乐和创作的方式里,就需要真正的创造力。我觉得看见这一点需要很强的创造力。大多数人一想到 AI music(AI 音乐),可能想到的都是 AI Spotify,而那听起来就很糟。我觉得你们现在在做的事情,需要非常多的创造力。