MIDNATT 是 HYBE 的第一位人工智能艺术家。以下是该项目的实现过程。

Supertone 的 MIDNATT（李贤）和 Lee Kyogu。图片来源：HYBE

语音技术公司 Supertone 首席执行官 Lee Kyogu 表示，希望“改变创作过程的范式”，而这一切就从韩国流行音乐开始。

Supertone 可以复制、完善或生成原创声音，帮助艺术家绕过“重复的录音和编辑过程”，实现迄今为止“只存在于他们脑海中”的想法。李贤是韩国著名民谣歌手，他梦想着与国际歌迷交流，同时重塑自己的形象。他与 Supertone 一起创建了 MIDNATT，一个另一个自我，利用人工智能的力量。

MIDNATT 发行了他的第一张单曲“假面舞会，” 5 月。Lee 和 MIDNATT（又名 Lee Hyun）通过电子邮件向 Mashable 详细介绍了该项目的诞生过程。

一份新闻稿称，MIDNATT“比李铉更大胆、更诚实”。MIDNATT 在哪些方面更诚实？技术在哪些方面帮助您更诚实？

MIDNATT：我尝试尽可能诚实地将自己的故事和感受融入到音乐中。它反映了我向公众展示自己作为艺术家的新一面的雄心和恐惧。该技术被应用到赛道上，让这个故事变得栩栩如生。这是我接受的全新事物，但我想接受挑战，因为我知道它可以扩展我的音乐范围。 [通过它]，我能够以更加多样化的方式表达我的声音和信息。

据我了解，Supertone专门为这个项目开发了发音技术。你能告诉我更多关于这个过程的信息吗？

李：我们称之为“多语言发音矫正技术”。这项技术可以纠正一个人的发音，使他们听起来更自然、更流利，尽管他们以前从未说过某种特定的语言。通过这项技术，任何人都可以用任何语言自然地说话或唱歌，克服语言障碍并传达歌曲或演讲中包含的精确情感和含义。

对于Project L，我们经历了以下过程：首先，艺术家用六种不同的语言录制了曲目。当然，现阶段他的发音并不完美。然后，每个母语人士讲述相同的内容或歌词。最后，通过应用 Supertone 的技术，我们能够提取母语发音并替换艺术家录音中包含的语言内容。因此，音频保留了艺术家的音色或声音特征，而发音则捕捉到了母语人士的流利程度。

您使用了特定的 Supertone 技术来调整您的外语发音。这六种语言是如何选择的？

MIDNATT：我们使用语音技术是希望能够缓解全球歌迷在听外语歌曲时可能遇到的语言障碍。赛道上使用的六种语言覆盖了全球多达 80 亿人。我想创作出能引起尽可能多的人共鸣的音乐。

您是如何学习每种语言以了解其发音的细节的？哪种语言最难掌握？

可混搭光速

MIDNATT：在这个项目之前，我从未接受过对我来说不熟悉的五种语言（英语、日语、中文、西班牙语和越南语）的适当教育。起初，我听母语人士的发音录音并模仿。从那时起，我就一遍又一遍地练习。值得庆幸的是，我身边有精通多种语言的工作人员，所以我也从他们那里得到了很多帮助。中文有一些韩语中没有的发音，所以用中文录制特别困难。此外，英语被认为是一种通用语言，因此我也非常注意尽可能以母语人士的发音来表达英语。

Lee Hyun 使用 Supertone 开发的人工智能语音技术将他的另一个自我 MIDNATT 变为现实。图片来源：HYBE

李铉，在《Masquerade》中，您的声音被改造成了女声。这个声音可以有很多种表现方式；它可以有多种不同的音色、粗糙度或柔和度等。您是如何决定“女性”版 MIDNATT 的声音的？

MIDNATT：《假面舞会》中的女声表达了我的另一个自我。它代表了我过去的自我，因为我想在这首歌中表达多个自我，我们认为在我自己的声音之上使用女性声音可以更好地传达歌词的信息。我开始思考与我有相似声音风格的女歌手听起来会是什么样子。但增加女性声音并不是我一个人做出的决定，它是我与 Hitchhiker 合作的产物。

Lee：Supertone 听了《Masquerade》的演示版本，并使用 Face2Voice technology® 设计了女声。随后，Hitchhiker 使用 Supertone 的参考资料和其他数据来帮助设计 MIDNATT 声音的女性版本。

在围绕 MIDNATT 的讨论中如何提出使用 Supertone 工具的想法？谁提出了它？在决定追求它之前，你是如何了解到它可以给艺术家带来哪些好处？

李：《Hitchhiker》表示，艺术家在唱歌时，会尝试以自己独特的风格来表达和传达歌曲的含义和歌词中的信息。艺术家们努力用多种语言演唱，以与全球粉丝建立联系。然而，如果发音不完美，就会降低沉浸感，甚至误解歌曲。于是，他想到了一种既能纠正发音又不破坏歌曲原意的技术。尽管 MIDNATT 明白这是 HYBE 首次在科技与娱乐领域的合作，因此也存在不确定性，但他认为这是一个迎接新挑战的机会，并选择参与这个项目，尤其是在粉丝的期望不断上升的情况下。

用于制作“Masquerade”音乐视频的扩展现实 (XR) 技术几乎与用于纠正发音的技术一样新颖。您在职业生涯中拍摄了许多音乐视频，这个过程有何不同？您认为在音乐视频制作中使用这种技术有什么优势？

MIDNATT：《假面舞会》的音乐视频使用了完全不同的拍摄方法，所以我一直感到惊讶。如果要我挑一个主要区别的话，我会说视频中有多种背景，但大多数都是在同一个地点拍摄的，而无需前往不同的位置。在过去，如果我们心中有一个特定的背景，我们必须找到一个看起来像它的实际位置。但现在，在技术的帮助下，我们可以更自由地创建我们想要的背景。我相信，使用这样的技术可以实现更高水平的创造性表达。

您是否在日常生活中发现了人工智能的其他用途？例如，您使用 ChatGPT 或任何生成图像人工智能吗？或者也许您更喜欢 VR 或游戏？

李：这很有意思。事实上，我在处理文档时有时会使用 GPT-4。但我还没有机会直接使用任何与图像或视频相关的生成式人工智能。不过，我每天都在间接使用人工智能。当我在 YouTube 上听音乐或看视频时，推荐给我的内容也是基于人工智能算法的。汽车的半自动驾驶可以是另一个例子。

MIDNATT：我玩游戏不多，但如果一定要选的话，我喜欢 VR 游戏。我想说，我在日常生活中使用最多的技术可能是智能手机上的各种应用程序和功能。

MIDNATT 首次亮相时，听众和媒体的大部分注意力都集中在该项目的人工智能元素上。您对人工智能被视为“噱头”有何看法？如何才能将其融入音乐中，既不会疏远听众，也不会对艺术家造成不利影响？

李：当然，这种担忧可能存在。但就像许多其他技术一样，我们坚信人工智能可以作为一个奇妙的工具来最大限度地发挥真正的创造者和艺术家的创造力。电吉他的发明培养了吉米·亨德里克斯 (Jimi Hendrix) 等令人难以置信的艺术家，而傻朋克 (Daft Punk) 以自己的创造性方式使用合成器为电子音乐带来创新。另外，从Project L揭幕后的粉丝反应来看，我们相信它展现了融合人工智能技术的艺术的积极价值。

MIDNATT：对于 MIDNATT 的首个项目，我有一个明确的方向。我进入这个项目时认为，即使我们展示最新的技术和流行的声音，它也不应该剥夺我作为艺术家的独特故事和真实性。我们在这首歌上工作并应用了技术，但仍然保持了我声音的独特性，并赋予它多样化的表达方式。我非常感谢我的粉丝们理解了这背后的意图和诚意。