品玩7月25日讯,据Arxiv 页面显示,复旦大学近日公布一款新款语音模型SpeechGPT2,不仅能够理解语音和文本,还能够在这两者之间自如转换。
这项技术的核心在于将连续的语音信号离散化,使其能够与文本模态统一,从而让模型具备感知和生成语音的能力。
简单来说就是它能够感知和表达情感,并根据上下文和人类指令提供多种风格的语音响应。无论是说唱、戏剧、机器人、搞笑还是低语,SpeechGPT都能够根据需要生成相应风格的语音,这得益于其超过10万小时的学术和野外收集的语音数据,这些数据涵盖了丰富的语音场景和风格。
