复旦研发SpeechGPT2语音模型，突破语音与文本交流障碍，AI前沿，智能科技前沿网

品玩7月25日讯，据Arxiv 页面显示，复旦大学近日公布一款新款语音模型SpeechGPT2，不仅能够理解语音和文本，还能够在这两者之间自如转换。

这项技术的核心在于将连续的语音信号离散化，使其能够与文本模态统一，从而让模型具备感知和生成语音的能力。

简单来说就是它能够感知和表达情感，并根据上下文和人类指令提供多种风格的语音响应。无论是说唱、戏剧、机器人、搞笑还是低语，SpeechGPT都能够根据需要生成相应风格的语音，这得益于其超过10万小时的学术和野外收集的语音数据，这些数据涵盖了丰富的语音场景和风格。