speaker diarization(说话人分离/说话人日志化)指在一段音频或视频录音中,自动判断“何时是谁在说话”的技术:把语音按说话人进行分段与聚类,输出类似“Speaker A / Speaker B”的时间轴标注。常用于会议记录、采访转写、客服质检等场景。(也常被概括为:who spoke when。)
/ˈspiːkər ˌdaɪəraɪˈzeɪʃən/
Speaker diarization helps label each person in a meeting recording.
说话人分离有助于给会议录音中的每个人加上标签。
In noisy multi-speaker audio, speaker diarization is often combined with speech recognition to produce cleaner transcripts with accurate speaker turns.
在嘈杂的多人语音中,说话人分离常与语音识别结合,以生成更干净、且说话轮次标注更准确的转写文本。
diarization 来自 diary(日记、日志)相关词根,含义是“做日志化记录”。在语音技术里,它表示把音频按时间顺序“记成日志”,标注每一段对应的说话人;与 speaker 组合后,强调记录的是“说话人随时间变化的轨迹”。