Speaker Diarization

Definition 定义

speaker diarization（说话人分离/说话人日志化）指在一段音频或视频录音中，自动判断“何时是谁在说话”的技术：把语音按说话人进行分段与聚类，输出类似“Speaker A / Speaker B”的时间轴标注。常用于会议记录、采访转写、客服质检等场景。（也常被概括为：who spoke when。）

Pronunciation 发音

/ˈspiːkər ˌdaɪəraɪˈzeɪʃən/

Examples 例句

Speaker diarization helps label each person in a meeting recording.
说话人分离有助于给会议录音中的每个人加上标签。

In noisy multi-speaker audio, speaker diarization is often combined with speech recognition to produce cleaner transcripts with accurate speaker turns.
在嘈杂的多人语音中，说话人分离常与语音识别结合，以生成更干净、且说话轮次标注更准确的转写文本。

Etymology 词源

diarization 来自 diary（日记、日志）相关词根，含义是“做日志化记录”。在语音技术里，它表示把音频按时间顺序“记成日志”，标注每一段对应的说话人；与 speaker 组合后，强调记录的是“说话人随时间变化的轨迹”。

Related Words 相关词

Literary Works 文学作品

Speech and Language Processing（Dan Jurafsky & James H. Martin）——在语音处理章节中讨论说话人分离/相关任务与评测。
The Oxford Handbook of Computational Linguistics（相关章节与条目）——涵盖语音与说话人相关技术背景。
NIST Rich Transcription（RT）评测相关报告与论文集——说话人分离（diarization）作为核心任务被系统定义与评测。