Bilingual Corpus 发音
定义(中文) / Definition (ZH)
“双语语料库”:由两种语言的文本构成、通常按句子或段落进行对齐(alignment)的语料集合,常用于翻译研究、机器翻译、词典编纂与跨语言信息检索等。(也常被称为“平行语料库”的一种典型形式。)
发音(IPA) / Pronunciation (IPA)
/baɪˈlɪŋɡwəl ˈkɔːrpəs/
例句 / Examples
A bilingual corpus helps translators find natural equivalents.
双语语料库能帮助译者找到更自然的对应表达。
By training on a large bilingual corpus, the model learns word alignments and produces more fluent translations in context.
通过在大型双语语料库上训练,模型能学习词语对齐关系,并在语境中生成更流畅的译文。
词源简述(中文) / Etymology (ZH)
bilingual 来自拉丁语前缀 bi-(“二、双”)与 lingua (“语言、舌头”)相关词根,整体意为“使用两种语言的”。 corpus 源自拉丁语 corpus (“身体”),在语言学中引申为“文本集合/语料”。合起来即“两种语言的文本集合”。
相关词 / Related Words
文献与著作中的用例 / Literary & Notable Works
Statistical Machine Translation (Philipp Koehn)——讨论机器翻译训练数据时常涉及双语/平行语料库。
Foundations of Statistical Natural Language Processing (Christopher D. Manning & Hinrich Schütze)——在统计方法与语料资源部分常提及相关概念。
Corpus Linguistics: Investigating Language Structure and Use (Douglas Biber, Susan Conrad, Randi Reppen)——语料库类型与应用中常出现“双语语料库/平行语料库”的讨论。
The Oxford Handbook of Computational Linguistics (编:Ruslan Mitkov)——跨语言资源与NLP任务中常提到该术语。