面向自然语言处理的机器词典的研制

时间:2022-03-20 09:42:13 公文范文 来源:网友投稿

  摘 要 北京大学计算语言学研究所积30余年之努力,研制了一部面向自然语言处理的机器词典,即《现代汉语语法信息词典》(以下简称GKB)。基于GKB,又衍生了一系列成果,进而集成为综合型语言知识库。文章扼要介绍GKB及相关成果,并总结从事大型语言工程的实践经验,期望这些经验不仅对语言工程的实践者,而且对探索学科交叉融合的学者都有参考价值。
  关键词 自然语言处理 语言工程 现代汉语语法信息词典 综合型语言知识库 交叉学科
  一、 前言
  收到《辞书研究》编辑部的约稿函,要求为改版后的2019年第2期撰稿,既感到荣幸,又感到惶恐。我們认为《辞书研究》是纸质型辞书的园地,主要关注传统辞书的理论、方法等创新性成果,我们是外行,恐难胜任。不过,又觉得应当承担这个任务,因为30多年来,研制面向自然语言处理的机器词典,需要的语言知识主要来源于辞书。撰写拙文,除了表达饮水不忘掘井人的感谢之情外,我们也期望利用这个机会,对语言工程的实践经验做一个总结,以具体案例阐述自然语言处理技术为什么需要语言知识,需要什么样的语言知识及如何将语言学家的及辞书中的语言知识转换成计算机能够运用的形式。
  二、 自然语言处理与语言知识库
  自然语言处理的任务是实现计算机对人类语言文本的自动分析与生成,分析相当于“读”,生成相当于“写”。数字计算机在非数值领域的最早应用便是发端于70年前的机器翻译;而自然语言理解——自然语言处理的最高境界,仍是当前人工智能研究努力攻克的难关。智能机器人最重要的能力之一就是理解和运用人类的语言。2017年国务院发布的《新一代人工智能发展规划》明确指出突破自然语言理解的重要性。自然语言处理是发展中的技术,经历了先以规则方法为主,继之以统计方法为主的发展阶段(俞士汶2003;宗成庆2013),当前基于神经网络的深度学习已成为前沿(约阿夫·戈尔德贝格2018)。 不同类型的方法的结合可能为自然语言处理提供最好的效果。实际系统常常兼收并蓄,博采众长。
  自然语言处理运用计算机技术,划到理工科,其处理对象是人类语言,也是文科中的语言学的研究对象。语言学中也有一个分支,即计算语言学。计算语言学和自然语言处理都是文理结合的交叉学科,其对象、目标、原理和方法大致相同。如果要加以区分,可以认为自然语言处理侧重于应用研究,以构造实用系统为目标;计算语言学则侧重于理论研究,为自然语言处理系统提供语言模型、实现算法和工程方案。
  关于语言模型,可以这样理解: 因为人类语言过于复杂,需要根据研究的目标,对其进行简化、变换,使其形式化,得到数学模型;计算语言学则进一步将数学模型改造为可用程序在计算机上实现的形式。例如,要计算机协助人判断两个文本是否相似,就要将文本模型化。如例(1)、例(2):
  (1) 黎安是国安队的球迷。
  (2) 安黎是安国队的球迷。
  可采用集合论模型,把文本看成不同的汉字的集合,于是有:
  集合A={安,的,队,国,黎,迷,球,是}
  集合B={安,的,队,国,黎,迷,球,是}
  由A和B相同判断例(1)和例(2)相同,显然过于简单化。可采用更精细的向量空间模型,用n维向量近似地替代文本。将不同的汉字选作n维空间的坐标轴,n维向量在各个坐标轴上的分量可定义为汉字在文本中的频次(对于不等长的文本,则用频率)。于是有:
  坐标轴: 安 的 队 国 黎 迷 球 是 ……
  向量α1=(2,1,1,1,1,1,1,1,0,……)
  向量β1=(1,1,1,2,1,1,1,1,0,……)
  由于α1和β1不同,可正确判断例(1)和例(2)也不同。不过,在向量空间模型中,以汉字(字符串)作为考察对象只是纯粹的计算机技术,不涉及任何语言学知识。当比较例(3)、例(4):
  (3) 黎安是国安队的球迷。
  (4) 安黎是安国队的球迷。
  时,坐标轴不变,于是有:
  向量α2=(2,1,1,1,1,1,1,1,0,……)
  向量β2=(2,1,1,1,1,1,1,1,0,……)
  根据α2和β2相同,判断例(3)和例(4)相同,又错了。如果把例(3)和例(4)切分成词的序列,如:
  (5) 黎安 是 国安队 的 球迷。
  (6) 安黎 是 安国队 的 球迷。
  以词作为坐标轴,则有
  坐标轴: 安国队 安黎 的 国安队 黎安 球迷 是 ……
  向量α3=(0,0,1,1,1,1,1,0,……)
  向量β3=(1,1,1,0,0,1,1,0,……)
  由于α3和β3不同,就能判断例(5)和例(6)不同,例(3)和例(4)也不同。
  从以上实例的处理过程可以看出语言学知识对提高自然语言处理智能水平的重要性。在语言学知识中,词汇知识是最基本的。人学习语言要经常使用辞书类的工具书(纸质版或电子版)。人能够方便有效地利用辞书,因为人在阅读时不自觉地做了一件事,把按句连写的汉字串切分成了词语串,因而很容易挑出自己不懂的词语。对于大多数的应用场合,自然语言处理的第一步也是词语切分。可是,机器要完成这一步就不太容易。 自然语言具有歧义性、模糊性及不规范性等特点,人在理解和运用自然语言时,对这些特点并不敏感,可是机器就不一样了。自然语言处理,包括词语切分这一步,必须跨越的第一个障碍便是自然语言的歧义性。例如,孤立的汉字串“白天鹅”可以切分成“白天 鹅”,也可以切分为“白 天鹅”,这就是歧义。但在例(7)、例(8)中:
  (7) 白天鹅可以看家。
  (8) 白天鹅飞过蓝天。
  只能是其中的一种,在例(7)中是: “白天 鹅 可以 看家”。而在例(8)中,则是: “白 天鹅 飞 过 蓝天”。即在具体的语境中,人是可以消解“白天鹅”的切分歧义的。如何实现呢?需要给计算机配备一个知识库,以某种形式存储相关的语言知识和常识。

推荐访问:自然语言 词典 研制 面向 机器