面向自然语言处理的机器词典的研制
摘 要 北京大学计算语言学研究所积30余年之努力,研制了一部面向自然语言处理的机器词典,即《现代汉语语法信息词典》(以下简称GKB)。基于GKB,又衍生了一系列成果,进而集成为综合型语言知识库。文章扼要介绍GKB及相关成果,并总结从事大型语言工程的实践经验,期望这些经验不仅对语言工程的实践者,而且对探索学科交叉融合的学者都有参考价值。
关键词 自然语言处理 语言工程 现代汉语语法信息词典 综合型语言知识库 交叉学科
一、 前言
收到《辞书研究》编辑部的约稿函,要求为改版后的2019年第2期撰稿,既感到荣幸,又感到惶恐。我們认为《辞书研究》是纸质型辞书的园地,主要关注传统辞书的理论、方法等创新性成果,我们是外行,恐难胜任。不过,又觉得应当承担这个任务,因为30多年来,研制面向自然语言处理的机器词典,需要的语言知识主要来源于辞书。撰写拙文,除了表达饮水不忘掘井人的感谢之情外,我们也期望利用这个机会,对语言工程的实践经验做一个总结,以具体案例阐述自然语言处理技术为什么需要语言知识,需要什么样的语言知识及如何将语言学家的及辞书中的语言知识转换成计算机能够运用的形式。
二、 自然语言处理与语言知识库
自然语言处理的任务是实现计算机对人类语言文本的自动分析与生成,分析相当于“读”,生成相当于“写”。数字计算机在非数值领域的最早应用便是发端于70年前的机器翻译;而自然语言理解——自然语言处理的最高境界,仍是当前人工智能研究努力攻克的难关。智能机器人最重要的能力之一就是理解和运用人类的语言。2017年国务院发布的《新一代人工智能发展规划》明确指出突破自然语言理解的重要性。自然语言处理是发展中的技术,经历了先以规则方法为主,继之以统计方法为主的发展阶段(俞士汶2003;宗成庆2013),当前基于神经网络的深度学习已成为前沿(约阿夫·戈尔德贝格2018)。 不同类型的方法的结合可能为自然语言处理提供最好的效果。实际系统常常兼收并蓄,博采众长。
自然语言处理运用计算机技术,划到理工科,其处理对象是人类语言,也是文科中的语言学的研究对象。语言学中也有一个分支,即计算语言学。计算语言学和自然语言处理都是文理结合的交叉学科,其对象、目标、原理和方法大致相同。如果要加以区分,可以认为自然语言处理侧重于应用研究,以构造实用系统为目标;计算语言学则侧重于理论研究,为自然语言处理系统提供语言模型、实现算法和工程方案。
关于语言模型,可以这样理解: 因为人类语言过于复杂,需要根据研究的目标,对其进行简化、变换,使其形式化,得到数学模型;计算语言学则进一步将数学模型改造为可用程序在计算机上实现的形式。例如,要计算机协助人判断两个文本是否相似,就要将文本模型化。如例(1)、例(2):
(1) 黎安是国安队的球迷。
(2) 安黎是安国队的球迷。
可采用集合论模型,把文本看成不同的汉字的集合,于是有:
集合A={安,的,队,国,黎,迷,球,是}
集合B={安,的,队,国,黎,迷,球,是}
由A和B相同判断例(1)和例(2)相同,显然过于简单化。可采用更精细的向量空间模型,用n维向量近似地替代文本。将不同的汉字选作n维空间的坐标轴,n维向量在各个坐标轴上的分量可定义为汉字在文本中的频次(对于不等长的文本,则用频率)。于是有:
坐标轴: 安 的 队 国 黎 迷 球 是 ……
向量α1=(2,1,1,1,1,1,1,1,0,……)
向量β1=(1,1,1,2,1,1,1,1,0,……)
由于α1和β1不同,可正确判断例(1)和例(2)也不同。不过,在向量空间模型中,以汉字(字符串)作为考察对象只是纯粹的计算机技术,不涉及任何语言学知识。当比较例(3)、例(4):
(3) 黎安是国安队的球迷。
(4) 安黎是安国队的球迷。
时,坐标轴不变,于是有:
向量α2=(2,1,1,1,1,1,1,1,0,……)
向量β2=(2,1,1,1,1,1,1,1,0,……)
根据α2和β2相同,判断例(3)和例(4)相同,又错了。如果把例(3)和例(4)切分成词的序列,如:
(5) 黎安 是 国安队 的 球迷。
(6) 安黎 是 安国队 的 球迷。
以词作为坐标轴,则有
坐标轴: 安国队 安黎 的 国安队 黎安 球迷 是 ……
向量α3=(0,0,1,1,1,1,1,0,……)
向量β3=(1,1,1,0,0,1,1,0,……)
由于α3和β3不同,就能判断例(5)和例(6)不同,例(3)和例(4)也不同。
从以上实例的处理过程可以看出语言学知识对提高自然语言处理智能水平的重要性。在语言学知识中,词汇知识是最基本的。人学习语言要经常使用辞书类的工具书(纸质版或电子版)。人能够方便有效地利用辞书,因为人在阅读时不自觉地做了一件事,把按句连写的汉字串切分成了词语串,因而很容易挑出自己不懂的词语。对于大多数的应用场合,自然语言处理的第一步也是词语切分。可是,机器要完成这一步就不太容易。 自然语言具有歧义性、模糊性及不规范性等特点,人在理解和运用自然语言时,对这些特点并不敏感,可是机器就不一样了。自然语言处理,包括词语切分这一步,必须跨越的第一个障碍便是自然语言的歧义性。例如,孤立的汉字串“白天鹅”可以切分成“白天 鹅”,也可以切分为“白 天鹅”,这就是歧义。但在例(7)、例(8)中:
(7) 白天鹅可以看家。
(8) 白天鹅飞过蓝天。
只能是其中的一种,在例(7)中是: “白天 鹅 可以 看家”。而在例(8)中,则是: “白 天鹅 飞 过 蓝天”。即在具体的语境中,人是可以消解“白天鹅”的切分歧义的。如何实现呢?需要给计算机配备一个知识库,以某种形式存储相关的语言知识和常识。
最新推荐
- 1政府及行政事业单位管理会计应用问题研究
- 2高等学校债务风险管理研究
- 3基于平行文本比较模式的准技术词汇翻译探讨
- 4核心素养背景下的初中体育教学思考
- 5低压低产气井排水采气工艺技术分析
- 6“123”模式推进党组织领导的校长负责制
- 7孩子在家有说有笑,为何一出门就一言不发?
- 8肥厚型心肌病家系中MYBPC3-D1149fs*40新发突变的基因型及临床表型研究
- 9液压调速器AMESim动态仿真与参数优化
- 10基于经筋理论探讨活血定痛液定向透药对膝骨性关节炎患者及膝关节功能的影响
- 11文化生产还是文化再生产?——“学一代”与“学二代”的教育冲突与反思
- 12食物链
- 13难写字
- 14基于TPACK框架的,大学英语智慧教学评价体系探究
- 15跟着金庸的武侠小说,学习活用通感修辞
- 16新课改下高中英语教学中培养学生跨文化交际能力的策略
- 17封二:·科学小达人·
- 18中、蒙医文化融入医学通识英语课程教学的探索与思考
- 19树叶
- 20喵,一起藏猫猫吧
- 21克鲁普斯卡雅学前劳动教育思想及其启示
- 22难忘的体验
- 23凭空消失的10天
- 24冰雪城奇遇
- 25有点可爱有点“坏”
- 26高考地理试题体现“交通强国战略”的分析及教学启示
- 27在探秘自然中走进生活
- 28太,太
猜你喜欢
- 1“学习二十大永远跟党走奋进新征程”主题演讲比赛演讲稿10篇(全文)
- 22023年度党的路线方针政策10篇(2023年)
- 3组词造句24篇(完整)
- 4最新工程居间合同诈骗(十五篇)
- 5教师师风师德总结依法执教(19篇)
- 6组织开展家庭教育促进法宣传活动简报4篇(2023年)
- 7城管年度考核表7篇【精选推荐】
- 8职工工会申请书20篇
- 9入党谈话内容及注意事项13篇(完整)
- 10江西大山尾矿区铌钽矿地质特征及找矿标志研究
- 11试用期转正意见和建议4篇
- 12《民法典》概括条款的识别标准与类型构造
- 13高校原创红色话剧的审美创新——以长沙学院《日出湘江》为例
- 14最新七年级下册道德与法治教学计划(3篇)
- 15医院服务效能提升培训学习心得体会4篇
- 16执行政治纪律和政治规规矩方面3篇【优秀范文】
- 17会计职业道德风险及防范措施
- 18业主大会书面征求意见表决书4篇(完整文档)
- 192023年度村环境卫生整治活动简报8篇(范文推荐)
- 202023年度贯彻落实八项规定15篇
- 212023党员教师民主生活会批评与自我批评优秀3篇
- 22自立自强的议论文7篇
- 232023年大学试卷分析改进措施13篇
- 24不同类型钾肥对烤烟上部叶钾含量与碳氮代谢及品质的影响