中文动词及分类研究:,中文动词词汇语义网的构建及应用

时间:2022-03-20 09:42:14 公文范文 来源:网友投稿

  摘 要 随着人工智能的日益发展,语言学成为“产”“业”“学”界寻求合作及突破的新契机。其中语言学语义资源的构建及标注问题成为了当前的一大热点及难点。文章针对中文动词语义分类问题,从理论研究、语义网构建及实践应用三方面进行了全面的探讨和分析。理论研究上,文章以“框架為本,构式为用”的研究方法为基石,依循框架语义和构式语法以区分动词和构式之间的 “形义”搭配,形成“格式塔”(Gestalt)般互补。语义网构建上,以语言学分析为基础,语料实证为依归,通过 “框架元素”与“定义性构式”来定义动词属性,使语料兼有词汇表征、框架阶层及语义标注等信息。语义知识库目前包含“沟通”“认知”“感知”“情绪”“评价”“社会互动”“自动”和“致使移动”八大类框架动词,已有效运用于多种基于语义及事件框架的中文自然语言处理任务,包括中文语义自动消歧,自动语义角色标注,事件框架甄别及故事自动生成。
  关键词 框架语义 构式语法 动词分类 语义标注 自然语言处理
  一、 导论
  大数据与深度学习技术的到来,使得人工智能技术飞速发展,Marcus(2018)指出,近六年来,人工智能在语音及图像的自动识别、机器翻译、信息自动检索等自然语言处理任务方面作用显著,几乎到达一个很难再超越的高峰期。研究者们开始关心语言学和人工智能如何进一步结合以求得突破,例如在词性标注上,从97%到100%的可能性。(Manning 2011)为此,语言学成为“产”“业”“学”界寻求再突破的新契机,究其原因有四: 其一,语言学知识为人工智能的自然语言处理提供更接近语言本质的特征模型;其二,语言学规则为语言现象及行为差异提供更为合理的解释;其三,语言学特征编码为人工智能提供相对有效无噪的数据集;其四,语言学知识工程不依赖于大规模集成电路或复杂算法,大力节省软硬件成本。现阶段人工智能与语言学合作发展成为必然趋势,但合作的热点及难点在于语言学资源库的构建及语义标注问题。过去的自然语言处理任务在词语切分、词类标注、句法标注方面均已取得了良好成果。然而,语义标注的工作难度却更大,问题更为复杂。关于语义划分及标注的问题,国内外已经有许多相关研究和资源库(或线上知识库),例如,国外有The Proposition Bank (英文PropBank Palmer et al. 2005), English FrameNet (英文框架语义网,Fillmore & Baker 2000), English VerbNet (英文动词语义网,Levin 1993; Schuler 2005); 国内有中文句结构树 (Chen et al. 1999; Huang et al. 2000), 汉语框架语义知识库/Chinese FrameNet (You & Liu 2005) 等。国内相关研究较国外起步晚,且现有语义研究及标注系统仍存在很大的不足和弊端,许多问题有待重新审视: 如何系统而有效地区分语义?如何辨别形义搭配?形式与语义对应关系如何?什么样的语法表现可作为语义区分的标准?如何对动词进行分类?什么样的分析方法适合中文动词的语义区分?下面从国内外相关研究总结当前语义研究及标注的主要问题和难点,并有针对性地介绍中文动词词汇语义网的特色和优势。
  二、 国内外语义研究及标注系统综述
  国外的语义研究起步较早,发展相对成熟,已有许多完整的理论构架及标注体系,代表性研究及体系有英文框架语义网、英文动词语义网、UCREL语义分析系统(USAS)及英文PropBank等。相比之下,国内的语义研究起步较晚,发展相对滞后,但也一些对应的体系和成果,比如,汉语PropBank、中文句结构树资源库 (Sinica Treebank)、构式义标注(刘洪超 & 詹卫东2014)、汉语框架语义知识库 (Chinese FrameNet)及中文动词词汇语义网(Mandarin VerbNet)等。中文的语义划分标准及理论研究大都沿袭西方的研究体系,缺乏对中文语法特殊性的处理。而且各体系基于不同语义关联分析语义及语法表现,侧重点不一,划分粗细度各异,各有特点,但也存在不足之处。
  1. 英文框架语义网 (English FrameNet)
  英文框架语义网[1]是根据“框架为本”(framebased)的研究方法和分析方式而建立的一套专门分析英文语义的开源性知识库体系。(Fillmore1982; Fillmore & Atkins1992; Fillmore & Baker2000)该系统基于Fillmore(1982)提出的框架语义理论,以认知为驱动因素,以词汇(不仅限于动词)语义背后所涉及的“场景情境”(scene)来进行语义分类。这样的背景架构即为“语义框架”(semantic frame)。语义框架除了提供认知上的事件基模, 也作为联系相关词汇的概念基准,以作为词汇语义分类的依据。传统上,语义框架是由一组主要的参与角色(即框架元素)来定义的,然后通过所需角色来呈现语义的依存关系。下面以动词“hit”为例,呈现该系统对于动词的核心的框架元素标注情况
  (1) [The massive metal foot/Agent] [HIT/Impact] [the ground/Patient] with [a huge thud/Result.]
  如例(1)所示,动词“hit”在框架语义网中被归为Impact类动词,所牵涉的核心框架元素有“Agent” (施事者),“Patient”(受事者)及非核心框架元素“Result”(结果)。系统对动词本身类别及其所关联的参与角色均进行了相应的语义标注,但显著的缺点是只关注框架参与角色,忽略词汇在句法上的特征表现;另外,词汇本身的分类也缺乏一个系统的准则,显得杂乱而无章法。
  2. 英文动词语义网(English VerbNet)

推荐访问:动词 中文 语义 词汇 构建