基于NLPIR汉语分词系统和BFSU,PowerConc,1.0的警务汉语词频与搭配研究

时间:2022-03-11 09:41:46 公文范文 来源:网友投稿
http://img1.qikan.com.cn/qkimages/xdyl/xdyl201612/xdyl20161243-1-l.jpghttp://img1.qikan.com.cn/qkimages/xdyl/xdyl201612/xdyl20161243-2-l.jpghttp://img1.qikan.com.cn/qkimages/xdyl/xdyl201612/xdyl20161243-3-l.jpghttp://img1.qikan.com.cn/qkimages/xdyl/xdyl201612/xdyl20161243-4-l.jpghttp://img1.qikan.com.cn/qkimages/xdyl/xdyl201612/xdyl20161243-5-l.jpghttp://img1.qikan.com.cn/qkimages/xdyl/xdyl201612/xdyl20161243-6-l.jpghttp://img1.qikan.com.cn/qkimages/xdyl/xdyl201612/xdyl20161243-7-l.jpg
  摘 要:警务汉语教学是专门用途汉语教学的新兴分支。本文以禁毒案件为例,使用NLPIR汉语分词系统和语料库检索软件BFSU PowerConc1.0统计禁毒案件高频词作为参照,与现有警务汉语教材相关课文的生词表对比,考察高频词命中情况。同时,以高频词表中出现的一组近义词为例,使用语料库软件分析其搭配特点,辨析词义,探索将语料库应用于专门用途汉语教学的新思路。
  关键词:警务汉语 语料库 词频 搭配
  一、引言
  警务汉语属专门用途汉语,是国际汉语教学领域新兴的教学分支。近年来国际警务合作日益频繁,为更好地打击国际犯罪,提高合作效率,2006年9月,中国公安部国际合作局委托北京外国语大学中文学院开办执法联络员汉语培训项目。这是中国长期(为期一年)、系统地开展警务汉语教学的首次尝试①。发展近十年来,警务汉语在课程设置和教材编写方面积累了经验,但尚未对教学方法和教材编写进行系统的研究。以词汇教学为例,警务汉语词汇的甄选原则是什么?哪些词汇是教学重点?如何处理大量同现的近义词?这些问题都有待回答。
  基于语料库的汉语教学研究提供了解决问题的新思路。据郭曙纶(2013)梳理的目录,汉语语料库已被应用于汉语本体研究、汉语教学研究、教材编写以及词典编纂②。特别是在统计字频词频、研究词语搭配方面,语料库语言学研究方法与传统语言学研究相比,具有快捷、精准、解释力强的优势。警务汉语多见于警务新闻和警务报告中,案件分类清晰,文本相对集中,容易采集整理。通过自建小型语料库来研究警务汉语词汇、辅助词汇教学是可行的。本文以禁毒案件文本为例,使用NLPIR汉语分词系统和语料库检索软件BFSU PowerConc 1.0考察警务汉语高频词汇和词语搭配,并与现有教材收录的词汇进行比较,以期为警务汉语教学提供有益的参考,也为专门用途汉语教学研究探索一条新路。
  二、研究方法
  (一)研究工具
  1.NLPIR汉语分词系统
  本文使用NLPIR汉语分词系统2016版在线大数据搜索与挖掘平台③统计词频和切分生词。该平台可在抓取文本后一键实现文本分析,显示内容包括分词标注、实体抽取、词频统计、文本分类、情感分析、关键词提取、相关词导图(Word2vec)、依存语法、繁简转换、自动注音和摘要提取等。研究重点使用分词标注和词频统计功能。
  2.BFSU PowerConc 1.0
  本文使用语料库分析软件BFSU PowerConc 1.0统计分析词语搭配。PowerConc 1.0支持包括汉语在内的多语种语料,可以处理中文生语料、中文切分语料和中文标注语料,操作便捷,界面简洁。研究使用该软件处理中文切分语料。
  (二)研究步骤
  1.采集语料
  警务案件分类繁多,本文仅以禁毒案件为例。上网采集2012~2014三年间公安部每年发布的十大禁毒案件报告作为语料样本,共计6077字。研究使用微型语料基于以下两点考虑:第一,禁毒案件报告来源单一,信息集中,语言特征明显。郑艳群(2013)指出,数据规模是无法决定数据结果的可靠性的。数据规模对研究结果可信程度的贡献主要体现在估计的显著程度上。因此,只要说明分析结果所依据的数据库的数据来源、语料特征以及数据规模即可④。第二,便于切分语料。本文研究目的不在于建立警务汉语语料库,而在于探索研究的新思路,提供新方法。小规模语料能够在短时间内完成人工切分,符合研究目的。
  2.切分语料
  切分语料分三步进行。
  第一步,将生语料输入NLPIR汉语分词系统分析平台,完成自动切分。
  第二步,人工复查切分结果,并使用“用戶自定义词”功能进行调整。禁毒案件涉及法律术语、毒品名称等特殊专有名词,平台不能自动识别。如“冰毒”,自动切分时会作为两个词标记,需要人工修改过来。分词标注举例如图1。
  图1:
  第三步,根据调整后的分词标注生成切分语料文本,以空格分隔相邻的两个词。例如:
  生语料:云南公安机关禁毒部门成功侦破何定荣贩毒案
  NLPIR分词标注语料:云南/ns公安/n机关/n禁毒/vn部门/n成功/ad侦破/v“/wyz何定荣/贩毒/vi案/ng
  切分语料:云南 公安 机关 禁毒 部门 成功 侦破 何定荣 贩毒 案
  注意将标点符号也同时替换为空格。带有空格的切分语料文本将用于BFSU PowerConc 1.0做进一步分析。
  3.统计词频
  NLPIR汉语分词系统的最大特点是,能够在生语料的基础上直接实现分词,统计出词频。在线平台自动显示名词、动词、形容词排在前十位的高频词。展现方式包括柱形图和折线图两种,也提供数据文本,即按照词频从高到低罗列所有高频词,并在后面标注词频数。
  将切分语料文本导入BFSU PowerConc 1.0,再次统计词频。
  4.调整高频词表
  根据语料可以预测,某些已经学习过的词,如“公安”、城市名等,词频较高,所以在第一次统计词频后,剔除与禁毒案件关联不紧密的词语,二次生成高频词表。备选词首先从NLPIR的分词数据文本中选取相同词频或者最相近词频的词语,然后与BFSU PowerConc 1.0统计的词频列表对照,补足高频词表中的空位。
  5.高频词对照
  将调整后生词的高频词与现有警务汉语教材生词表对照,考察选词情况。
  6.近义高频词搭配检索与分析
  使用BFSU PowerConc 1.0检索语料样本中近义高频词例句,分析搭配特点,为近义词辨析提供教学依据。
  三、禁毒案件词频统计
  统计高频词的意义在于弄清禁毒案件文本中最常出现的警务词语有哪些。换句话说,在理解这类文本时,有哪些词语是反复出现、绕不开的。

推荐访问:汉语|词频|分词|警务|搭配