全媒体档案信息资源语义组织与服务研究

时间:2022-03-20 09:42:28 公文范文 来源:网友投稿

  摘 要:本文针对数据化时代档案信息资源深层次组织、管理与服务问题,提出了全媒体档案信息资源语义组织与服务的一般思路,并针对元数据语义转换、档案数据语义分析与表述、语义组织与存储、语义检索与服务以及系统实现等相关问题进行初步探讨。
  关键词:全媒体;大数据;档案资源;语义组织;语义服务
  Abstract: This paper proposed the general idea for semantic organization and service of omni media Archives information resources in the case of problems faced to deep organization, management and service of Archive information resources in the period of big data. A preliminary discussion was made on related issues such as semantic transformation of meta data, semantic analysis and representation of Archive data, semantic organization and storage, semantic retrieval and service, system implementation and so on.
  Keywords: Omni media; Big data; Archive resources; Semantic organization; Semantic service
  1 引言
  数字化与数据化的过程中,档案信息资源的载体形態和载体类型越来越丰富,各类文本、图形、图像、音频、视频、动画以及各种类型的三维建模数据不断涌现,大数据和人工智能技术在信息化进程中的不断普及和应用也带来了档案工作新的机遇和挑战。档案工作仅仅处于科学保管和有效利用档案信息资源层面上,已经不能满足人们对信息的个性化、便捷化和人性化等方面的更高需求。人们对档案信息资源的需求不局限于浏览档案的原件,更多的是档案信息内容,档案信息资源的语义组织就显得极为重要。
  传统的档案信息资源组织过程,一般是根据档案信息资源载体类型的不同分别进行加工和处理。在这种情况下,各类信息资源在语义上的相关度往往是通过链接的形式进行描述和处理的,语义上的聚合度不是很高,基于内容的档案信息资源深层次组织、管理与服务难以开展。对于图形、图像等异构的档案全媒体载体形态,单纯使用元数据描述方式不能满足档案信息资源库语义组织的要求,需要运用模式识别和语义标注等手段,通过智能代理工具和方法,将这类信息进行语义组织和存储,共同纳入档案信息资源语义知识库体系[1]。这需要对全媒体档案信息资源进行语义组织与服务,本文拟在这方面初步研讨。
  2 语义组织与服务基本思路
  全媒体档案信息资源语义组织与服务的实现,需要在图形、图像、动画、音频和视频类数据的文本化处理和元数据组织基础上进行。非文本数据的文本化处理可通过模式识别技术和深度学习算法实现,元数据组织通过分词技术和自动著录与标引技术实现。
  本文重点分析元数据语义转换、语义识别、标注、表示、描述、存储、检索和提供利用等方面的内容,即全媒体档案信息资源语义组织与服务的基本流程包括元数据语义转换、档案数据语义分析与表述、语义组织与存储、语义检索与服务等四个方面。
  元数据语义转换,即利用语义知识库组织档案信息的内容,运用档案语义词典进行档案元数据语义转换。
  语义分析与表述,即运用词法分析技术进行信息内容的分词、词性标注、句法标注、语义和语境标注。
  语义组织与存储,即通过存储节点控制使档案信息内容按语义关系进行链接,按语义关联关系进行组织和存储,形成规范化的档案信息内容语义网络知识体系。
  语义检索与服务,即按一定的技术方法与手段形成档案信息语义知识管理服务体系,提供档案信息资源语义检索和智能服务。
  3 语义组织与服务一般框架
  3.1 元数据语义转换策略。元数据语义转换策略是在自动著录和解析的基础上通过档案语义词典生成档案信息语义集合的策略。
  元数据著录标引。档案著录标引是按照档案著录规则、中国档案主题词表、中国档案分类表进行的,其中档案元数据主要包括题名、档号、档案馆(室)代号、分类号、主题词、关键词、提要、文件号、责任者、载体类型、载体形态、保管期限、密级、文种、稿本、形成时间、附件、链接地址、正文等。元数据著录标引在现有的档案管理信息系统中已经具有一定的积累,是生成档案信息语义集合的数据基础。
  档案语义词典的建立。档案语义词典可参照国家档案局颁布的关于档案元数据和档案基本数据规范[2],资源基础是档案原生数据及其元数据集合。《中国档案主题词表》的基本结构分为主表、附表和辅助索引三大部分,包含字顺表、范畴索引、词族索引、主题词索引等。字顺表作为主题词表的主体,可以通过词性分析,进行语义关联规范化组织,建立档案信息语义分析系统的基本词汇控制数据集合,为档案信息资源的语义组织和分析提供语义结构标准化和系统化控制基础[3]。
  语义集合的生成。在语义词典确定的基础上,通过模式识别等技术对全媒体信息源进行文本化处理,利用分词技术实现词汇的提取,进而进行语义关联分析并生成语义信息集合。
  档案信息内容的文本语义抽取。从档案的原生数据源之中识别和标注相关信息,并按照一定的标准和规范对这些信息进行语义化描述,形成语义信息集合。在此基础上,对档案信息资源的内容、背景、时空环境、载体形态等进行内外多维度语义属性、特征、句法依存等关联分析,形成档案信息资源语义词表和句法关联信息集合[4]。

推荐访问:语义 信息资源 组织 档案 媒体