全媒体档案信息资源语义组织与服务研究
摘 要:本文针对数据化时代档案信息资源深层次组织、管理与服务问题,提出了全媒体档案信息资源语义组织与服务的一般思路,并针对元数据语义转换、档案数据语义分析与表述、语义组织与存储、语义检索与服务以及系统实现等相关问题进行初步探讨。
关键词:全媒体;大数据;档案资源;语义组织;语义服务
Abstract: This paper proposed the general idea for semantic organization and service of omni media Archives information resources in the case of problems faced to deep organization, management and service of Archive information resources in the period of big data. A preliminary discussion was made on related issues such as semantic transformation of meta data, semantic analysis and representation of Archive data, semantic organization and storage, semantic retrieval and service, system implementation and so on.
Keywords: Omni media; Big data; Archive resources; Semantic organization; Semantic service
1 引言
数字化与数据化的过程中,档案信息资源的载体形態和载体类型越来越丰富,各类文本、图形、图像、音频、视频、动画以及各种类型的三维建模数据不断涌现,大数据和人工智能技术在信息化进程中的不断普及和应用也带来了档案工作新的机遇和挑战。档案工作仅仅处于科学保管和有效利用档案信息资源层面上,已经不能满足人们对信息的个性化、便捷化和人性化等方面的更高需求。人们对档案信息资源的需求不局限于浏览档案的原件,更多的是档案信息内容,档案信息资源的语义组织就显得极为重要。
传统的档案信息资源组织过程,一般是根据档案信息资源载体类型的不同分别进行加工和处理。在这种情况下,各类信息资源在语义上的相关度往往是通过链接的形式进行描述和处理的,语义上的聚合度不是很高,基于内容的档案信息资源深层次组织、管理与服务难以开展。对于图形、图像等异构的档案全媒体载体形态,单纯使用元数据描述方式不能满足档案信息资源库语义组织的要求,需要运用模式识别和语义标注等手段,通过智能代理工具和方法,将这类信息进行语义组织和存储,共同纳入档案信息资源语义知识库体系[1]。这需要对全媒体档案信息资源进行语义组织与服务,本文拟在这方面初步研讨。
2 语义组织与服务基本思路
全媒体档案信息资源语义组织与服务的实现,需要在图形、图像、动画、音频和视频类数据的文本化处理和元数据组织基础上进行。非文本数据的文本化处理可通过模式识别技术和深度学习算法实现,元数据组织通过分词技术和自动著录与标引技术实现。
本文重点分析元数据语义转换、语义识别、标注、表示、描述、存储、检索和提供利用等方面的内容,即全媒体档案信息资源语义组织与服务的基本流程包括元数据语义转换、档案数据语义分析与表述、语义组织与存储、语义检索与服务等四个方面。
元数据语义转换,即利用语义知识库组织档案信息的内容,运用档案语义词典进行档案元数据语义转换。
语义分析与表述,即运用词法分析技术进行信息内容的分词、词性标注、句法标注、语义和语境标注。
语义组织与存储,即通过存储节点控制使档案信息内容按语义关系进行链接,按语义关联关系进行组织和存储,形成规范化的档案信息内容语义网络知识体系。
语义检索与服务,即按一定的技术方法与手段形成档案信息语义知识管理服务体系,提供档案信息资源语义检索和智能服务。
3 语义组织与服务一般框架
3.1 元数据语义转换策略。元数据语义转换策略是在自动著录和解析的基础上通过档案语义词典生成档案信息语义集合的策略。
元数据著录标引。档案著录标引是按照档案著录规则、中国档案主题词表、中国档案分类表进行的,其中档案元数据主要包括题名、档号、档案馆(室)代号、分类号、主题词、关键词、提要、文件号、责任者、载体类型、载体形态、保管期限、密级、文种、稿本、形成时间、附件、链接地址、正文等。元数据著录标引在现有的档案管理信息系统中已经具有一定的积累,是生成档案信息语义集合的数据基础。
档案语义词典的建立。档案语义词典可参照国家档案局颁布的关于档案元数据和档案基本数据规范[2],资源基础是档案原生数据及其元数据集合。《中国档案主题词表》的基本结构分为主表、附表和辅助索引三大部分,包含字顺表、范畴索引、词族索引、主题词索引等。字顺表作为主题词表的主体,可以通过词性分析,进行语义关联规范化组织,建立档案信息语义分析系统的基本词汇控制数据集合,为档案信息资源的语义组织和分析提供语义结构标准化和系统化控制基础[3]。
语义集合的生成。在语义词典确定的基础上,通过模式识别等技术对全媒体信息源进行文本化处理,利用分词技术实现词汇的提取,进而进行语义关联分析并生成语义信息集合。
档案信息内容的文本语义抽取。从档案的原生数据源之中识别和标注相关信息,并按照一定的标准和规范对这些信息进行语义化描述,形成语义信息集合。在此基础上,对档案信息资源的内容、背景、时空环境、载体形态等进行内外多维度语义属性、特征、句法依存等关联分析,形成档案信息资源语义词表和句法关联信息集合[4]。
最新推荐
- 1政府及行政事业单位管理会计应用问题研究
- 2高等学校债务风险管理研究
- 3基于平行文本比较模式的准技术词汇翻译探讨
- 4核心素养背景下的初中体育教学思考
- 5低压低产气井排水采气工艺技术分析
- 6“123”模式推进党组织领导的校长负责制
- 7孩子在家有说有笑,为何一出门就一言不发?
- 8肥厚型心肌病家系中MYBPC3-D1149fs*40新发突变的基因型及临床表型研究
- 9液压调速器AMESim动态仿真与参数优化
- 10基于经筋理论探讨活血定痛液定向透药对膝骨性关节炎患者及膝关节功能的影响
- 11文化生产还是文化再生产?——“学一代”与“学二代”的教育冲突与反思
- 12食物链
- 13难写字
- 14基于TPACK框架的,大学英语智慧教学评价体系探究
- 15跟着金庸的武侠小说,学习活用通感修辞
- 16新课改下高中英语教学中培养学生跨文化交际能力的策略
- 17封二:·科学小达人·
- 18中、蒙医文化融入医学通识英语课程教学的探索与思考
- 19树叶
- 20喵,一起藏猫猫吧
- 21克鲁普斯卡雅学前劳动教育思想及其启示
- 22难忘的体验
- 23凭空消失的10天
- 24冰雪城奇遇
- 25有点可爱有点“坏”
- 26高考地理试题体现“交通强国战略”的分析及教学启示
- 27在探秘自然中走进生活
- 28太,太
猜你喜欢
- 1“学习二十大永远跟党走奋进新征程”主题演讲比赛演讲稿10篇(全文)
- 22023年度党的路线方针政策10篇(2023年)
- 3组词造句24篇(完整)
- 4最新工程居间合同诈骗(十五篇)
- 5教师师风师德总结依法执教(19篇)
- 6组织开展家庭教育促进法宣传活动简报4篇(2023年)
- 7城管年度考核表7篇【精选推荐】
- 8职工工会申请书20篇
- 9入党谈话内容及注意事项13篇(完整)
- 10江西大山尾矿区铌钽矿地质特征及找矿标志研究
- 11试用期转正意见和建议4篇
- 12《民法典》概括条款的识别标准与类型构造
- 13高校原创红色话剧的审美创新——以长沙学院《日出湘江》为例
- 14最新七年级下册道德与法治教学计划(3篇)
- 15医院服务效能提升培训学习心得体会4篇
- 16执行政治纪律和政治规规矩方面3篇【优秀范文】
- 17会计职业道德风险及防范措施
- 18业主大会书面征求意见表决书4篇(完整文档)
- 192023年度村环境卫生整治活动简报8篇(范文推荐)
- 202023年度贯彻落实八项规定15篇
- 212023党员教师民主生活会批评与自我批评优秀3篇
- 22自立自强的议论文7篇
- 232023年大学试卷分析改进措施13篇
- 24不同类型钾肥对烤烟上部叶钾含量与碳氮代谢及品质的影响