
《中文文献全文版式还原与全文输入XML规范和应用指南》内容简介:数字图书馆涵盖多个分布式、超大规模、可互操作的异构多媒体资源库群,面向社会公众提供全方位的知识服务。它既是知识网络,又是知识中心,同时也是一套完整的知识定位系统,并将成为未来社会公共信息的中心和枢纽。
编辑推荐
《中文文献全文版式还原与全文输入XML规范和应用指南》:国家数字图书馆工程标准规范成果 目录
前言
中文文献全文版式还原与全文输入XML规范
1 范围
2 引用标准
3 术语和定义
4 总体描述
5 标签及属性
附录A(规范性附录)本规范XMLDTD
附录B(规范性附录)本规范XMLSCHEMA
附录C(规范性附录)本规范XML标签属性值
中文文献全文版式还原与全文输入XML规范应用指南
1 版式还原XML标签应用
2 纯内容XML标签应用
3 世系XML标签应用
4 版式还原XML在文字页中应用
5 版式还原XML在表格中应用
6 纯内容XML应用
7 世系XML应用
附录1 (资料性附录)版式还原数字化与知识挖掘
参考文献
后记 序言
数字图书馆涵盖多个分布式、超大规模、可互操作的异构多媒体资源库群,面向社会公众提供全方位的知识服务。它既是知识网络,又是知识中心,同时也是一套完整的知识定位系统,并将成为未来社会公共信息的中心和枢纽。数字图书馆建设的最终目标是实现对人类知识的普遍存取,使任何群体、任何个人都能与人类知识宝库近在咫尺,随时随地从中受益,从而最终消除人们在信息获取方面的不平等。“国家图书馆二期工程暨国家数字图书馆工程”是国家“十五”重点文化建设项目,由国家图书馆主持建设,其中国家数字图书馆工程的建设内容主要包括硬件基础平台、数字图书馆应用系统和数字图书馆标准规范体系。
标准规范作为数字图书馆建设的基础,是开发利用与共建共享资源的基本保障,是保证数字图书馆的资源和服务在整个数字信息环境中可利用、可互操作和可持续发展的基础。因此,在数字图书馆建设中,应坚持标准规范建设先行的原则。国家数字图书馆标准规范体系建设围绕数字资源生命周期为主线进行构建,涉及数字图书馆建设过程中所需要的主要标准,涵盖数字内容创建、数字对象描述、数字资源组织管理、数字资源服务、数字资源长期保存五个环节,共计三十余项标准。
在国家数字图书馆标准规范建设中,国家图书馆本着合作、开放、共建的原则,引人有相关标准研制及实施经验的文献信息机构、科研机构以及企业单位承担标准规范的研制工作,这就使得国家数字图书馆标准规范的研制能够充分依托国家图书馆及各研制单位数字图书馆建设的实践与研究,使国家数字图书馆的标准规范成果具有广泛的开放性与适用性。本次出版的系列成果均经过国家图书馆验收、网上公开质询以及业界专家验收等多个验收环节,确保了标准规范成果的科学性及实用性。 后记
中文文献全文版式还原与全文输入XML规范是国家数字图书馆工程标准规范研制的一部分,是汉字规范处理项目中的子项目。中文文献全文版式还原与全文输入XML规范是确保数字图书馆工程建设的重要手段之一。针对中文文献版式复杂、使用汉字字符数量大、常有系统外字出现等特点,在中文文献全文版式还原与全文输入XML规范中必须能够对全部中文文献进行详细标记说明(主要用于古籍文献,兼顾普通文献),形成中文文献全文版式还原与全文输入XML规范格式。根据中文文献全文版式还原与全文输入XML规范形成的文件能够在互联网上全方位、实时再现中文文献原貌(重点是古籍),能够提供全文检索所需信息;能够进行中文文献长期存储与保存,为此,必须提供强大、灵活、可统一实施的中文文献全文版式还原与全文输人XML规范标记策略和标记方法,支持系统字与系统外字描述;提供强大中文文献全文版式还原与全文输入XML规范响应和处理机制,使中文文献全文版式还原与全文输入XML规范容易学习、使用和管理。国家图书馆于2006年4月专门成立了中文文献全文版式还原与全文输入XML规范子项目组,2007年12月完成技术需求书,并于2008年2月22日委托采购中心进行竞争性谈判。北京中易中标电子信息技术有限公司凭借其在中文信息处理和古籍数字化研究与开发方面的成熟经验与良好基础,通过竞争成为项目研制单位。双方于2008年3月28日签订合同。
根据项目需求,项目研制单位对国内外XML研究与开发利用的历史与现状进行了广泛深入的文献调查:在分析、梳理XML研究与实际应用的基础上,提出了针对中文文献全文版式还原与全文输入XML规范的研发思路;在国家图书馆子项目组的协助下,研制单位赴国家图书馆进行了现场调研,了解国家图书馆各类型数字资源、各环节业务流程的基本情况,分析国家数字图书馆资源建设、服务与管理的特点与特色,以便有针对性地研制国家图书馆中文文献全文版式还原与全文输入XML规范,使其更好地符合国家图书馆数字资源建设的实际需要。研制单位于2008年7月31日首次提交研制成果,之后国家图书馆子项目组与项目研制单位又经过多次沟通,对成果进行了反复修改,最终形成了国家图书馆中文文献全文版式还原与全文输入XML规范及其相关文件。该规范于2009年3月通过项目组验收,2009年8月通过馆内专家验收,2009年9月4日至17日进行网上公开质询,2010年1月通过业界专家验收,至此该项目全部完成。
本书是国家图书馆中文文献全文版式还原与全文输入XML规范的研究成果集成。
在规范的研制过程中,得到了国家图书馆汪东波、申晓娟、苏品红、王志庚、肖禹、王荟、龙伟、李志尧等专家、同仁的大力支持与多方帮助;得到中国科学院文献情报巾心罗琳、中国科学院软件中心张向阳、北京大学图书馆姚伯岳、北京大学数据分析研究中心李铎、浙江大学图书馆黄晨等专家多方帮助,在此致以诚挚的谢意。 文摘
插图:
本规范规定了计算机中文信息处理领域中文文献全文版式还原与全文输入XML格式,以及XMLDTD和XML Schema的结构。
本规范适用于国家图书馆中文文献全文版式还原与全文输入XML文件,本文件能够在互联网上全方位、实时再现中文文献原貌(重点是古籍);能够提供中文文献全文检索所需信息;用于中文文献长期存储与保存。在使用这一规范时,可根据本规范和国家图书馆的具体需求补充制定相应的细则。
本规范主要应用于中文文献、辞书编纂、知识挖掘、家谱等的数字化。
中文文献:指将记录在纸介质(或通过扫描形成的图像)上的汉字、符号、表格、图形、图像数字化。
辞书编纂:指为了编纂新的辞书而对已有的参考文献进行数字化,目的是自动分析和统计出参考文献中的相关内容和数据。
知识挖掘:指为了获取文献中的特定知识而对文献进行数字化,目的是自动获取和分类文献中的特定知识。
ISBN | 9787501343843 |
---|---|
出版社 | 国家图书馆出版社 |
作者 | 蒋贤春 |
尺寸 | 16 |