电子文件封装策略研究
来源:用户上传
作者:
封装策略寻根
生活中,当我们要把出厂设备(如复印机、电脑)发给用户的时候,我们通常将主机、附件、软件、说明书、合格证等装箱发运。用户开箱后,通过核对装箱单即可以确认设备的完整性,通过查验合格证即可以确认设备的品质,通过安装软件、阅读说明书等即可掌握操作。同样,当我们通过邮局寄一件物品给朋友时,我们要将物品打包,并写上收件人的姓名、地址。
类似的,在IT领域,“装箱”和“打包”也是常见的对物理对象和数字对象的管理策略。这一策略有一个专门术语叫封装(encapsulation)。以下是封装策略的具体应用实例:
1.人们在芯片制造过程中广泛采用封装技术。方法是将集成电路用绝缘的塑料或陶瓷材料打包,使芯片与外界隔离,防止空气中的杂质腐蚀芯片电路而造成电气性能下降,同时,通过封装外壳上的引脚使芯片与其他器件建立连接。封装后的芯片可以方便地安装和运输。
2.在程序编制过程中,人们用封装的方法将抽象得到的数据和行为/功能相结合,形成一个有机整体――也就是将数据同操作数据的源代码进行有机的结合,形成“类”。“类”隐藏对象的属性和实现细节,增强安全性和简化编程,通过对外公开接口,使用者不必了解具体的实现细节,就可以通过特定的访问权限来使用类的成员。
3.在开放式系统互联模型(OSI)的7层参考模型中,人们通过数据封装,将协议数据单元(PDU)打包在一组协议头和尾中。每层在与其他机器上的对等层进行通信时,通过协议数据单元实现,每层的PDU一般由本层的协议头、协议尾和封装数据构成。
4.人们把数据量很大的多个电子文件(如电子照片)通过网络发给朋友的时候,常常会通过WinRAR软件,把多个文件打包成单个.rar或者.zip后缀的文件,实际上,这一过程也称得上是将文件压缩和封装。
由以上实例可以看出,封装有很多好处,如:能最有效地维护对象内部实体之间的联系;能实现对象的自包含、自说明、自证明;便于数据的交换和管理等。实际上,封装策略的优点还不止这些,但仅就这些,我们就不难理解为什么封装策略会引入到电子文件管理领域了。
封装策略辨析
电子文件管理从根本上说是对元数据和数据的收集、管理和利用。因此,在电子文件管理过程中,我们要规定数据格式和元数据规范,这是保障电子文件真实、完整、有效的关键。从长期保存的角度分析,仅仅做到这些还不够,我们还必须维护电子文件元数据与数据的可靠联系。
ISO 15489指出“元数据与文件的关系可以是嵌入式(embedded in),也可以是隶属式(attached to),还可以是关联式(associated with)”的。关联式和嵌入式是我们熟知的两种形式,在关联方式中,电子文件的二进制流(如一个扩展名为.doc的计算机文件)通常被存储在文件系统中,其元数据被存储在结构化数据库中,并带有一个指针指向该二进制流文件。关联方式维系着文件与其元数据间“脆弱”的联系,这种“脆弱”的表现特征是:电子文件依赖于特定系统,一旦系统出现紊乱或者发生崩溃,两者关联便会瞬间错乱或者消失。笔者调查发现,很多单位在更换/升级办公自动化系统和档案管理系统时,都因为关联方式的“脆弱”性导致电子文件管理出现混乱。目前,我国绝大多数电子文件管理系统采用关联方式维系着文件与其元数据间脆弱的联系,这是一种亟待解决的系统性风险。所谓嵌入式就是元数据内嵌在电子文件中。我们熟知的tiff文件也好,Word文档也好、pdf文档也好,在文件二进制流中均以不同的方式内嵌有元数据。同关联方式相比,嵌入方式维系着文件与其元数据间紧密的联系,但嵌入方式存在着四个明显的缺陷。嵌入方式的第一个缺陷是缺乏普遍遵从的“嵌入”标准,几乎每一种格式的电子文件,其格式开发商都自定义有独特的嵌入规则。tiff文件通常把元数据放在文件头位置;微软的Word文档包含一些属性页,用来记录文件的标题、作者、创建日期和其他一些元数据;Exif(Exchangeable Image File,可交换图像文件)在文件头信息中增加了包括摄影时的光圈、快门、ISO、日期时间、相机品牌型号,色彩编码等有关信息和索引图;IPTC(International Press Telecommunications Council,国际出版电讯委员会)规定的格式,可以将以下元数据加入照片信息中,如作者,版权,字幕,细节描述等;pdf文件遵从adobe公司定义的XMP(扩展元数据平台),其元数据可以用专门的查看器扫描和解析。Adobe公司除了自己的产品外,还向其他开发商推荐XMP,希望能将XMP嵌入到JPEG、TIFF、GIF、EPS、PNG、XML和HTML文件中。不过,我们尚不能断定这一行动会取得成功。嵌入方式的第二个缺陷是不利于元数据的个性化。电子文件作为一种数字资源,由于产生的领域不同,其元数据元素也不同,内嵌形式难以兑现元数据的个性化。嵌入方式的第三个缺陷是不利于电子文件的动态管理,元数据管理是“永远的进行时”,如果将不断变化的元数据嵌入在数据之中,元数据一旦变化,数据会跟着变化,而数据一旦变化,元数据接着变化,这种无限递归会使电子文件管理陷入死循环。嵌入方式的第四个缺陷是,嵌入方式的元数据一般需要专门的查看器扫描和解析后才能提供利用,从而使得电子文件管理变得不经济。隶属式的最佳实践是封装,也就是将电子文件的数据和元数据打包在一个结构规范的信息包中。在封装信息包中,数据和元数据在逻辑上既是结合的,又是相互独立的,当数据发生变化时,元数据可以记录这些变化,同时元数据本身也可以变化管理。数字资源的封装一般基于XML,这不仅因为XML在国际范围内有广泛认同和丰富实践,还因为XML格式作为国际标准与特定软硬件无关,XML在表达“数据是什么”方面具备卓越能力,XML对电子文件及元数据层次结构的表现具备超强能力。封装策略既保障了文件与其元数据间紧密的联系,同时又保证了数据和元数据各自独立性,利于元数据的个性化、动态管理和利用。
由上分析可知,封装不是元数据管理的唯一方式,但封装方式较之元数据的嵌入和关联有其明显的优势。正因为如此,ISO 23081在定义电子文件元数据的时候,描述了封装策略:与文件对象有关的元数据要在文件管理关键点上写入文件自身。以此寻求建立由文件和其元数据组成的自包含的实体。一旦与其元数据结合,文件就可以生存于任何载体和环境中(定义封装协议,应包括为文件及其元数据的存贮和再现定义一个技术标准,以及能维护真实性的技术机制)。
OAIS档案信息包模型
封装机制是实现数字资源长期保存和利用的有效机制,但封装不是无规则的行为。当我们将数字资源及其元数据打包在一起的时候,信息的组织不能杂乱无章,必须规范有序,否则,人们会很难理解,甚至无法解读封装的信息。那么,怎样才能规范封装行为呢,最有效的方法是对封装包结构进行预定义,而预定义的最佳手段是建模。
国际上最先为档案/图书/科技数据信息资源封装包建模的是OAIS(Open Archival Information System,开放档案信息系统)的信息包模型。OAIS是NASA(美国国家航空和航天局)和CCSDS(美国太空数据系统咨询委员会)联合制定的标准,旨在对资源的存取和长期保存规定概念和参考框架。OAIS草案于1997年、1999年两次发布,2000年被批准为ISO标准草案,经征求意见和修改后,于2002年作为CCSDS推荐性规范(蓝皮书)发布,2003年被ISO采纳为国际标准,编号ISO 14721。
OAIS参考模型为建立长期保存和利用数字资源的档案信息系统提供了一个概念性框架。它描述了一个档案信息系统存在的环境、系统的功能以及信息基础结构。OAIS参考模型同时支持数字化和传统载体存档信息,又对数字化信息给予了更多关注。OAIS在系统功能模型中定义了6个功能实体。其系统信息模型定义了3种信息包,即递交信息包(SIP)、档案信息包(Archival Information Package,AIP)和发布信息包(DIP)。其中档案信息包是设计用来长期保存数字资源的,AIP模型(见图1)是数字资源封装公认的基础。
在AIP模型中,包的核是“数据对象”,其他部分都是元数据。“表征信息”是第一层元数据,由“结构信息”和“语义信息”组成,用于解释“数据对象”,通常表现为数字资源内嵌的元数据。“数据对象”和“表征信息”共同构成“内容信息”。“内容信息”被“保存描述信息”进一步描述。“保存描述信息”是第二层元数据,由“标识信息”、“来源信息”、“背景信息”、“固化信息”组成。“内容信息”和“保存描述信息”共同构成信息包――被封装对象。AIP模型中的“打包信息”是第三层元数据,用于记录封装背景和AIP自描述。
在CCSDS和ISO的推动下,OAIS参考模型已成为图书馆、档案馆、科学数据中心和其他文化传承领域数字资源管理信息系统普遍遵从的标准规范,AIP概念模型已经成为数字资源封装的经典模型。
电子文件和相关数字资源封装路由
由于OAIS定义的“档案”可以是任意种类的需要长期保存和利用的资源,所以,AIP模型是不与资源类型挂钩的高度抽象的概念层次的模型。AIP模型只描述基础概念和含义,不设计任何细节。各领域认识到,把AIP模型应用到具体的资源类型上,必须结合资源类型的特点定义相应的逻辑模型,否则AIP模型无法实现。逻辑模型是概念模型的延伸,它用特定的技术规范表示概念之间的逻辑次序,与概念模型相比,它具有可操作性。国际上,基于OAIS概念模型的元数据技术规范项目包括:CEDARS(CURL Exemplars in Digital Archives,英国大学研究图书馆联合体数字存档计划)、NEDLIB(Networked European Deposit Library,网络化欧洲保存图书馆)、PANDORA(Preserving and Accessing Networked Documentary Resource of Australia,澳大利亚网上文献保存与访问)等。
上述项目同样遵从OAIS的AIP模型,但各自在数字图书馆、数字网上文献与数字档案保存系统等领域的应用出现了明显的差异,尤其在元数据的细化设计方面更是如此。于是,各领域的专家尝试以OAIS概念模型为基础,探索“保存元数据”共建共享的机会,共同定义一个在数字化保存领域具有广泛适用性的、可实现的核心保存元数据元素集,并致力于制定在数字化保存系统中编码、存储和管理,以及系统间交换的可选策略。这一动议,催生了一个新的国际性合作研究项目――PREMIS(Preservation Metadata:Implementation Strategies,保存元数据实施战略)。PREMIS由OCLC(Online Computer Library Center,美国联机计算机图书馆中心)和RLG(the Research Library Group,美国研究图书馆集团)联合资助,它选择了CEDARS、NLA(National Library of Australia,澳大利亚国家图书馆)、NEDLIB和OCLC4个保存元数据方案作为实现的基础,并在此基础上进行精炼、细化和扩展,构建了一个广泛适用的保存元数据框架。保存元数据框架可以看成是对OAIS概念模型的细化。为了进行元数据集的逻辑组织,PREMIS定义了在数字保存活动中涉及的5种实体:数字对象(Objects)、知识实体(Intellectual Entities)、事件(Events)、行为者(Agents)和权利(Rights),并为知识实体以外的每个实体定义了一套可实现的数据字典中的语义单元(PREMIS数据字典中唯独没有定义知识实体的语义单元,是因为PREMIS认为,现存的多种描述性元数据,如DC、MARC等已经能够对知识实体进行很好的描述)。PREMIS最新的语法规则参见PREMIS XML schema 2.0版本。
REMIS相对于OAIS概念模型来说增加了可操作性,在某种程度上实现了理论到实践的飞跃,但是,REMIS定义的元数据框架和数据字典既不含OAIS定义的“数据”,也没有“打包”信息,因此,其XML schema不是严格意义的“包”模型,在实际工作中,往往需要将PREMIS与其他封装标准及相应工具结合应用才能实现对数字资源收集、交换、长期保存和利用的有效管理。PREMIS定义的实体及其XML schema容器见图2。
PREMIS将OAIS定义的信息包概念模型细化到了具有可操作性的逻辑模型,它所定义的5种实体(entity)实际上是对元数据部分进行分面(facet)设计的结果。这为后来真正意义上的数字资源封装奠定了基础。前树后荫,美国的METS(Metadata Encoding and Transmission Standard,元数据编码与传输标准)标准、澳大利亚VERS(the Victorian Electronic Records Strategy,维多利亚电子文件策略)标准,以及新近发布的我国DA/T48《基于XML的电子文件封装规范》站在新的起点,在各自领域内树立了电子文件和相关数字资源封装的成功范例。
转载注明来源:https://www.xzbu.com/1/view-306941.htm