元数据

本页使用了标题或全文手工转换
维基百科,自由的百科全书
“Metadata”的各地常用译名
中国大陆元数据
台湾诠释资料、后设资料、元资料
港澳元数据
在2010年后设资料通常为数码形式;而在1960和70年代的传统卡片目录,也是后设资料的例子,因为这些卡片包含有关图书馆(作者,标题,主题等)中的图书资讯。

后设资料Metadata,台湾又常译作诠释资料),是一群资料,其内容提供了有关于另一群资料的资讯[1]。英文前缀词meta-的意思是之后,进而有超出界限(transcending)之意思,其语意来自形上学的外语构词meta-physics (希腊语μετά-φυσικά) ,具有探求现象对象背后之本质的意味。因此,后设资料也带有相仿的意义,指的就是超出于“特定一群资料”所呈现的内容资料之外,其第二层次的资料。实质上,也就是用于描述这“特定一群资料”的资料,具体来说,如:

正由于后设资料是在描述关于“特定一群资料”的资讯,但并非是这“特定一群资料”其自身的内容资料,所以才命名为meta-data,即资料背后的资料。

根据美国国家资讯标准组织发布的文件《Understanding Metadata: What is Metadata, and What is it For?》(2017年),后设资料可区分出四种类型[2]

  • 描述型的后设资料:用于发现与了解资源,其项目如题名作者主题文类和出版时间。
  • 结构型的后设资料:是资源各个部份彼此之间的关系,其项目如编排顺序、阶层结构中的位置。
  • 管理型的后设资料:是资源的行政管理(administration)事项,像是数位物件的管理、资源的互通性(interoperability)与电脑档案维护。
    • 技术性的后设资料:用于解码绘制(rendering)档案,其项目如电脑档案的类型、档案的大小、档案建立日期/时间、资料压缩方案。
    • 维护性的后设资料:用于档案的长期管理,其项目如检查总和(checksum)、数位物件的维护活动[3]
    • 版权性的后设资料:是内容所具有的智慧财产权,其项目如版权状态、授权条款、版权持有者。
  • 标示语言:整合后设资料和内容资料,并标出内容资料中其他的结构与语义特征,如段落、标题(heading)、列表(list)、名字、日期。

对译词[编辑]

中国大陆[4]港澳[5][6]将metadata译为元数据,台湾[7][8][9]主要译作后设资料或诠释资料,其他的对译词还有元资料、中继资料、中介资料、超资料等等。

诠释资料是指这是具有描述、阐释作品之属性、特征、内容作用的资料,如作者、创作年代、作品类型、关键字,而称为诠释资料。后设资料是以“后设”对译meta-,后设的意思是于事件或事物表象的背后安置、建立,后设资料是在资料背后提供结构化资讯的资料。元数据、元资料是以“元”对译meta-,取基本、根本之意,视为资料之根本,可将资料之特质予以标引出来[9][10]

内容简介[编辑]

主要是描述资料属性(property)的资讯,用来支持如指示储存位置、历史资料、资源寻找、文件记录等功能。后设资料算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏资料的内容或特色,进而达成协助资料检索的目的。

该名词起源于1969年,由Jack E. Myers所提出的.metadata即关于资料的资料(data-about-data),可以说是一种标准,是为支援互通性的资料描述,所取得一致的准则。其基本定义出自OCLC与NCSA所主办的“Metadata Workshop”研讨会。它将metadata定义为“描述资料的资料”(data about data)。此后各种有关Metadata的定义纷纷的出现。现存很多metadata的定义,主要视特定社群或使用情境而不同。如有有关资料的资料(data about data),有关资讯物件之结构的资讯(structured information about an information object),描述资源属性的资料(Data describes attributes of resources)等。

都柏林核心集(Dublin Core Metadata Initiative,DCMI)是后设资料的一种应用,在1995年2月由国际图书馆电脑中心(OCLC)和美国国家超级计算应用中心(National Center for Supercomputing Applications,NCSA)联合赞助的研讨会上,52位来自图书馆学计算机、网络等方面专家共同制定。

历史[编辑]

后设资料传统上用于图书馆卡片目录,一直到1980年代。2000年代起,数位化成为储存资料的普遍方式。而图书馆也将其目录资料转换为数位资料库,数位资料也有相关的后设资料标准。

不同行业有不同的后设资料标准(例如,博物馆收藏、数位音乐档案、网站等)。描述资料或资料档的背景和内容,增加了实用性。例如一个网页的后设资料包括了有关页面主题、编写脚本语言(例如 HTML)、产生页面的工具,以及哪里有关于主题的更多资讯。这个后设资料可以自动提高阅读者的体验,让使用者更容易在网路上寻找网页。音乐CD可提供此专辑的音乐家歌手歌曲作者资讯的后设资料。

后设资料的主要目的是帮助用户寻找相关资讯并探索资源。后设资料也有助于组织电子资源,提供数位识别,并支援归档和保存资源。“由相关标准寻找、辨识资源,将相似资源集中在一起,区分不同并提供位置资讯”,后设资料可帮助使用者探索资源。各国政府广泛收集包括互联网在内的通讯活动后设资料,用于流量分析,而且可用于大规模监控

在许多国家有关于电子邮件电话网页IP连线与手机位置的后设资料,是固定由国家储存的。

定义[编辑]

后设资料是指“描述资料的资料”。虽然说源自于希腊介词前缀 μετά- 的英文前缀“meta”代表“之后”或“之下”的意思,在此处实际上是使用知识论中“关于”的意思。后设资料被定义为提供某些资料单方面或多方面资讯的资料;它被用来概述资料的基础资讯,以简化查找过程与方便使用[11]。例如:

  • 创建资料的方法
  • 资料的用途
  • 建立的时间与日期
  • 资料的建立者或作者
  • 资料被建立在电脑网路的何处
  • 用作标准
  • 档案大小

举例,一个数位影像档案可能会包括描述图片大小、色彩深度、图片解析度、图片建立时间、快门速度等资料的后设资料[12]。一份文档的后设资料可能会包含文档长度、作者、建立时间、文档概述等资讯。网页中的后设资料也可以包含页面内容的描述,以及有关于内容的关键字等等[13]。这些东西常被称作“元标签”(metatags),其在1990年代后期以前被用来当作决定搜寻引擎结果顺序的主要因素[13]。在1990年代后期,由于“关键字堆砌英语keyword stuffing”的出现,对于元标签的倚赖程度逐渐降低[13]。元标签的滥用导致许多搜寻引擎会误认某些结果的关联性高于实际值[13]

后设资料可以在被称作后设资料注册中心或后设资料注册处的资料库中储存和管理[14]。不过,如果没有文字和参考点的话,单纯看是很难辨认这些后设资料的[15]。举例来说:一个资料库本身会包含一些数字,但是这些数字代表的涵义可能是某些计算后的结果,或者是书籍的ISBN码──这就需要参考才能知道,而无法直接由资料容器内部得知。菲利普·巴格利在1968年在他的著作《Extension of Programming Language Concepts》中发明了“metadata”这个词,当时的意思为“描述资料容器的资料”,也就是结构性后设资料,而非描述性后设资料或常用于图书馆目录的后设内容(metacontent)[16][17]。自那时起,资讯管理、资讯科学、资讯技术、图书馆学与地理资讯系统等领域广泛接受了这个词汇。在这些领域中,后设资料的定义为“描述资料的资料”[18]。尽管这是最广为接受的定义,许多学科也为了自用而采用了特殊的解释或定义。

类型[编辑]

虽然后设资料的应用层面很广,涵盖各式各样的领域,有专门和公认的方法来决定后设资料的类型弗朗西斯·布雷瑟顿英语Francis Bretherton和辛格利(1994)将后设资料分成两类:结构性/控制性后设资料和指南性后设资料[19]。“结构性后设资料”描述了诸如表格金钥索引等资料库物件的结构。“指南性后设资料”帮助人们找到特定的物品,而且经常被压缩为一系列自然语言中的关键字

根据拉尔夫·金博尔英语Ralph Kimball,后设资料可以分成两个相似的类别:技术性后设资料和商业性后设资料。“技术性后设资料”等同内部性后设资料,而“商业性后设资料”则为外部性后设资料。金博尔加入了第三种类别,“过程性后设资料”。

另一方面,美国国家资讯标准组织在2004年将后设资料分成三种:描述性、结构性和管理性[18]。“描述性后设资料”通常用于发现和识别,作为搜寻和定位物件的资讯,例如题名作者、主题、关键字出版商等等。“结构性后设资料”描述物件的构成物是如何组织起来的,举例来说,书页是如何组成一本书中的章节的这种资料,就是结构性后设资料。最后,“管理性后设资料”给予有助于管理资源的资讯。管理性后设资料参考技术资讯,包括档案类型、档案建立时间和档案建立方式。管理性后设资料之下还有两个小分类,版权性后设资料和维护性后设资料。“版权性后设资料”解释了智慧财产权,而“保存性后设资料”则包含保存和储存资源的资讯[20]

在2017年的新版文件,美国国家资讯标准组织增加了标示语言(markup language)为其中一类,又把管理性后设资料及其两个小分类的叙述,重新加以组织安排,改用三小类的方式来呈现,并举出各个分类的资料项目和主要用途[2]

统计数据的后设资料,是用来描述收集、处理或产生统计数据的过程。[21]SDMX英语SDMX将统计数据的后设资料区分为[22][23]

  • 结构性的后设资料:用来辨识和描述统计数据,如资料集的维度、统计变数、表格名称、统计代码清单等。[24]
  • 参考性的后设资料:用解释性的文字描述统计数据的内容和品质,包括统计数据的背景、调查和处理方法,还有统计数据的品质和发布机制之特色。

结构[编辑]

后设资料(后设内容)或更正确地,用来组合后设资料(后设内容)陈述句的词汇,通常依据明确定义后设资料纲要的标准化概念而结构化,其中包含了:后设资料的标准和模型。诸如控制词汇表分类学索引典资料字典后设资料注册中心等工具,可针对后设资料进一步标准化。结构后设资料的共通性在资料模型开发和资料库设计中也是至关重要的。

语法[编辑]

后设内容(metacontent)语法是指产生后设资料的栏位或元素的结构规则。单一个后设资料纲要可以许多不同的标记编程语言来表达,每种标记或编程语言需要不同语法。例如,都柏林核心集(Dublin Core)可用纯文字HTMLXMLRDF来表达。

(引导)后设内容的常见例子是书目分类,主题,杜威十进位图书分类号。在任何“分类”中总是有些关于物件的隐含陈述。将物件分类为例如杜威分类号514(拓扑)(即书背上有编号为514的书),隐含的陈述是:<book><subject heading><514>。这是一个主题-谓词-物件的三元组,更重要的,它是一个类-属性-值的三元组,前两个元素(类、属性)是已有定义语义的结构后设资料片段。第三个元素是一个值,最好来自一些控制词汇表,一些参考(主)资料。

后设资料和主资料元素组合为一个陈述句,它是一个后设内容陈述,即“后设内容 = 后设资料 + 主资料”。所有这些元素都可以当作“词汇”。后设资料和主资料都是词汇,可以汇编成为后设内容陈述。这些词汇有很多来源,包括后设资料和主资料:UMLEDIFACTXSD,Dewey/UDC/LoC,SKOS,ISO-25964,Pantone二名法等。使用控制词汇表作为后设内容陈述的组成部分,无论是索引或寻找,都被ISO 25964认可:“如果索引搜寻两者从相同概念都选择了相同的术语,那么检索将得到相关文件。”

这对互联网的搜索引擎(如Google)尤其重要,搜寻程序使用复杂的索引演算法使搜寻的文字网页相符合;其中并没有智慧或“推论”发生,只是令人感觉似乎如此。

层级,线性和平面模式[编辑]

后设资料的模式在本质上是层级结构,即后设资料元素和元素之间存在套叠的关系,因此元素之间有亲子关系。层级模式的一个例子是IEEE LOM模式,其中某个元素可属于父亲的后设资料元素。后设资料模式也可以是一维或线性的,其中每个元素与其它元素完全不相关联,而且只根据一维来分类。例如都柏林核心纲要就是一维的后设资料模式。后设资料模式通常是二维或平面的,其中每个元素与其它元素完全不相关联,但根据两个正交的维度来分类。

超映射[编辑]

在后设资料模式超出平面描述的所有情况下,需要某种类型的超映射(hypermapping)以选取观点来显示和查看后设资料,并提供特殊视图。超映射通常应用于地理学的或地质资讯叠加的图层

细致程度[编辑]

将资料或后设资料构造的程度称为“细致程度”(granularity),是指提供了多少资料的相关细节。具有高细致度的后设资料允许更深入、详细和更结构化的资讯,并实现更高级别的技术操作。较低的细致度意味著以低成本的考量来产生后设资料,但没有细节描述的资讯。细致度的主要影响不仅在于后设资料的产生和取得,而且在于其维护成本上。一旦后设资料的结构变得过时,则对参考资料的存取也是如此。因此,细致度必须考虑到产生以及维护后设资料的投入。

标准[编辑]

后设资料有适用的国际标准。在国家和国际标准社群,特别是ANSIISO正完成许多工作,就后设资料和登录的标准化达成共识。后设资料的核心登录标准是ISO/IEC 11179 后设资料登录(MDR),在ISO/IEC 11179-1:2004中描述了该标准的框架。新版本的第一部份正处于2015年或2016年初发布的最后阶段,已经被修订以符合目前版本的第三部份;而ISO/IEC 11179-3:2013,其中扩展了MDR以支援概念系统的登录(见ISO/IEC 11179)。

此标准规范了记录资料涵义和技术结构两者,适合人类和计算机的无歧义用法。ISO/IEC 11179标准是指后设资料为相关于资料的资讯物件,或是“有关资料的资料”。在ISO/IEC 11179第三部份中,一个资料项的资讯物件是指,描述关于其资料元素、值域和其它可重复使用语义,与用来描述意义和技术细节。此标准还规定了后设资料登录的详细内容,以及在后设资料登录中为了登录和管理的资讯物件。ISO/IEC 11179第三部份也预定了从其它资料元素衍生的复合结构描述,例如经过计算,一或多个资料元素的集合或其它形式的衍生资料。

此标准原先叙述本身为“资料元素”登录,但其目的则独立于任何特定应用程式之外,支援后设资料内容的记叙和登录,将记叙提供给人或计算机以开发新的应用程式,资料库,或根据登录的后设资料内容来分析收集到的资料。重复利用、扩展与该标准的管理部份,此标准已成为其它类型的后设资料登录的一般基础。

地理空间社群有专业化地理空间后设资料标准的传统,特别奠基于地图图像库目录之上。对于地理空间资料,正规的后设资料是必要基本的,一般文字处理方法则无法适用。

都柏林核心后设资料术语是一组词汇,用于描述意图探索的资源。最初的15个经典后设资料术语被称为都柏林核心后设资料元素集,在以下标准文件中均认可:

  • IETF RFC 5013
  • ISO标准 15836-2009
  • NISO标准 Z39.85。

虽然微格式遵循XHTMLHTML的语义标记方法,但它本身不是一个标准,它尝试重新利用现有的网页标签来传送后设资料。一位微格式的倡导者坦塔克·塞里克,说明了采行另案的问题症结点:“我们希望你学习一种新语言,现在你需要在伺服主机上输出这些额外的文件。实在是麻烦。(微格式)能降低进入障碍。”

用途[编辑]

照片[编辑]

含有拥有者,版权和联系资讯的识别后设资料可能被写入数位照片档案,产生档案的相机品牌型号以及曝光资讯(快门速度,f-stop等)和记述资讯,例如关于照片的关键字,使档案或图像可在计算机和/或互联网上搜寻。

一些后设资料由相机产生,一些后设资料由摄影师和/或软件在下载到计算机之后输入。大多数数位相机都会写入关于机型、快门速度等的后设资料,有些则可以编辑它;在大多数NikonCanon,和Pentax DSLRs相机已经提供这样的功能。在后期制作时,使用后设资料关键字可更方便组织。过滤器可用于分析特定的一组照片,并根据评等或摄影时间等标准来选取。

摄影后设资料标准由制定以下标准的组织管理。它们包括但不限于:

  • IPTC Information Interchange Model IIM (International Press Telecommunications Council),
  • IPTC Core Schema for XMP
  • XMP – Extensible Metadata Platform (an ISO standard)
  • Exif – Exchangeable image file format, Maintained by CIPA (Camera & Imaging Products Association) and published by JEITA (Japan Electronics and Information Technology Industries Association)
  • Dublin Core (Dublin Core Metadata Initiative – DCMI)
  • PLUS (Picture Licensing Universal System).
  • VRA Core (Visual Resource Association)

电信[编辑]

关于电信通话,非通讯的内容如通话时间、起点和目地的资讯、电子讯息、即时讯息和其它电信模式,是另一种形式的后设资料。在Edward Snowden公布情报机构对通话细节记录后设资料的大量收集后,大众对于此举是有争议的,例如NSA保留数百万互联网使用者的在线后设资料长达一年,无论他们是否为该机构所关注的人物。

影片[编辑]

后设资料在影片中特别有用,其中关于内容资讯(例如对白字幕和场景叙述)计算机并无法理解,而是用于有效地搜寻内容。影片后设资料来源有两个来源:

  1. 操作收集的后设资料,即内容的制作资讯,如设备类型、软体日期位置
  2. 人工编辑的后设资料,以提高搜索引擎的能见度、可探索性,观众参与度,并向影片发行商提供广告机会。在当今社会专业的影片编辑软体可存取后设资料,例如Avid's MetaSync和Adobe的Bridge。

网页[编辑]

网页通常包含后设标签形式的后设资料。元标签(<meta ……>)中的叙述和关键字一般用于描述网页的内容。标记元素也指示页面描述、关键字、档案作者以及最后修改的时间。网页后设资料可帮助搜索引擎和使用者,寻找他们需求的网页类型。

参考文献[编辑]

  1. ^ Metadata Definition & Meaning - Merriam-Webster. [2016-11-14]. (原始内容存档于2015-02-27). 
  2. ^ 2.0 2.1 Understanding Metadata: What is Metadata, and What is it For?: A Primer. NISO. 2017 [2023-07-15]. (原始内容存档于2023-10-04). 
  3. ^ Preservation Events Controlled Vocabulary (PDF). Library of Congress. [2023-07-15]. (原始内容存档 (PDF)于2023-08-25). Preservation events record activities that affect the long term preservation of digital objects. 
  4. ^ 文献元数据设计指南. 元数据查询服务系统- 国家科技图书文献中心. [2023-07-14]. (原始内容存档于2023-07-15). 
    metadata 规范用词:元数据. 术语在线. [2023-07-14]. (原始内容存档于2023-07-14). 
  5. ^ 香港地圖服務– 元數據目錄. [2023-07-14]. (原始内容存档于2023-07-14). 
  6. ^ 一步一腳印:澳門公共圖書館三個「數碼化館藏資料庫」的建立. 澳门公共图书馆. 2016年接著开展第4步骤的数据建设工作,透过为海报数码档案建立元数据 (Metadata) 及检索点 
  7. ^ (学术界)
  8. ^ (政府机构)
  9. ^ 9.0 9.1 「界定 Metadata 中文名詞論壇」會議 成果報告書 (PDF). 后设资料工作组(MAAT). 2007 [2023-07-09]. (原始内容存档 (PDF)于2019-07-14). 
  10. ^ 余显强. 以資訊處理觀點論Metadata之本質與意涵. 教育资料与图书馆学. 2007, 45 (2): 249–266 [2023-07-14]. (原始内容存档于2023-07-14). 
  11. ^ A Guardian Guide to your Metadata. theguardian.com. Guardian News and Media Limited. 12 June 2013 [2016-11-14]. (原始内容存档于2014-05-22). 
  12. ^ ADEO Imaging: TIFF Metadata. [2013-05-20]. (原始内容存档于2013-05-17). 
  13. ^ 13.0 13.1 13.2 13.3 Rouse, Margaret. Metadata. WhatIs. TechTarget. July 2014 [2016-11-14]. (原始内容存档于2015-10-29). 
  14. ^ Hüner, K.; Otto, B.; Österle, H.: Collaborative management of business metadata, in: International Journal of Information Management, 2011
  15. ^ Metadata Standards And Metadata Registries: An Overview (PDF). [2011-12-23]. (原始内容存档 (PDF)于2011-06-29). 
  16. ^ Philip Bagley. Extension of programming language concepts (PDF). Philadelphia: University City Science Center. November 1968 [2016-11-14]. (原始内容存档 (PDF)于2012-11-30). 
  17. ^ "The notion of "metadata" introduced by Bagley". Solntseff, N+1; Yezerski, A. A survey of extensible programming languages. Annual Review in Automatic Programming 7. Elsevier Science Ltd: 267–307. 1974. doi:10.1016/0066-4138(74)90001-9. 
  18. ^ 18.0 18.1 NISO. Understanding Metadata (PDF). NISO Press. [5 January 2010]. ISBN 1-880124-62-9. (原始内容 (PDF)存档于2014年11月7日). 
  19. ^ Bretherton, F. P.; Singley, P.T. Metadata: A User's View, Proceedings of the International Conference on Very Large Data Bases (VLDB): 1091–1094. 1994. 
  20. ^ National Information Standards Organization; Rebecca Guenther; Jaqueline Radebaugh. Understanding Metadata (PDF). Bethesda, MD: NISO Press. 2004 [2 April 2014]. ISBN 1-880124-62-9. (原始内容 (PDF)存档于2014年11月7日). 
  21. ^ Dippo, Cathryn. The Role of Metadata in Statistics (PDF). Bureau of Labor Statistics. [2021-07-06]. (原始内容存档 (PDF)于2021-07-14). 
  22. ^ Directorate, OECD Statistics. OECD Glossary of Statistical Terms - Reference metadata Definition. stats.oecd.org. [2018-05-24]. (原始内容存档于2021-07-11). 
  23. ^ Data and Metadata Reporting and Presentation Handbook (PDF). OECD. [2023-07-15]. (原始内容存档 (PDF)于2023-07-15). Structural metadata are metadata that act as identifiers and descriptors of the data. Context: Structural metadata are needed to identify, use and process data matrixes and data cubes, e.g. names of columns or dimensions of statistical cubes. Structural metadata must be associated with the statistical data, otherwise it becomes impossible to identify, retrieve and navigate the data……Reference metadata describe the contents and the quality of the statistical data. Context: Preferably, reference metadata should include all of the following: a) conceptual metadata describing the concepts used and their practical application, allowing users to understand what the statistics are measuring and, thus, their fitness for use; b) methodological metadata describing methods used for the generation of the data (e.g. sampling, collection methods, editing processes); c) quality metadata describing the different quality dimensions of the resulting statistics (e.g. timeliness, accuracy). 
  24. ^ SDMX and reference metadata - CIRCABC (PDF). [2023-07-15]. (原始内容存档 (PDF)于2023-10-05). 

参见[编辑]

外部链接[编辑]

中文资料[编辑]

英文资料[编辑]