메타데이터, metadata, metainformation
데이터에 관한 구조화된 데이터로,다른 데이터를 설명해 주는 데이터
마인드맵을 생각하면 쉽다. 하나의 데이터에 다른 데이터가 이어지는 개념이다.
메타데이터를 다른 말로 속성정보라고도 한다.
자막 파일인 ~.smi가 가장 이해하기 쉬운 예일 것 같다.
영상 데이터 파일의 이해를 돕는 데이터가 자막
즉, 정보를 (지적으로) 통제하고 구조적으로 접근할 수 있도록 하기 위해서 정보 유형을 정리한 2차적인 정보를 메타 데이터라 한다.
메타데이터
하나의 데이터에 수많은 메타데이터가 사용된다.
메타(Meta)는 일반적으로 "~에 관한, ~에 대한"이라는 의미로 사용된다.
따라서 메타언어는 다른 데이터를 기술하기 위해 사용되는 언어이며, 메타데이터는 다른 데이터를 기술하기 위해 사용하는 데이터라고 할 수 있다.
컴퓨터에서는 보통 메타데이터를 데이터를 표현하기 위한 목적과 데이터를 빨리 찾기 위한 목적으로 사용하고 있다.
다시 말해 메타데이터란,
대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 컨텐츠에 대하여 부여되는 데이터이다.
여기에는 콘텐츠의 위치와 내용, 작성자에 관한 정보, 권리 조건, 이용 조건, 이용 내력 등이 기록되어 있다.
메타데이터의 가장 좋은 예가 HTML 태그라고 한다.
데이터에 관한 구조화라는 것은 HTML 태그 안에 head나 body가 있으며, body 안에는 table이 올 수 있고, table 안에는 tr이, tr 안에는 td가 올 수 있는 것처럼 데이터가 상위에서 하위로 나무(tree) 형태의 구조를 이루고 있다는 의미이다.
메타데이터의 또 다른 목적은 데이터를 빨리 찾기 위한 것으로, 컴퓨터에서 정보의 인덱스(Index) 구실을 한다.
우리가 많이 사용하는 데이타베이스도 이러한 메타데이터가 잘 구성되어 있기 때문에 데이터를 빨리 찾을 수 있다.
사용자는 메타데이터를 이용하여 자기가 원하는 특정 데이터(정보)를 검색 엔진 등으로 쉽게 찾아낼 수 있다.
예를 들어, 영화의 한 장면에 나오는 특정 배우의 데이터를 추출하거나 스포츠 경기의 비디오에서 득점 장면만을 뽑아낼 수 있고, 또 이 자료들을 편집할 수 있는 것도 메타데이터의 기능이다.
그러나 메타데이터는 사용하는 사람에게는 보이지 않으며, 기계(컴퓨터)가 이러한 메타데이터의 내용을 이해하고 활용한다.
곧, 웹 자료나 다른 것들에 관해 기계가 이해할 수 있는 정보가 메타데이터인 것이다.
1990년대 초반까지 이 용어는 과학 및 사회과학, 지형공간의 데이터세트에 관련하여 컴퓨터 파일이 인간에게 도움이 되도록 하기 위해 필요한 정보라는 의미로 사용되었다고 한다.
메타데이터의 종류
다시 말하자면, 사물을 표현하는 특성의 정보 유형이 메타데이터이며, 데이터의 유형을 정한 데이터라는 의미에서 ‘데이터에 대한 데이터’라고 정의하는 것이다.
예를 들면 인간이라는 입체적인 대상을 설명할 때 신장, 피부색 등의 신체적 특징을 사용할 수도 있고, 국적, 사용 언어, 직업 등 사회 · 문화적 특징을 사용할 수도있다.
혹은 어떤 사람의 건강을 유지하기 위하여 병력 등의 특징을 따로 염두에 두어야 할 경우도 있다.
이와 마찬가지로 기록을 설명, 즉 기술(description)하는 데 있어서도 검색을 염두에 두고 데이터 요소를 정할 수도 있고, 기록 관리나 보존을 지원하는 데 필요한 대표적인 특징을 메타데이터 요소 세트로 정할 수도 있다.
즉, 메타데이터는 기술용, 구조용, 관리용, 통계용, 참고용, 보존용 등으로 나뉜다.
기술 메타데이터
Decriptive Metadata
기술 메타데이터는 기록의 지적 내용에 관한 특징을 포함함으로써 기술 대상 기록을 검색할 수 있도록 해준다.
즉, 정보자원의 검색을 목적으로 한 메타데이터이다.
기술용 메타데이터의 목적은
어떤 자원을 어떻게 찾아내는지의 발견,
어떤 자원을 다른 유사한 자원과 어떻게 구분하는지에 대한 식별,
어떤 자원이 특정 자원을 만족시킨다는 사실을 어떻게 결정하는 지의 목적을 충족시키는 선정 등이 있다.
전통적인 도서관 편목에서의 메타데이터는 기본적으로 기술적인 것들이다.
구조 메타데이터
Structural Metadata
한편, 구조 메타데이터는 개별 기록 단위에서 전체를 구성하는 각각의 부분 간의 관계를 보여준다.
복합적인 디지털 객체들을 함께 묶어주기 위한 메타데이터이다.
물리적인 파일과 페이지, 페이지의 장, 장과 전체로서의 책 사이의 관계를 기록하기 위해 필요하다.
구조용 메타데이터는 수치 데이터세트와 통계 데이터세트의 데이터 요소의 순서와 포맷을 문서화하며,
그 목적이 어떤 엔티티의 이용이 가능하도록 하는 것이라고 한다.
관리 메타데이터
Administrative Metadata
관리 메타데이터는 자원의 관리를 어떻게든 용이하게 하기 위한 메타데이터이다.
관리용 메타데이터는
어떤 객체가 언제 어떻게 작성되었나,
주 내용에 대한 접근을 관리하는 등의 책임은 누가 가지며,
접근이나 이용에 대한 어떤 제약이 적용될 수 있는지를 포함한다.
그러나 일반적으로 기술용과 관리용 사이의 경계는 애매모호하며 그 기준은 메타데이터 이용자의 시각에 따라 결정되는 경우가 많다.
참고용(Reference), 통계용(Statistical) 등의 메타데이터가 있다.
메타데이터, metadata
데이터(data)에 대한 데이터이다. 이렇게 흔히들 간단히 정의하지만, 캐런 코일(Karen Coyle)에 의하면 '어떤 목적을 가지고 만들어진 데이터(constructed data with a purpose)'라고도 정의한다. 즉, 다른 데이터를 정의하고 기술하는 데이터(data that defines and describes other data)이다. 가령 도서관에서 사용하는 서지기술용으로 만든 것이 그 대표적인 예이다. 지금은 온톨로지의 등장과 함께 기계가 읽고 이해할 수 있는(Machine Actionable) 형태의 메타데이터가 많이 사용되고 있다. 설명 메타데이터, 구조화 메타 데이터로 구분된다.
역사
인류사에서 여러 가지 메타데이터가 등장한다. 그 첫째는 카드목록이다. 전혀 목록이 필요없다가 가나다순, 서명순, 저자명 순 등의 메타데이터가 필요했던 것이다. 그 다음은 데이비드 휠러(David Wheeler)가 말하는 간접수준(Level of Indirection)을 올리는 일이었다. 그는 컴퓨터 과학이 지금까지 한 공헌 중에서 가장 위대한 것이 있다면 바로 이 간접수준을 올렸다는 것이다. 바로 MARC와 같은 메타데이터이다. 그 다음이 팀 버너스리가 말하는 Machine Actionable Metadata이다. 기계는 전혀 모르는 flat한 메타데이터가 아니라, 기계가 스마트하게 알고 반응하는 메타데이터를 말한다. 텍스트의 바다요 아름다운 정원에 갇혀있는 엄청난 크기의 카탈로그의 문제를 Linked Data가 해결할 수 있는 모습을 보여주었고 이제는 웹 그 자체가 고질적으로 안고 있는 문제이다. 어쩌면 웹과 도서관이 서로 도와야 하는 부분이 이런 부분일 것이다.
데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터이다. 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 콘텐츠에 대하여 부여되는 데이터이다. 어떤 데이터 즉 구조화된 정보를 분석, 분류하고 부가적 정보를 추가하기 위해 그 데이터 뒤에 함께 따라가는 정보를 말한다.
이를테면, 디지털 카메라에서는 사진을 찍어 기록할 때마다 카메라 자체의 정보와 촬영 당시의 시간, 노출, 플래시 사용 여부, 해상도, 사진 크기 등의 사진 정보를 화상 데이터와 같이 저장하게 되어 있다. 이러한 데이터를 분석하여 이용하면 그 뒤에 사진을 적절하게 정리하거나 다시 가공할 때에 아주 유용하게 쓸 수 있는 정보가 된다. GPS 기능을 사용하여 위치 정보까지 사진의 메타데이터에 입력할 수도 있는데, 이를 이용하면 사진이 어디에서 촬영되었는지를 쉽게 알 수 있고, 이로써 다시 다른 지역 정보를 검색하거나 같은 지역에서 찍은 다른 사진을 검색하게 하는 검색성을 향상시킬 수 있다.
메타데이터는 메타데이터가 부여될 때와 쓰일 때의 문맥 정보를 구조화시켜 그 활용도를 확대시키는 역할을 한다. 웹 2.0이나 온톨로지(Ontology)의 분야에서 구조화된 메타데이터는 매우 유용하다.
표준화
MARC(Machine Readable Cataloging, 기계가독목록) 메타데이터 형식을 대체하기 위해 1995년 3월 OCLC와 NCSA는 미국 오하이오 주의 더블린에서 첫 워크숍이 개최되었고, 더블린 코어라고 하는 메타데이터 형식을 만들었다. 이 형식은 단순화되었기 때문에 생성과 유지가 쉽고, 이해가 쉬우며, 국제적으로 인정되는 형식을 갖추도록 하였고, 확장성을 가질 수 있는 구조로 만들었다.
더블린 코어의 요소로는 제목, 만든이, 주제, 요약 정보 등 15가지 요소로 이루어진다. 덤다운(Dumb down) 원칙에 따라 상세화를 위해 쓰여진 한정어 때문에 오히려 그 뜻이 모호해지는 것을 막도록 한정 요소를 바꾸거나 빼고 상위 개념을 남겨두어 하위 개념을 같이 포함하도록 하는 단순화를 통해 안정적인 의미 전달을 하고자 한다.
metadata, metainformation
Often referred to as data that describes other data, metadata is structured reference data that helps to sort and identify attributes of the information it describes. In Zen and the Art of Metadata Maintenance, John W. Warren describes metadata as "both a universe and DNA."
Meta is a prefix that -- in most information technology usages -- means "an underlying definition or description." Metadata summarizes basic information about data, which can make it easier to find, use and reuse particular instances of data.
For example, author, date created, date modified and file size are examples of very basic document file metadata. Having the ability to search for a particular element (or elements) of that metadata makes it much easier for someone to locate a specific document.
In addition to document files, metadata is used for:
computer files
images
relational databases
spreadsheets
videos
audio files
web pages
The use of metadata on web pages can be very important. The metadata contains descriptions of the page's contents, as well as keywords linked to the content. This metadata is often displayed in search results by search engines, meaning its accuracy and details could influence whether or not a user decides to visit a site. This information is usually expressed in the form of meta tags.
Search engines evaluate meta tags to help decide a web page's relevance. Meta tags were used as the key factor in determining position in a search until the late 1990s. The increase in search engine optimization (SEO) towards the end of the 1990s led to many websites to keyword stuffing their metadata to trick search engines, making their websites seem more relevant than others.
Since then, search engines have reduced their reliance on meta tags, although they are still factored in when indexing pages. Many search engines also try to thwart web pages' ability to deceive their system by regularly changing their criteria for rankings, with Google being notorious for frequently changing its ranking algorithms.
Metadata can be created manually or by automated information processing. Manual creation tends to be more accurate, allowing the user to input any information they feel is relevant or that would help describe the file. Automated metadata creation can be much more elementary, usually only displaying information such as file size, file extension, when the file was created and who created the file.
Metadata use cases
Metadata is created anytime a document, a file or other information asset is modified, including its deletion. Accurate metadata can be helpful in prolonging the lifespan of existing data by helping users find new ways to apply it.
Metadata organizes a data object by using terms associated with that particular object. It also enables objects that are dissimilar to be identified and paired with like objects to help optimize the use of data assets. As noted, search engines and browsers determine which web content to display by interpreting the metadata tags associated with an HTML document.
The language of metadata is written to be understandable to both computer systems and humans, a level of standardization that contributes to better interoperability and integration between disparate applications and information systems.
Companies in digital publishing, engineering, financial services, healthcare and manufacturing use metadata to gather insights on ways to improve products or upgrade processes. For example, streaming content providers automate the management of intellectual property metadata so it can be stored across an array of applications, thus protecting copyright holders while at the same time making music and videos accessible to authenticated users.
The maturity of AI technologies is somewhat easing the traditional burden of managing metadata by automating previously manual processes to catalog and tag information assets.
History and origins of metadata
Jack E. Myers, founder of Metadata Information Partners (now The Metadata Co.), claims to have coined the term in 1969. Myers filed a trademark for the unhyphenated word "metadata" in 1986. Despite this, references to the term appear in academic papers that predate Myers' claim.
In an academic paper published in 1967, Massachusetts Institute of Technology professors David Griffel and Stuart McIntosh described metadata as "a record … of the data records" that result when bibliographic data about a topic is gathered from discrete sources. The researchers concluded that a "meta-linguistic approach," or "meta language," is needed to enable a computer system to properly interpret this data and its context to other relevant pieces of data. Unlike Myers, Griffel and McIntosh treated "meta" as a prefix to "data."
In 1964, an undergraduate computer science major named Philip R. Bagley started work on his dissertation, in which he argued that efforts to "make composite data elements" ultimately rests on the ability to "associate explicitly" to a second and related data element, which "we might term a 'metadata element.'" Although his thesis was rejected, Bagley's work, including his reference to metadata, subsequently was published as a report under a contract with the U.S. Air Force Office of Scientific Research in January 1969.
Types of metadata and examples
Metadata is variously categorized based on the function it serves in information management.
Administrative metadata allows administrators to impose rules and restrictions governing data access and user permissions. It also furnishes information on required maintenance and management of data resources. Often used in the context of ongoing research, administrative metadata includes such details as date created, file size and type, and archiving requirements.
Descriptive metadata identifies specific characteristics of a piece of data, such as bibliographic data, keywords, song titles, volume numbers, etc.
Legal metadata provides information on creative licensing, such as copyrights, licensing and royalties.
Preservation metadata guides the placement of a data item within a hierarchical framework or sequence.
Process metadata outlines procedures used to collect and treat statistical data. Statistical metadata is another term for process metadata.
Provenance metadata, also known as data lineage, tracks the history of a piece of data as it moves throughout an organization. Original documents are paired with metadata to ensure that data is valid or to correct errors in data quality. Checking the provenance is a customary practice in data governance.
Reference metadata relates to information that describes the quality of statistical content.
Statistical metadata describes data that enables users to properly interpret and use statistics found in reports, surveys and compendium.
Structural metadata reveals how different elements of a compound data object are assembled. Structural metadata is often used in digital media content, such as describing how pages in an audiobook should be organized to form a chapter, and how chapters should be organized to form volumes, and so on. The term "technical metadata" is a synonym most closely associated with items in digital libraries.
Use metadata is data that is sorted and analyzed each time a user accesses it. Based on analysis of use metadata, business can pick out trends in customer behavior and more readily adapt their products and services to meet their needs.
some use cases for metadata
How to use metadata effectively
The accelerated rate of data growth has fueled new interest in the potential business value that can be derived from metadata. A variety of data structures exist that present both opportunities as well as challenges.
Metadata management provides an organizational framework to harmonize discrete data sets stored across various system. It also provides an organizational consensus to describe information, often broken into business, operational and technical data.
Companies implement metadata management to winnow out older data and develop a taxonomy to classify data according to its business value. A component of this is a catalog or central database that serves as a metadata repository, also known as a data dictionary.
In addition to classifying data, metadata management strategies are used to improve data analytics, develop a data governance policy and establish an audit trail for regulatory compliance.
At its core, metadata management is about enabling people to identify the attributes of a particular piece of data using a web-based user interface. The attribute might be the file's name, its author, a customer ID number, and so on. The person requesting the document is thus able to see and understand the different attributes of the data, the enterprise system it resides in and the reasons those attributes were created.
As of November 2020, Alation, ASG, Alex Solutions, Collibra, Erwin, IBM, Informatica, Oracle, SAP and SmartLogic are ranked among leading metadata management platform vendors by IT analyst firm Gartner in its Magic Quadrant for Metadata Management Solutions.
Standardization of metadata
A number of industry standards have been developed to make metadata more useful. These standards ensure consistency on the common language, format, spelling and other attributes to be used to describe data. Each standard is based on a specific schema that provides an overarching structure for all its metadata.
common metadata standards
Metadata standards guarantee uniformity on the shared language, format, spelling and other aspects used to describe data. Each standard is based on specific schema providing an overarching structure for all its metadata.
Dublin Core is a widely used general standard originally developed to aid in the indexing of physical library card catalogs. The standard has since been adapted for web-based digital metadata. Dublin Core describes the attributes of 15 core data elements: title, creator, subject, description, publisher, contributors, date, type, format, identifier, source, language, relation, coverage and rights management.
A similar bibliographic metadata standard is Metadata Objects Description Schema, an XML-based schema for libraries, spawned by the Network and Standards Development Office of the U.S. Library of Congress as a successor to Machine-Readable Catalog standards developed in the 1960s.
A newer standard, schema.org, is based on open source software collaboration that provides a collection of metadata schema geared to structured internet data, email and other forms of digital data.
Industry-specific metadata schema
A number of standard metadata schema have been developed to meet the unique requirements of certain disciplines and industry verticals.
Arts and humanities:
Text Encoding Initiative is a consortium of institutions developing standards that specify encoding methods for representing machine-readable text in digital form.
VRA Core, jointly developed by the Library of Congress and the Visual Resources Association, is described as "a data standard for the description of works of visual culture as well as the images that document them."
Culture and society:
Data Documentation Initiative standardizes descriptions of data used in behavioral science and related disciplines.
Open Archives Language Community, based on Dublin Core, attempts to develop a worldwide virtual repository of language resources.
Sciences:
Darwin Core is used for sharing information on biological specimens.
Ecological Metadata Language is a readable XML markup format for sharing data on earth sciences.
Federal Geospatial Data Committee develops metadata formats for documenting geospatial research data.