메타데이터 기초 (Metadata Basics)

메타데이터 기초 (Metadata Basics)

용어 "메타데이터 (metadata)"는 "데이터에 관한 데이터"를 의미한다. 메타데이터는 MP3 파일, 도서관 장서 또는 위성 사진과 같은 이해관계의 객체들을 위한 문맥을 "자원 기술 (resource descriptions)"의 형태에서 분명하게 표현한다. 전통적으로, 자원 기술의 시초는 초기의 기록 관리와 도서관 목록에서 시작되었다. 더블린 코어와 최근의 다른 표준들의 근원이 되는 현대의 "메타데이터" 필드는 1990년대 중반의 웹 혁명과 함께 나타났다.

메타데이터와 DCMI에 관해 더 알고 싶다면, 본 페이지 상단의 메뉴 바에 정렬되어있는 메뉴들인 홈페이지 (the Home page), 메타데이터 기초 (Metadata Basics, 본 페이지), 규격 (Specifications), 커뮤니티와 행사 (Community and Events) 및 더블린 코어에 관하여 (About Us)를 탐색해보면 된다.

초기 더블린코어 워크숍들은 간단하고 포괄적인 자원기술들을 위한 "핵심 메타데이터 (core metadata)"의 아이디어를 보급시켰다. 15개의 "더블린 코어" 요소들은 메타데이터 수집을 위한 오픈 아카이브 이니셔티브 프로토콜(Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH)의 일부로서 널리 배포되었고, IETF RFC 5013, ANSI/NISO Standard Z39.85-2007ISO Standard 15836:2009로서 승인되었다.

배경

2000년이 시작하면서, 더블린코어 커뮤니티는 "어플리케이션 프로파일 (application profiles)"에 초점을 맞추었다. 이는 메타데이터 레코드들이 구현을 위한 특정 필수 조건을 충족시키기 위해서 전문화된 다른 어휘들과 더블린코어를 함께 사용하는 아이디어를 말한다. 이 기간 동안,월드와이드 웹 콘소시엄 (World Wide Web Consortitum) 이 연구 중이었던 메타데이타를 위한 일반 데이타 모델, 즉 자원기술프레임워크 (RDF) 는 완성단계에 이르고 있었다. DCMI 메타데이터 용어들 (DCMI Metadata Terms)의 확장된 집합의 일부로서, 더블린 코어는, RDF 를 사용하는 가장 많이 쓰이는 언어들 중의 하나가 되었으며, 보다 최근에는 링크 데이터 (Linked Data) 의 맥락에서 많이 사용되고 있다.

RDF의 통합은 더블린코어 커뮤니티의 복합적 어휘 메타데이터 스타일을 RDF와 호환이 가능한 DCMI 추상 모델 (DCMI Abstract Model) (2005)로 번역될 수 있도록 노력하는 데에 동기 부여를 했다. DCMI 추상 모델은 한정되지 않은 링크된 데이터 그래프들의 현대식 패러다임을 OAI-PMH 내에서 사용되는 것들과 같은 유효한 메타데이터 레코드의 보다 친숙한 패러다임과 이어지도록 설계되었다. 기술집합프로파일 규격 (Description Set Profile specification) 초안은 일반적이면서도 어플리케이션 독립적인 방법 내에서 제약을 표현하기 위한 언어를 정의한다. 더블린코어 어플리케이션 프로파일을 위한 싱가포르 프레임워크(The Singapore Framework for Dublin Core Application Profiles)는 최대한의 재사용을 위한 어플리케이션 프로파일을 문서화하는데 유용한 기술적인 요소들의 집합을 정의한다.

메타데이터 연수 자원들 (Metadata Training Resources)

더블린코어 컨퍼런스와 다른 행사들에서 발표된 DCMI 튜토리얼 ( DCMI Tutorials)의 개요는 메타데이터 연수 자원들(Metadate Training Resources) 페이지를 보기 바란다.

"상호 호환성의 단계 (Levels of interoperability)"

더블린코어 커뮤니티의 관점에서, 현재 메타데이터 상황은 상호 호환성의 4 "단계"로 특징지워질 수 있다.

제 1 수준 (공유된 용어 정의) 제 1 수준에서, 메타데이터를 사용한 어플리케이션들 사이의 상호 호환성은 공유된 자연 언어 정의에 기반한다. 인트라넷, 도서관 시스템 또는 레퍼지토리 통합과 같은 어플리케이션 환경 내에서, 참여자들은 그들의 메타데이터에서 어떤 용어를 사용해야하는지 그리고 그 용어들은 어떻게 정의되어야 하는지에 관해 동의한다. 용어들은 구체적인 구현 기술을 사용한 어플리케이션 속에 고정되어 있고, 구현 환경 이외의 "나머지 세상 (the rest of the world)"과의 상호 호환성은 일반적으로 우선 순위가 아니다. 대부분의 존재하는 메타데이터 어플리케이션은 이 호환성 수준에서 작동한다.

제 2 수준 (공식 시맨틱 상호호환성) 제 2 수준에서, 메타데이터를 사용한 어플리케이션들 사이의 상호 호환성은 RDF에 의해 제공되는 공유된 공식 모델에 기초한다. 여기서 RDF는 링크 데이터 (Lined Data)를 지원하기 위해 사용된다. 위키피디아에서 정의된 것처럼, 용어 "링크 데이터 (Linked Data)"는 "URIs [웹 주소]와 RDF를 사용하는 시맨틱 웹 (Semantic Web)과 관련된 데이터, 정보, 지식의 조각들을 표현·공유·연결하기 위해 제안된 최고의 실현"이다. DCMI 메타데이터 용어 (DCMI Metadata Terms)의 속성 (properties)과 클래스 (classes)는 링크 데이터 원리와의 호환성을 위해 정의되었다. 지난 2년에 걸쳐, 방대한 양의 상업적· 공공 부문적 데이터가 추가되어, 링크 데이터 클라우드가 성장하였다. Yahoo와 같은 검색엔진들과 Drupal과 같은 콘텐츠 관리 플랫폼들은 웹 페이지에서 삽입된 링크 데이터를 표현하는 방법인 RDFa를 위한 지원을 실현해왔다. 사실상, 더블린코어의 기초 아이디어인 "자원 발견을 위한 간단한 메타데이터"는 "검색엔진 최적화를 위한 구조화된 데이터"의 배너 하에 다른 모습을 보여주고 있다. 네 가지 수준의 상호호환성 가운데, 이것이 가장 빠르게 발전하는 것으로 나타난다.

제 3 수준 (기술 집합 구문론적 상호 호환성)과 제 4 수준 (기술 집합 프로파일 상호 호환성) 제 3 수준에서, 어플리케이션은 링크 데이터 모델 (Linked Data Model)과 호환이 가능하며, 유효한 메타데이터 레코드를 위한 추상 구문인 "기술집합 (description set)"을 공유한다. 제 4 수준에서, 메타데이터를 사용한 어플리케이션들 사이에서 교환된 레코드들은 일반적인 제약집합을 따르고, 같은 용어를 사용하며, 세상에 있는 공유된 모델을 반영한다. 메타데이터 레코드의 생산자들이 그들의 정보를 링크 데이터 환경으로 이동시킴에 따라 이 문서에서 다루고 있는 문제들의 중요성이 커질 것으로 기대된다 할지라도, 제 3,4 수준이 소프트웨어 도구에 의해 잘 지원받지 못하는 점을 고려하면 제 3, 4 수준은 제 1, 2수준보다 더욱 실험적이다.

독자에게: 만약 당신이 실행 옵션들을 평가하고 있다면, 당신의 요구사항을 정의하는 것으로 시작하면 좋을 것이다.

  • 만약 필요한 기능이 폐쇄 시스템으로 충족 될 수 있다면, 제 1 수준을 해결책으로 고려해보기 바란다; DCMI 메타데이터 용어 (DCMI Metadata Terms)는 초보자에게 유용한 요소 집합을 제공하며, 많은 좋은 도구들이 이용가능하다. 또한 실행은 종종 간단하다.
  • 만약 당신의 메타데이터가 제 2 수준과 유효한 레코드들에 모두 부합되도록 디자인되어야 한다면, 제 3 수준과 제 4 수준을 고려하고, DCMI 아키텍처 포럼 (DCMI Architecture Forum) 메일링 리스트의 선두 개발자 커뮤니티에 가입하기를 바란다.

다음단계:

Levels