더블린코어의 활용

생성자 :
Diane Hillmann
공개일 :
2005-11-07
식별자 :
http://dublincore.org/documents/2005/11/07/usageguide/
대체함 :
http://dublincore.org/documents/2005/08/15/usageguide/
대체됨 :
해당사항 없음
최신문서 :
http://dublincore.org/documents/usageguide/
번역문서 :
http://dublincore.org/resources/translations/
문서의 지위 :
DCMI 권고안
해설 :
본 문서는 더블린코어의 사용자를 위한 하나의 진입점으로 봉사한다. 비전문가에게는 정보 자원 (예컨대 전자문서)의 간이한 설명 문헌을 만들도록 돕는다. 전문가에게는 변화와 성장을 거듭하는 더블린코어의 문서작성에 관한 유용한 참조점을 제공한다.

차례

  1. 1. 서문
    1. 1.1. 메타데이터는 무엇인가?
    2. 1.2. 1.2. 더블린코어는 무엇인가?
    3. 1.3. 1.3. 본 가이드의 목적과 범위
  2. 2. 구문 규격, 저장과 유지관리 문제
    1. 2.1. HTML
    2. 2.2. RDF/XML
    3. 2.3. 메타데이터 저장과 유지관리
  3. 3. 요소 내용과 통제된 어휘
  4. 4. 요소
  5. 5. 더블린코어 한정어
  6. 6. 부록, 역할
  7. 7. 용어집
  8. 8. 참고문헌

1. 서문

1.1. 메타데이타는 무엇인가?

메타데이터는 최초의 사서가 손으로 쓴 두루마리 선반에 품목의 목록을 만든 때부터 존재해 왔다. “메타”라는 용어는 “함께, 더불어, 후에, 다음에”라는 뜻을 표시하는 그리스어에서 온 것이다. 보다 최근의 라틴어와 영어 용법에서는 초월적이거나, 자연을 뛰어넘는 그 무엇을 표시하는 데 “메타”라는 말을 사용한다. 다시 말하면, 메타는 다른 데이터에 관한 데이터라고 볼 수 있다. 사서가 전통적으로 카탈로그에 기입하던 정보를 가리키는 인터넷 시대의 용어라고 할 수 있으며, 가장 일반적으로는 웹 자원에 관한 설명 정보를 가리키는 것이다.

메타데이터 레코드는 문제 자원의 설명에 필요한 애트리뷰트 또는 요소의 집합으로 구성된다. 예를 들어, 도서관에 공통되는 하나의 메타데이터 시스템인 도서관 카탈로그는 서적이나 타 도서관 항목 (: 저자, 제목, 작성일이나 발행일, 주제범위, 및 서가 상의 품목 번호를 지정하는 호출번호)을 기술하는 요소를 갖는 메타데이터 레코드의 집합을 포함한다.

메타데이터 레코드와 그것이 기술하는 자원 간의 연계는 다음 두 가지 형태 중 하나를 취할 수 있다:

  1. 도서관 카탈로그의 경우와 같이, 요소가 품목과는 분리된 레코드에 포함될 수 있다.
  2. 또는, 메타데이터가 자원 자체에 내장될 수 있다.

자원 자체와 더불어 운반되는 내장된 메타데이터의 예는 책 제목 페이지 뒷면에 인쇄된 CIP (Cataloguing In Publication); 또는 전자 텍스트의 TEI 헤더를 포함한다. 더블린코어 표준 등 현재 사용 중인 많은 메타데이터 표준은 두 가지 유형의 연계 중 어느 하나를 처방하지 않으므로 특정한 구현에 그 결정을 맡기는 셈이다.

메타데이터의 개념은 인터넷과 웹 이전에도 있었지만, 메타데이터 표준과 구현에 관한 세계적 관심은 전자출판과 디지털 도서관의 증가, 및 이와 동시에 온라인으로 이용 가능한 미분화 상태의 방대한 디지털 데이터 분량으로 야기된 “정보 과부하”로 인해 폭발상태에 이르렀다. 오늘날의 인기 웹 검색 서비스를 사용하여 온라인 정보를 찾으려고 시도해본 모든 사람은 보다 정확한 검색을 가다듬거나 실행하는 능력의 제약에 따라 수 백, 때로는 수 천 개의 “히트’를 검색해야 하는 좌절감을 느꼈을 공산이 크다. 전자자원의 설명 표준과 구현의 대대적인 채택은 정보 검색이 긴요한 모든 환경에서 절실한 자원의 검색 기능을 제고할 것이다. 이 점에 관해서 메타데이터 개발과 디지털 도서관 분야의 권위자들인 와이벨과 라고즈의 견해에 주목할 필요가 있다:

  • "표준화된 설명 메타데이터를 네트워크로 연결된 개체와 연관시키는 작업은 필드 기반 (예, 저자, 제목)의 검색을 실현하고, 비텍스트 개체의 색인화를 허용하며, 자원 자체의 내용에 대한 접근과는 구분되는 대리 내용으로 접근을 허용함으로써 자원 발견 능력을 현저히 개선시키는 잠재력을 갖는다.” (Weibel and Lagoze, 1997)

“표준화된 설명 메타데이터를 네트워크로 연결된 개체와 연관시키는 작업은 필드 기반 (예, 저자, 제목)의 검색을 실현하고, 비텍스트 개체의 색인화를 허용하며, 자원 자체의 내용에 대한 접근과는 구분되는 대리 내용으로 접근을 허용함으로써 자원 발견 능력을 현저히 개선시키는 잠재력을 갖는다.” (Weibel and Lagoze, 1997) 최근에는 보다 폐쇄적인 환경에서 더블린코어 메타데이터 응용업무의 증가세가 두드러지고 있다. 기업, 정부와 국제조직이 보유, 소유하거나 생산한 자원을 포털 서비스 또는 내부 지식경영을 지원하기 위해서 더블린코어 메타데이터로 설명하는 구 현활동이 늘고 있다. 또한, 개방형 문서보관 구상 (the Open Archive Initiative)의 예처럼 메타데이터 누적 자료를 지원할 목적으로 더블린코어 메타데이터를 공통 교환 양식으로 사용하는 추세가 두드러진다. 이들 경우에는, 웹의 개방 환경과 비슷하게, 표준화된 설명 메타데이터의 개념이 구체적 응용업무와 구체적 사용자 공동체의 검색을 개선하는 강력한 장치를 제공한다. 더블린코어는 바로 이와 같은 “표준화된 설명 메타데이터”의 수요에 대한 응답이다.

1.2. 더블린코어는 무엇인가?

더블린코어 메타데이터 표준은 광범위하게 네트워크로 연결된 자원을 기술하는 단순하면서 효과적인 요소 집합이다. 더블린코어 표준은 두 가지 수준을 포함한다: 단순형과 한정형. 단순형 더블린코어는 15가지 요소를 포괄한다; 한정형 더블린코어는 세 가지 추가 요소 (청중, 출처와 권리보유자)를 포함하는 한편, 자원 발견에 유용한 방식으로 요소의 의미체계를 정련하는 세련화 요소 (한정어라고도 한다)의 그룹을 또한 포함한다. 더블린코어의 의미체계는 도서관, 컴퓨터 과학, 텍스트 인코딩, 박물관, 및 기타 관련 학계와 분야 전문가들의 국제적, 학제적 집단에 의해서 확립되고 있다.

더블린코어를 바라보는 또 다른 관점은 “자원에 관한 특정한 진술 클래스를 창출하는 소형 언어”로 보는 것이다. 이 언어에는, 두 가지 용어의 클래스 - 요소 (명사)와 한정어 (형용사)가 있어서 단순한 설명 패턴으로 배열될 수 있다. 자원 자체는 이 언어에 함축된 주제이다. (더블린코어 문법의 추가 논의는 "더블린코어 문법원리( DCMI Grammatical Principles)"를 볼 것이다) 인터넷이라는 다채로운 세계에서는, 더블린코어가 “디지털 여행객을 위한 메타데이터 혼성어”로 여겨질 수 있다: 즉, 쉽게 포착되지만, 반드시 복잡한 관계나 개념을 표현하는 과제를 감당할 수 있는 것은 아니다.

더블린코어 기본 요소 집합은 Section 4. 4 항에 그 개요를 소개한다. 각 요소는 선택사항이며 반복해도 된다. 요소 대부분은 또한 요소의 의미를 더욱 정련화하는 (확장은 아니다) 데 사용할 수 있는 속성인 제한된 집합의 한정어 또는 세련화 요소를 보유한다. 더블린코어 메타데이터 구상 (DCMI)은 요소를 정련하고 인코딩과 어휘 스키마를 장려하는 표준 방법을 확립했다. 더블린코어 “최선의 관행”에 적합한 요소와 세분화 요소(elements and element refinements)요소와 세련화 요소의 전체 집합은 또한 공식 등록부(formal registry)와 마찬가지로 이용 가능하다.

세 가지 서로 다른 더블린코어 원칙을 아래에서 언급하는 것은, 이들 원칙이 기술하는 근간 자원과 메타데이터와의 관계를 생각하는 방법을 이해하는 데 긴요하기 때문이다.

  1. 1. 일대일 원칙. 일반적으로 더블린코어 메타데이터는 하나의 명시가 다른 것을 대신한다고 상정하기 보다는 자원에 대한 명시 또는 버전을 기술하는 것이다. 예를 들면, 모나리자의 jpeg 이미지는 원본 그림과 공통점이 많지만, 원본과 동일한 것은 아니다. 마찬가지로 단순히 원래 모나리자를 그린 화가보다는 대부분의 경우 작성자 또는 기고자로 포함되는 디지털 이미지의 작성자와 더불어 디지털 이미지 또한 그 자체로 기술되어야 한다. 원본의 메타데이터와 복제본과의 관계는 메타데이터 설명의 일부이며, 사용자가 원본을 찾아 루브르 박물관으로 갈 지 자신의 필요를 복제본으로 만족할지 결정하도록 돕는 것이다.
  2. 2. 덤다운 (dumb-down) 원칙. 더블린코어 속성의 조건은 일상적으로 덤다운 원칙으로 알려진 규칙에 의해 지도된다. 이 규칙에 따르면, 고객은 모든 한정어를 무시하고 마치 무조건인 듯이 그 값을 사용할 수 있어야 한다. 이렇게 하면 구체성을 다소 잃을 수 있지만, 잔여 요소 값 (빼기 한정어)은 계속해서 발견에 일반적으로 정확하고 유용해야 한다. 그러므로 한정 조건은 다만 세련화를 위한 것이며, 속성의 의미 범위를 확장하지 않는다.
  3. 3. 적정 값. 특정 요소나 한정어의 최선의 관행은 맥락에 따라 다를 수 있지만, 일반적으로 구현자는 메타데이터의 해석자가 언제나 기계라고 예측할 수는 없다. 이로 인해 메타데이터의 구축 방법에 일정한 제약이 가해질 수 있지만, 발견 유용성의 요구는 항상 명심해야 한다.

당초에 더블린코어는 문서 유사의 개체를 설명한다는 목표로 출발했지만 (전통적 텍스트 자원에 대한 이해가 강한 것이 하나의 이유이다), DC 메타데이터는 타 자원에 또한 적용될 수 있다. 특정한 비문서 자원과 함께 사용될 때의 적합성은 그 메타데이터가 전형적 문서 메타데이터와 얼마나 유사한지 및 메타데이터가 봉사하려는 목적이 무엇인지에 어느 정도 의존하는 것이다. (다양한 자원에 더블린코어를 사용하고자 하는 구현자는더블린코어 프로젝트 페이지(Dublin Core Projects pages) 를 참조하여 그런 자원에 더블린코어 메타데이터를 적용하는 방법에 관한 착상을 얻기 바란다.)

더블린코어의 목적은 다음과 같다:

작성과 유지관리의 단순성

  • 더블린코어 요소는 전문가가 아니라도 정보 자원에 대한 단순한 설명 레코드를 쉽고 저렴하게 만들 수 있도록 되도록 소규모로 단순하게 유지되어 온 한편, 네트워크로 연결된 환경에서 이들 자원을 효과적으로 검색한다.

공통적으로 이해되는 의미체계

  • 인터넷이라는 무한영역에서 정보를 발견하는 일은 서로 다른 지식 분야에 따라 용어와 설명 관행이 상이한 관계로 곤란을 겪는다. 더블린코어는 보편적으로 이해되고 지원되는 요소의 의미체계를 바탕으로 요소의 공통 집합을 지원함으로써 비전문가 검색자인 “디지털 여행객”이 쉽게 길을 찾도록 안내한다. 예컨대, 일정한 저자의 논문을 찾으려는 과학자와 일정한 예술가의 작품에 관심을 갖는 학자는 “작성자” 요소의 중요성에 합의할 수 있다. 보다 일반적인 이런 공통의 요소 집합에 대한 의견 수렴은 주어진 분과 내부 및 해당 분과를 넘어선 모든 자원의 가시성 및 접근성을 증가시킨다.

국제적 범위

더블린코어 요소 집합은 원래 영국에서 개발되었지만, 핀란드, 노르웨이, 타이, 일본, 프랑스, 포르투갈, 독일, 그리스, 인도네시아와 스페인을 포함한많은 다른 언어의 버전으로 만들어지고 있다. 더블린코어 현지화와 국제화 특별 이해그룹(The DCMI Localization and Internationalization Special Interest Group)은 이들 버전을 분산 등록부에 링크시키는 노력을 조정한다.

월드 와이드 웹 상에 국제화를 실현하는 기술 과제가 더블린코어 개발 공동체에 의해서 직접 해답이 주어지는 것은 아니지만, 거의 모든 대륙의 대표자가 관여하므로 표준 개발이 전자정보 세계의 다국어 및 다문화 특성을 고려하도록 담보한다.

확장성

더블린코어 개발자들은 디지털 자원의 설명에 있어서 단순성과 정확한 검색 간의 균형을 일차적으로 강조하는 동시에, 추가 자원 발견 필요를 위한 DC 요소 집합의 확장 메커니즘의 제공이 중요하다는 인식에 도달했다. 메타데이터에 관한 타 전문가 공동체 또한 자신들의 필요에 알맞게 전문적인 추가 메타데이터 집합을 창출하고 관리할 것이 기대된다. 이들 집합의 메타데이터 요소는 더블린코어 메타데이터와 함께 사용되어 상호 운영성 필요를 충족시킬 수 있을 것이다. 더블린코어 운용이사회는 현재 “응용 프로파일”이라는 맥락에서 이를 달성하는 모형을 작업 중에 있다.

라첼 히어리(Rachel Heery)와 만줄라 파텔(Manjula Patel)은 논문"응용 프로파일: 메타데이터 스키마의 혼용 (Application profiles: mixing and matching metadata schemas)"에서 다음과 같이 응용 프로파일을 정의한다:

“하나 또는 그 이상의 명칭공간으로부터 도출되고, 구현자에 의해서 한데 결합되어, 특정한국소 응용업무에 최적화된 데이터 요소로 구성되는 스키마 …”

이 모형은 서로 다른 공동체가 핵심 설명 정보에 DC 요소를 사용하도록 허용하며, 보다 한정된 분야에도 타당성이 있는 영역 특유의 확장을 개척하도록 돕는다.

1.3. 본 가이드의 목적과 범위

본 문서는 더블린코어 사용자에게 기본적인 안내를 제공한다. 비전문가에게는 정보 자원 (예컨대, 전자문서, JPEG 이미지, 비디오 클립)의 간이한 설명 레코드를 만들게 돕는다. 전문가에게는 변화와 성장을 거듭하는 더블린코어의 문서작성에 관한 유용한 참조점을 제공한다.

“더블린코어의 활용”은 누구나 자산의 자료를 접근이 쉽게 만들 수 있도록 더블린코어 메타데이터 사용법을 어렵지 않게 소개한다. 이것은 더블린코어 메타데이터 요소의 원칙, 구조와 내용, 완전한 더블린코어 메타데이터 레코드의 구축에 그것들을 사용하는 방법은 물론 보다 넓은 공동체에 의한 사용을 지원하도록 요소를 한정하는 방법을 논의한다.

이 문서의 또 다른 중요 목적은 더블린코어 요소 집합을 사용하여 자원을 기술하는 “최선의 관행”을 촉진하는 것이다. 이질적 설명 레코드 원천을 초월하여 최적의 검색과 지능적 표시를 달성하려면 메타데이터 창출의 일관성이 관건이라는 점을 더블린코어 공동체는 잘 알고 있다. 일관성이 결여된 메타데이터는 요구된 레코드를 숨기게 되므로, 들쭉날쭉하고 예측하기 어렵거나 불완전한 검색으로 귀결되기 마련이다. /

이 문서는 일반 안내이므로 당연히 짤막하며, 메타데이터 사용을 기획하는 구현자들이 봉착하는 모든 쟁점에 해답을 줄 수는 없다. 추가 물음이 있는 구현자에게는 본 가이드에 제시된 내용을 넘어서는 다음의 몇 가지 방도가 존재한다.

  1. 1. 본 가이드 부록은 구현자의 기술적 요구에 보다 적중한 논문 및 타 자원으로의 참고를 제시한다.
  2. 더블린코어 웹사이트는 더블린코어 공동체의 추가 문서와 자원, 및 구현자에게 더블린코어에 몰입하도록 돕는 방법에 관한 참고문헌을 포함한다.
  3. 구체적 질문을 AskDCMI에 문의할 수 있다. AskDCMI 서비스는 질문을 접수하는 외에 기존 질문에 대한 해답을 검색할 수 있을 뿐 아니라 추가 자원으로 링크를 제공한다.

2. 구문 규격 문제

더블린코어 추상 모형(The Dublin Core Abstract Model)은 특정한 인코딩 구문론과 독립적으로 개별 DC 인코딩 지침을 대비할 수 있는 참조 모형을 제공한다. 이 참조 모형은 구현자 자신이 인코딩하려는 설명에 대한 개선된 안목을 갖게 하며, 상이한 구문론 간에 보다 나은 매핑과 번역의 개발을 촉진한다. 이 문서는 더블린코어 메타데이터를 지원하는 응용 프로그램 개발자를 주요 대상으로 하지만, 더블린코어의 구현을 고려하는 사람, 특히 어떤 방식으로든 DC를 확장하려고 숙고하는 사람에게 이 문서는 유용할 것이다. 더블린코어 메타데이터의 새로운 구문론 인코딩 지침을 개발하거나 더블린코어를 기반으로 메타데이터 응용 프로파일을 개발하는 데에도 이 DC 추상 모형을 숙지하는 것이 거의 필수적이다.

본 가이드에서는, 더블린코어 보기를 “범용” 형태 (요소=“값”)로 표현하기로 결정했다. HTML이나 XHTML (웹의 하이퍼텍스트 생성언어 양식), RDF/XML (확장성생성언어를 사용한 자원설명체계) 및 평문 XML을 포함하는 타 구문 규격의 보기는 각각 해당 구문론에 초점을 맞춘 더블린코어 웹사이트 상에 이용 가능한 문서더블린코어 웹사이트 상에 이용 가능한 문서에서 찾아볼 수 있다. 그 일부는 본 문서 내에서 및 본 가이드의 참고문헌 항에서 참조가 제공된다.

구문 규격 선택은 다양한 변수에 의존하는 것이며, “만병통치적” 처방은 존재하지 않는다. 적절한 구문 규격을 고려할 때에는, 더블린코어 개념과 의미체계는 구문 규격과 독립적으로 설계되었으며, 메타데이터가 검색 엔진과 인간에 의한 해석에 모두 적합한 형태인 한 다양한 맥락에서 동등하게 적용 가능하다는 점에 주목을 돌릴 필요가 있다.

2.1. HTML and XHTML

HTML이 세련화 요소의 표현에 고유한 한계를 갖는다는 점이 인정되지만, HTML이나 XHTML은 단순형 더블린코어나 한정형 더빌린 코어 어느 것이나 표현하도록 사용될 수 있다. HTML로 더블린코어를 표현하는 구체적 안내는 아래 더블린코어 문서에서 찾아볼 수 있다:

  1. HTML/XHTML메타와 링크 요소에 의한 한정형 더블린코어 표현(Expressing Qualified Dublin Core in HTML/XHTML meta and link elements)

2.2. RDF/XML

RDF (자원설명체계)는 다중 메타데이터 스키마에 대한 기계 분석은 물론 인간에 의한 판독을 허용한다. RDF는 XML (확장성생성언어)을 사용하여 구조를 표현하므로 메타데이터 공동체가 실제 의미체계를 정의할 수 있다. 모든 상황에 적합한 유일한 스키마는 없을 뿐 아니라 중앙 권위와 독립적으로 설명, 식별, 이해, 사용성, 및/또는 교환을 돕는 연결 기제가 스키마에 필요하다는 점을 이 분산 접근법은 수용한다.

RDF는 필요한 세부내용을 지정하지 않아도 다중 개체가 설명되도록 허용한다. 기본 접착 기능을 제공하는 XML이 다만 요구하는 것은, 모든 명칭공간이 정의되고 일단 정의되면, 메타데이터의 제공자의 필요 정도에 맞추어 그것들을 사용할 수 있다는 점이다.

다음의 예를 보기로 하자:

<link>rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/dc/elements/1.1/" >

<link>rdf:Description rdf:about="http://media.example.com/audio/guide.ra" >

<link>dc:creator >Rose Bush<link>/dc:creator >
<link>dc:title >A Guide to Growing Roses<link>/dc:title >
<link>dc:description >Describes process for planting and nurturing different kinds of rose bushes.<link>/dc:description >
<link>dc:date >2001-01-20<link>/dc:date >

<link>/rdf:Description >
<link>/rdf:RDF >

이 단순한 보기는 독립적으로 더블린코어를 사용하여 장미나무 재배 가이드의 음향 녹음을 서술한다. XML이나 RDF/XML에 관한 한, 더블린코어는 타 메타데이터 어휘와 혼용 가능성이 있다. 예컨대, 위의 단순형 더블린코어 설명은 저자의 소속기관이나 연락처를 서술할 수 있는 타 어휘와 나란히 사용하거나, 또는 보다 상세히 장미나무를 서술하는 보다 전문적인 “장미 설명” 어휘와 함께 사용할 수 있다.

더블린코어는 특히 이들 구문 규칙의 사용에 관한 몇 가지 권고를 제공한다:

  1. XML에 의한 더블린코어 구현 지침(Guidelines for Implementing Dublin Core in XML)
  2. RDF/XML에 의한 단순형 더블린코어 표현(Expressing Simple Dublin Core in RDF/XML)
  3. RDF/XML에 의한 한정형 더블린코어 표현 (Expressing Simple Dublin Core in RDF/XML)

2.3. 메타데이터의 저장과 유지관리 문제

더블린코어를 도입한 구현 활동 가운데는, 메타데이터를 자원 자체에 내장시킨 경우가 있다. 이 접근방법은 HTML로 인코딩한 문서에 주로 채택되고 있으나, 때로는 다른 종류의 문서에도 나타날 수 있다. 새롭게 개발된 간단한 도구들은 HTML로 인코딩된 페이지 내부에 대한 더블린코어 메터데이터 공급을 한층 간편하게 한다. 그런 도구의 하나인 DC.dot은 HTML 문서에서 메타데이터 정보를 추출하며, 이를 편집한 후 다시 원본 문서의 HTML 헤더에 오려 붙일 수 있게 양식화한다.

반면, 메타데이터가 원본 자원에 내장되기 보다는 모든 종류의 데이터베이스에도 저장되어, 설명된 해당 자원으로 링크를 제공할 수 있다. 이 접근방법은 많은 비텍스트 자원에 가장 실용적으로 보이며, 주로 메타데이터의 보다 간편한 유지보수와 공유를 지원하는 용도로 텍스트에도 또한 사용이 증가하는 추세이다.

이들 접근방법은 나름의 장단점이 있으며, 구현 활동의 대형화와 다양화, 및 메타데이터의 장기적 노후화에 따라 균형추도 이동하는 양상이다.

3. 요소 내용과 통제된 어휘

각 더블린코어 요소는 선택사항이며 반복 가능하고, 요소 간에 고정된 순서가 있는 것은 아니다. 여러 차례 나타나는 동일한 요소 (예, 작성자)의 순서화는 제공자의 의도를 반영한다는 점에서 중요성을 가질 수 있지만, 모든 사용자 환경에서 그 순서 방식을 보존하는 것은 보장되지 않는다. 순서화 또는 순위화는 구문 규칙에 의존할 수 있다; 예를 들면 RDF/XML은 순위화를 지원하지만, HTML은 지원하지 않는다.

일부 요소의 내용 데이터는 일관되게 사용되고 신중히 정의된 용어의 제한 집합인 “통제된 어휘”로부터 선별될 수 있다. 이것이 검색 결과를 극적으로 개선시킬 수 있는 까닭은, 컴퓨터가 문자별로 단어를 대조하는 기능은 탁월하지만 인간이 동일한 개념을 상이한 단어로 가리키는 방법, 즉 동의어를 이해하는 데는 취약하기 때문이다. 기본적 용어 통제가 없다면, 일관성이 없거나 부정확한 메타데이터가 검색 결과의 품위를 현저히 훼손할 수 있다. 예컨대, 통제된 어휘가 없다면, “캔디”와 “스위트”는 동일한 개념을 가리키는 용도로 혼동될 수 있다. 통제된 어휘는 또한 메타데이터를 기록할 때 철자 오류의 가능성을 줄일 수 있다.

통제된 어휘로 인한 비용의 하나는 어휘를 심사, 수정, 배포 하는 관리기구가 필요하다는 점이다. 예를 들면, 미국의회도서관 주제헤딩 (LCSH)과 국립의학도서관 의학주제헤딩 (MeSH)은 공식 어휘집이며, 엄격히 목록화된 수집 데이터의 검색에 불가결하다. 그러나 이 둘은 상당한 지원조직을 필요로 한다. 또 다른 비용은 메타데이터 검색자와 작성자의 훈련에 비용이 든다는 점이다. 예컨대, 이들이 MeSH를 사용하는 경우 일상어인 “심장병” 대신 “심근경색”을 입력할 수 있어야 한다. 정교한 구현으로 이 과제를 보다 쉽게 처리할 수 있지만, 그들이 적용할 수 있는 통제된 어휘 용어가 있어야 한다.

통제된 어휘를 사용하는 가장 효과적인 방법은 인코딩 스키마(encoding schemes)를 이용하는 것이다. 특별히 지정된 인코딩 스키마가 없다면, 특정 통제 어휘로부터 퍽이나 잘 신중히 선별할 수 있는 주제를 단순한 키워드와 구분할 수 없을 것이다.

4. 요소

5. 더블린코어 한정어

6. 부록, 역할

7. 용어집

8. 참고문헌