1장 소개
목차
1.1 동기
1.2 기본 개념
1.3 과거, 현재와 미래
1.4 검색 과정
1.5 교재의 구성
1.6 교재의 사용
1.7 참고 문헌 고찰
최신정보검색론
Chapter 1
1
1.1 동기
• 정보검색 (Information Retrieval: IR)
– 정보 항목들에 대한 표현, 저장, 조직, 접근
– 사용자가 관심 있는 정보에 대해 쉬운 접근을 제공
– 가상 사용자 정보 요구 예
• 다음과 같은 대학 테니스 팀에 대한 정보를 지니고
있는 모든 페이지(문헌)를 찾아라
– 미국 내 대학에서 운영되고 NCAA 테니스
토너먼트에 참가
– 단, 지난 3년간의 미국 내 순위와
– 팀 코치의 전자메일 또는 전화번호 포함
• IR 시스템의 중요 목표
– 해당 IR 시스템의 질의(query) 형태로 변환
– 사용자에게 유용하거나 연관될 지도 모르는 정보를 검색
최신정보검색론
Chapter 1
2
1.1.1 정보와 데이터 검색
• 데이터 검색 (Data Retrieval: DR)
– 명확히 정의된 조건에서 모든 객체들을 검색
• 정규식이나 관계 대수 표현
– 잘 정의된 구조와 의미를 가진 데이터
• 관계형 데이터베이스
• 정보 검색
– 질의를 만족하는 데이터보다는 그 주제에 연관된 정보를
검색
– 자연언어 텍스트를 취급
• 잘 구조화되어 있지도 않으며, 의미적으로도 모호함
– 문헌 내용의 해석
• 문헌 텍스트로부터 구문/의미 정보를 추출하고,
• 이 정보를 이용해 사용자 정보 요구와 정합
– 사용자 질의와의 연관도에 따라 순위를 매김
• 연관성(relevance) 인식이 정보 검색의 핵심
– IR 시스템의 주요 목표
• 사용자 질의와 연관된 모든 문헌을 검색
• 가능한 한 비연관 문헌을 줄임
최신정보검색론
Chapter 1
3
1.1.2 시대 중심에 위치한 정보 검색
• 정보 검색의 역사
– ’60-’70년대: 텍스트 색인과 유용한 문헌 탐색 도구
– ‘80년대
• 모델링, 문헌 분류 및 범주화, 시스템 구조, 사용자
인터페이스, 데이터 가시화, 여과, 언어 등을 포함
• 도서관 사서나 정보 전문가들만의 협소한 관심영역
– ‘90년대
• 월드 와이드 웹의 등장
– 전례없는 규모로 생각과 정보의 공유를 가능
– 인류 지식과 문화의 보편적인 저장소
– 모든 사람이 접할 수 있는 새로운 출판 매체
• 주요 장애물
– 웹을 위해 잘 정의된 데이터 모델의 부재
– 정보의 정의와 구조가 저수준
• 유망한 해결책으로 웹 검색 부각
최신정보검색론
Chapter 1
4
1.1.3 교재의 초점
• 정보 검색에 관한 전반적인 연구 성과
– 컴퓨터 과학 입장
• IR 시스템에서 사용되는 컴퓨터 알고리즘과 기술에
초점
– 인간중심으로 해석
• 도서관 사서나 정보과학 연구자의 관점 소개
– 정보검색과 관련된 다른 분야와 통합
• 기술: 텍스트/ 멀티미디어 검색, 사용자 인터페이스,
시각화
• 응용: 웹, 도서관 시스템, 디지털 도서관
최신정보검색론
Chapter 1
5
1.2 기본 개념
• 연관 정보의 효과적인 검색 요소
– 사용자 작업
– 검색시스템이 채택한 논리적 문헌
• 작업에 따른 사용자와 검색 시스템간의 상호작용
최신정보검색론
Chapter 1
6
1.2.1 사용자 작업
•
가져오기(pulling) 작업
– 정보와 데이터 검색
• 해당 시스템이 제공하는 질의언어로 변환
– IR : 정보 요구의 의미를 담고 있는 단어 집합
– DR : 정규식
• 전통적인 정보 검색 시스템
– 브라우징
• 시작시 목적이 명확하게 정의되어 있지 않고 사용 중에 목적이 바뀜
• 하이퍼텍스트 시스템
– 정보와 데이터 검색에 브라우징을 통합
• 아직 일반적이지 못하고 미래에나 가능
•
밀어넣기(push) 작업
– 사용자에게 유용한 정보를 주기적으로 추출하여 보내줌
– 정보 여과(filtering)
최신정보검색론
Chapter 1
7
1.2.2 논리적 문헌
•
전문(full text)
– 문헌에 포함된 모든 단어의 집합
– 가장 완벽한 형태의 논리적 문헌
– 높은 계산 비용을 수반
•
색인어나 키워드의 집합
– 문헌 텍스트로부터 직접 추출
• 대규모의 문헌 집합에서 대표 키워드 집합으로 축소
• 텍스트 작업(또는 변형)
– 불용어(stopword ; 관사나 접속사와 같은) 제거
– 스테밍(stemming ; 문법적으로 공통인 어원으로 변환)
– 명사 그룹(형용사, 부사, 동사 제거) 확인
– 압축
– 주제 색인자(정보과학 영역 전문가)에 의해 명기
• 작은 규모의 카테고리: 가장 간결한 형태의 논리적 문헌
• 낮은 수준의 검색 결과
최신정보검색론
Chapter 1
8
문헌의 논리적 상 전문에서 색인어 집합까지
최신정보검색론
Chapter 1
9
1.3 과거, 현재와 미래
1.3.1초기 연구
•
•
검색하고 사용할 목적으로 정보를 조직화
– 책의 목차
– 색인
• 연관 정보에 대한 지시자 역할을 해주는 선택된 단어나 개념 목록
– 분류체계
• 도서관학(또는 문헌정보학) 분야의 전문가들에 의해 대부분이 고안
– 대규모 색인을 자동으로 구축하는 것이 가능해짐
정보 검색의 두 관점
– 컴퓨터 중심
• 효율적인 색인, 고성능의 사용자 질의 처리, 순위결정 알고리즘이
중요
– 인간 중심
• 사용자 행태 연구, 사용자 주요 요구의 이해와 함께 어떻게 이런
것들이 검색 시스템의 조직과 동작에 영향을 미치는가가 중요
최신정보검색론
Chapter 1
10
1.3.2 도서관에서의 정보 검색
• 1세대 시스템
– 카드 목록과 같은 이전의 기술들을 자동화하는 차원
– 저자나 제목으로 검색 가능
• 2세대 시스템
– 주제어나 키워드, 좀 더 복잡한 질의 처리 등의 향상된
탐색 기능들이 추가
• 3세대 시스템
– 향상된 그래픽 인터페이스, 전자 형태, 하이퍼텍스트 기능
및 개방형 시스템 구조 등에 초점
최신정보검색론
Chapter 1
11
1.3.3 웹과 디지털 도서관
• 컴퓨터 기술 발전과 웹에 의한 변화
– 저비용: 매우 저렴하게 다양한 정보원의 접근이 가능
– 접근의 용이: 수많은 네트워크에로의 신속한 접근이 가능
– 출판의 자유: 대규모 출판 매체에 자유로운 접근이 가능
• 웹(디지털 도서관)
– 고수준의 상호작용(interactivity)이 가능한 매체
– 서비스 편의성 향상
• 해결해야 할 세 가지 중요 문제
– 동적 환경에서 양질의 검색을 제공
– 색인과 질의 응답 시간을 빠르게 제공
– 사용자 행태의 이해
• 새로운 정보 검색 전략의 설계와 전개에 영향
최신정보검색론
Chapter 1
12
1.3.4 실용적인 문제
• 보안과 사생활보호
– 전자상거래 보안상의 이유로 암호화나 자동 인증 형식을 제공
– 제3자에 의해 개인정보가 오용되는 것을 방어
• 저작권과 특허
– 웹상의 광범위한 데이터 유포와 저작권법이나 특허법과의 관계
– 대규모 디지털 도서관 설립과 전개 사업에 중요
• 기타
– 스캐닝
– 광학문자인식(OCR)
– 교차 언어 검색(질의언어와 검색된 문헌의 언어가 상이한 경우)
최신정보검색론
Chapter 1
13
1.4 검색 과정
최신정보검색론
Chapter 1
14
1.4 검색 과정(계속)
• 텍스트 데이터베이스 정의(데이터베이스 관리자)
– 사용될 문헌
– 텍스트에 수행될 명령어
– 텍스트 모델(검색 대상 요소로서의 텍스트 구조)
• 텍스트 색인 생성
– 가장 결정적인 자료구조
• 대량의 데이터를 빠르게 검색
– 역파일(inverted file) 구조
최신정보검색론
Chapter 1
15
1.4 검색 과정(계속)
•
검색
1. 사용자의 요구를 명기
2. 텍스트 명령어와 동일하게 분석되고 변형
3. 질의 연산(query operation) 적용
4. 색인구조에 의해 검색
5. 연관 가능성(likelyhood)에 따라 순위화
6. 사용자 피드백(user feedback)
1. 사용자의 관심에 정확히 부합되는 문헌들을 선택
7.
Go to 3
최신정보검색론
Chapter 1
16
1.5 교재의 구성
최신정보검색론
Chapter 1
17
1.5.2 교재의 구조
최신정보검색론
Chapter 1
18
1.7 참고
– 웹 페이지
• Brazil: http://www.dcc.ufmg.br/irbook
• Chile: http://sunsite.dcc.uchile.cl/irbook
– 정보 검색에 대한 주요 논문지
• Journal of the American Society of Information Sciences(JASIS)
• ACM Transactions on Information Systems
• Information Processing & Management(IP&M, Elsevier)
• Information Systems(Elsevier)
• Information Retrieval(Kluwer)
• Knowledge and Information Systems(Springer)
– 학술회의
• ACM SIGIR International Conference on Information Retrieval
• ACM International Conference on Digital Libraries(ACM DL)
• ACM Conference on Information Knowledge and Management(CIKM)
• Text REtrieval Conference(TREC)
• IRAL (International Workshop on Information Retrieval with Asian
Languages)
• 한글 및 한국어 정보처리 학술대회
최신정보검색론
Chapter 1
19
Descargar

Map - 성공회대학교 글로컬IT학과