資訊檢索系統測試集之比較
圖書與資訊學刊第29期(1999年5月)
by 江玉婷,陳光華
台大圖資所碩士論文
測試集 (Test Collections)
 組成要素
文件集 (Document Set; Document Collection)
查詢問題 (Query; Topic)
相關判斷 (Relevant Judgement)
 用途
設計與發展: 系統測試
評估: 系統效能(Effectiveness)之測量
比較: 不同系統與不同技術間之比較
 評比
根據不同的目的而有不同的評比項目
量化的測量準則,如Precision與Recall
IR System Evaluation - 2
測試集(Test Collections) (續)
 小型測試集
早期: Cranfield
英文: SMART, OHSUMED, Cystic Fibrosis, LISA….
日文: BMIR-J2
 大型評比環境: 提供測試集及研討的論壇
美國: TREC
日本: NTCIR, IREX,
歐洲: AMARYLLIS
IR System Evaluation - 3
表一、各測試集之基本資料
相關判
文件集
測試集
文件數
大小
(M B )
平均字數
/文件
查詢
問題數
斷層次
平均相關
平均字數
文件數
主題領域
/查詢問題 /查詢問題
相
關
不 語文
相
關
9 .2
7 .2
太空動力學
35
1 4 .6
9 .5
文獻學
5 1 .6
30
1 0 .1
2 3 .2
醫學
1 .5
570
24
1 6 .0
8 .7
世界情勢
N/A
英文
3,2 0 4
2 .2
2 4 .5
64
1 0 .8
1 5 .3
ACM 通訊
N/A
英文
C IS I
1,4 6 0
2 .2
4 6 .5
11 2
2 8 .3
4 9 .8
資訊科學
N/A
英文
NPL
11 ,4 2 9
3 .1
2 0 .0
100
7 .2
2 2 .4
N/A
英文
IN S P E C
1 2,6 8 4
N /A
3 2 .5
84
1 5 .6
3 3 .0
8 00
N /A
N /A
63
N /A
8 .4
U K C IS
2 7,3 6 1
N /A
182
193
N /A
UK AEA
1 2,7 6 5
N /A
N /A
60
L IS A
6 ,0 0 4
3 .4
N /A
C ystic
F ib rosis
1 ,2 3 9
N /A
3 4 8 ,5 6 6
5,0 8 0
C ra nfield II
1,4 0 0
1 .6
5 3 .1
225
0 .0 4
2 7 .1
1,0 3 3
1 .1
423
CACM
ADI
M EDLARS
T IM E
IS ILT
OSHUM ED
B M IR -J2
82
T R EC
1 ,7 5 4 ,8 9 6
(T R E C -1 ~ 6 )
電子、電腦、
物理、地理
物理、電
4
1 英文
N/A
2
英文
2 英文
2
1 英文
文獻學
1
1 英文
57
生化
2
2 英文
N /A
N /A
核子科學
2
1 英文
35
N /A
1 0 .8
N/A
4 9 .7
100
6 .8
6 .4 -3 1 .9
醫學
6
1 英文
N /A
250
101
10
1 7 /1 9 .4
N/A
2
1 英文
N /A
6 2 1 .8
60
1 0 2 .2
2
1 日文
~5G B
4 8 1 .6
350
1 0 5 .8
1 8 5 .3
多主題
1
1 英文
子、控制
1 0 .6 /2 8.4 經濟、工程
N/A
英文
AM ARYLLIS
3 3 6 ,0 0 0
201
N /A
56
N /A
N /A
多主題
N T C IR
3 0 0 ,0 0 0
N /A
N /A
100
N /A
N /A
多主題
2
1 日文
N /A
N /A
N /A
N /A
N /A
N /A
多主題
2
1 日文
IR E X
N/A
法文
Cranfield II
比較33種不同索引方式之檢索效益
蒐集1400篇有關太空動力學的文件(摘要形式)
請每位作者根據這些文件與其當時研究的主題提
出問題,經篩選後產生200餘個查詢問題
IR System Evaluation - 5
Cranfield II (Continued)
Cranfield II測試集中相關判斷建立四個步驟
首先請提出查詢問題的建構者對文件後所附之引用及參考文獻進
行相關判斷
接著請五位該領域的研究生將查詢問題與每篇文件逐一檢視,共
花了1500小時進行了50萬次以上的相關判斷,希望能找出所有的
相關文件。
為了避免前述過程仍有遺漏,又利用文獻耦合的概念計算文件間
之相關性,發掘更多的可能相關文件。若有兩篇以上的文獻共同
引用了一篇或多篇論文,則稱這些文獻間具有耦合關係。
最後,將以上找出的所有文件,再一併送回給原作者進行判斷。
IR System Evaluation - 6
TREC~簡介
 TREC: Text REtrieval Conference
 主辦: NIST及DARPA,為 TIPSTER文件計劃之子計劃
之一
 文件集
5GB以上
數百萬篇文件
IR System Evaluation - 7
TREC 文件集
Vo lu m e
1
2
3
4
5
R o u tin g
Te st
D a ta
R e v ise d
M a rc h
1994
M a rc h
1994
M a rc h
1994
S o u rc e s
(M B )
D o cs
M e d ia n #
M ean #
Te rm s/D o c Te rm s/D o c
W a ll S tre e t Jo u rn a l, 1 9 7 8 -1 9 8 9
267
9 8 ,7 3 2
245
4 3 4 .0
A sso c ia te d P re ss n ew sw ire , 1 9 8 9
254
8 4 ,6 7 8
446
4 7 3 .9
C o m p u te r S e le c ts A rtic le s, Z iff-D av is
242
7 5 ,1 8 0
200
4 7 3 .0
F e d era l R e g iste r, 1 9 8 9
260
2 5 ,9 6 0
391
1 3 1 5 .9
A b stra c ts o f U .S . D O E p u b lic a tio n s
184
2 2 6 ,0 8 7
111
1 2 0 .4
W a ll S tre e t Jo u rn a l, 1 9 9 0 -1 9 9 2 (W S J)
242
7 4 ,5 2 0
301
5 0 8 .4
A sso c ia te d P re ss n ew sw ire (1 9 8 8 )(A P )
237
7 9 ,9 1 9
438
4 6 8 .7
C o m p u te r S e le c ts a rtic le s, Z iff-D av is(Z IF F )
175
5 6 ,9 2 0
182
4 5 1 .9
F e d era l R e g iste r(1 9 8 8 )(F R 8 8 )
209
1 9 ,8 6 0
396
1 3 7 8 .1
S a n Jo se M e rc u ry N ew s, 1 9 9 1
287
9 0 ,2 5 7
379
4 5 3 .0
A sso c ia te d P re ss n ew sw ire , 1 9 9 0
237
7 8 ,3 2 1
451
4 7 8 .4
C o m p u te r S e le c ts a rtic le s, Z iff-D av is
345
1 6 1 ,0 2 1
122
2 9 5 .4
U .S . p a te n ts, 1 9 9 3
243
6 ,7 11
4445
5 3 9 1 .0
T h e F in an c ia l Tim e s, 1 9 9 1 -1 9 9 4 (F T )
564
2 1 0 ,1 5 8
316
4 1 2 .7
395
5 5 ,6 3 0
588
6 4 4 .7
C o n g ressio n a l R e c o rd , 1 9 9 3 (C R )
235
2 7 ,9 2 2
288
1 3 7 3 .5
F o re ig n B ro ad c a st In fo rm a tio n S erv ic e(F B IS )
470
1 3 0 ,4 7 1
322
5 4 3 .6
L o s A n g e le s Tim e s (1 9 8 9 , 1 9 9 0 )
475
1 3 1 ,8 9 6
351
5 2 6 .5
F o re ig n B ro ad c a st In fo rm a tio n S erv ic e(F B IS )
490
1 2 0 ,6 5 3
348
5 8 1 .3
M a y 1 9 9 6 F e d era l R e g iste r, 1 9 9 4 (F R 9 4 )
A p ril
1997
S iz e
IR System Evaluation - 8
TREC之文件標示
<DOC>
< D O C N 0> F T 911-3< /D O C N 0>
< P R O F IL E > A N -B E 0A 7A A IF T < /P R O F IL E >
< D AT E > 910514 < /D AT E >
< H E A D L IN E >
F T 14 M AY 91 / International C om pany N ew s: C ontigas plans D M 900m east G erm an project
< /H E A D L IN E >
< B Y L IN E >
B y D AV ID G O O D H A RT
< /B Y L IN E >
< D AT E L IN E >
BONN
< /D AT E L IN E >
<TEXT>
C O N T IG A S , the G erm an gas group 81 per cent ow ned by the utility B ayernw erk, said yesterday that it intends to invest
D M 900 m (D ollars 522m ) in the next jour years to build a new gas distribution system in the east G erm an state of
T huringia. …
< /T E X T >
< /D O C >
IR System Evaluation - 9
TREC-1 and TREC-2查詢主題
< to p >
< h ead > Tip ster To p ic D escrip tio n
< n u m > N u m b er: 0 3 7
< d o m > D o m ain : S cien ce an d Tech n o lo g y
< title> To p ic: Id en tify S A A co m p o n en ts
< d esc> D escrip tio n :
D o cu m en t id en tifies so ftw are p ro d u cts w h ich ad h ere to IB M 's S A A stan d ard s.
< n arr> N arrativ e:
To b e relev an t, a d o cu m en t m u st id en tify a p iece o f so ftw are w h ich is co n sid ered a S y stem s A p p licatio n
A rch itectu ral (S A A ) co m p o n en t o r o n e w h ich co n fo rm s to S A A .
< co n > C o n cep t(s):
1. SA A
2 . O fficeVisio n
3 . IB M
4 . S tan d ard s, In terfaces, C o m p atib ility
< fac> F acto r(s):
< d ef> D efin itio n(s):
O fficeVisio n - A series o f in teg rated o ffice au to m atio n ap p licatio n s fro m IB M th at ru n s acro ss all o f its
m ajo r co p u ter fam ilies.
S y stem s A p p licatio n A rch itectu re (S A A ) - A set o f IB M stan d ard s th at p ro v id e co n sisten t u ser
in terfaces, p ro g ram m in g in terfaces, an d co m m u n icatio n s p ro to co ls am o n g all IB M co m p u ters fro m
m icro to m ain fram e.
< /to p >
IR System Evaluation - 10
TREC-3查詢主題
< top>
< num > N um ber:
177
< title> Topic: E nglish as the O fficial L anguage in U .S .
< desc> D escription:
D ocu m ent w ill provide argum ents supporting the m aking of E nglish the standard language of the
U .S .
< narr>
N arrative:
A relevant docum ent w ill note instances in w hich E nglish is favored as a standard language.
E xam ples are the positive results achieved by im m igrants in the areas of acceptance, greater
econom ic opportunity, and increased academ ic achievem ent. R eports are also desired w hich
describe som e of the language difficulties encountered by other nations and groups of nations, e.g.,
C anada, B elgium , E uropean C o m m unity, w hen they have opted for the use of tw o or m ore
languages as their official m eans of co m m unication. N ot relevant are reports w hich prom ote
bilingualism or m ultilingualism .
< /top>
IR System Evaluation - 11
TREC-4查詢主題
< top>
<n um > N um ber:
217
< desc> D escription:
Rep ortin g on possibility of and search for extra-terrestrial life/in telligen ce.
< /top>
IR System Evaluation - 12
字 數 (包 含 停 字 )
欄位
TREC~查詢主題
T R E C -1
(51 -10 0)
主題結構與長度
T R E C -2
(101 -1 50)
主題建構
主題篩選
pre-search
判斷相關文件的數量
T R E C -3
(151 -2 00)
最小
最大
平均
字數
字數
字數
To tal
44
2 50
1 07 .4
Title
1
11
3 .8
D escrip tio n
5
41
1 7 .9
N arrativ e
23
2 09
6 4 .5
C o n cep ts
4
111
2 1 .2
To tal
54
2 31
1 30 .8
Title
2
9
4 .9
D escrip tio n
6
41
1 8 .7
N arrativ e
27
1 65
7 8 .8
C o n cep ts
3
88
2 8 .5
To tal
49
1 80
1 03 .4
Title
2
20
6 .5
D escrip tio n
9
42
2 2 .3
26
1 46
7 4 .6
To tal
8
33
1 6 .3
D escrip tio n
8
33
1 6 .3
To tal
29
2 13
8 2 .7
Title
2
10
3 .8
D escrip tio n
6
40
1 5 .7
N arrativ e
19
1 68
6 3 .2
To tal
47
1 56
8 8 .4
Title
1
5
2 .7
D escrip tio n
5
62
2 0 .4
17
1 42
6 5 .3
N arrativ e
T R E C -4
(201 -2 50)
T R E C -5
(251 -3 00)
T R E C -6
(301 -3 50)
N arrativ e
IR System Evaluation - 13
TREC-6之主題篩選程序
在 P R IS E 系 統 中 輸 入 關 鍵 字 執 行 檢 索
前 25 篇 文 章 中 有 多 少 篇 是 相 關 的 ?
0
不
採
納
此
主
題
1 -5
6 -20
≧ 20
根據相關回饋等方
繼續閱讀檢索出的
式,輸入更多的查
第 26-100 篇 文 件 ,
詢問句,再次執行
判斷其相關性
不
採
納
此
主
題
檢 索 , 並 判 斷 前 100
篇文件的相關性
記錄相關文件的數量
IR System Evaluation - 14
TREC~相關判斷
判斷方法
Pooling Method
人工判斷
判斷基準: 二元式, 相關與不相關
相關判斷品質
完整性
一致性
IR System Evaluation - 15
Pooling法
針對每個查詢主題,從參與評比的各系統所送回
之測試結果中抽取出前n篇文件,合併形成一個
Pool
視為該查詢主題可能的相關文件候選集合,將集
合中重覆的文件去除後,再送回給該查詢主題的
原始建構者進行相關判斷。
利用此法的精神是希望能透過多個不同的系統與
不同的檢索技術,盡量網羅可能的相關文件,藉
此減少人工判斷的負荷。
IR System Evaluation - 16
TREC 候選集合與實際相關文件之對照表
R ou tin g
A d h oc
各 系 統 送 至 Po ol 中 實 際
Po ol 內 之 文
件總數
之文件數
(去 除 重 覆 )
各 系 統 送 至 Po ol 中 實 際
實際相關
Po ol 內 之 文
文件數
件總數
之文件數
(去 除 重 覆 )
實際相關
文件數
T R E C -1
8800
1 2 7 9 (3 9 % )
2 7 7 (2 2 % )
T R E C -1
2200
1 0 6 7 (4 9 % )
3 7 1 (3 5 % )
T R E C -2
4000
11 0 6 (2 8 % )
2 1 0 (1 9 % )
T R E C -2
4000
1 4 6 6 (3 7 % )
2 1 0 (1 4 % )
T R E C -3
2700
1 0 0 5 (3 7 % )
1 4 6 (1 5 % )
T R E C -3
2300
7 0 3 (3 1 % )
1 4 6 (2 1 % )
T R E C -4
7300
1 7 11 (2 4 % )
1 3 0 (0 8 % )
T R E C -4
3800
9 5 7 (2 5 % )
1 3 2 (1 4 % )
T R E C -5
10100
2 6 7 1 (2 7 % )
11 0 (0 4 % )
T R E C -5
3100
9 5 5 (3 1 % )
11 3 (1 2 % )
T R E C -6
8480
1 4 4 5 (4 2 % )
9 2 (6 .4% )
T R E C -6
4400
1 3 0 6 (3 0 % )
1 4 0 (11 % )
IR System Evaluation - 17
TREC~評比
Tasks/Tracks
M ain Tasks
TREC1
TREC2
TREC3 TREC4 TREC5 TREC6 TREC7
R o utin g






A d ho c



















C o n fu sio n
C o n fu sio n
S p o ken D o cu m e nt
R etrieva l
D atab ase M ergin g


F ilterin g


H ig h P recisio n

Interactive

C ro ss L an g uage
M ultilin g ual
S p anish
C hine se
N atural L an g uage P ro cessing








Q uery
Very L arge C o rp u s


IR System Evaluation - 18
TREC~質疑與負面評價
 測試集方面
查詢主題
並非真實的使用者需求, 過於人工化
缺乏需求情境的描述
相關判斷
二元式的相關判斷不實際
pooling method會遺失相關文件, 導致回收率不準確
品質與一致性
 效益測量方面
只關注量化測量
回收率的問題
適合作系統間的比較, 但不適合作評估
IR System Evaluation - 19
TREC~質疑與負面評價 (續)
評比程序方面
互動式檢索
缺乏使用者介入
靜態的資訊需求不切實際
IR System Evaluation - 20
BMIR-J2 ~簡介
第一個日文資訊檢索系統測試集
BMIR-J1: 1996
BMIR-J2: 1998.3
發展單位: IPSG-SIGDS
文件集: 主要為新聞文件
每日新聞: 5080篇
經濟與工程
查詢主題: 60個
IR System Evaluation - 21
BMIR-J2 ~相關判斷
以布林邏輯結合關鍵詞檢索1-2個IR系統
由資料庫檢索者做進一步的相關判斷
由建構測試集的人員再次檢查
IR System Evaluation - 22
BMIR-J2 ~查詢主題
Q: F=oxoxo: “Utilizing solar energy”
Q: N-1: Retrieve texts mentioning user of solar energy
Q: N-2: Include texts concerning generating electricity and drying
things with solar heat.
 查詢主題的分類
目的: 標明該測試主題的特性,以利系統選擇
標記: o(necessary), x(unnecessary)
類別
The basic function
The numeric range function
The syntactic function
The semantic function
The world knowledge function:
IR System Evaluation - 23
NTCIR ~簡介
 NTCIR: NACSIS Test Collections for IR
 主辦: NACSIS(日本國家科學資訊系統中心)
 發展背景
大型日文標竿測試集的需求
跨語言檢索的研究發展需要
 文件集
來源為NACSIS Academic Conference Papers Database
主要為會議論文的摘要
超過330,000篇文件, 其中超過1/2為英日文對照之文件
有部分包含part-of-speech tags
IR System Evaluation - 24
NTCIR~查詢主題
 來源: 搜集真實的使用者需求, 再據其修正改寫
 每個學科主題領域各有100個測試主題
 組成結構
<TOPIC q=nnnn>編號
<title>標題 </title>
<description>資訊需求之簡短描述 </description>
<narrative>資訊需求之細部描述, 包括更進一步的解釋, 名
詞的定義, 背景知識, 檢索的目的, 預期的相關文件數量,
希望的文件類型, 相關判斷的標準等 </narrative>
<concepts>相關概念的關鍵詞 </concepts>
IR System Evaluation - 25
NTCIR ~相關判斷
判斷方法
利用pooling method先進行篩選
由各主題專家, 及查詢主題的建構者進行判斷
判斷基準
A: 相關
B: 部分相關
C: 不相關
精確率計算: 依測試項目的不同而有不同
Relevant: B與C均視為不相關
Partial Relevant : A與B均視為相關
IR System Evaluation - 26
NTCIR~評比
Ad-hoc Information Retrieval Task
Cross-lingual Information Retrieval Task
利用日文查詢主題檢索英文文件
共有21個查詢主題, 其相關判斷包括英文文件與日文文件
系統可選擇自動或人工建立查詢問題
系統需送回前1000篇檢索結果
Automatic Term Extraction and Role Analysis Task
Automatic Term Extraction: 從題名與摘要中抽取出
technical terms
Role Analysis Task: 抽取出主旨, 研究方法, 研究程序
IR System Evaluation - 27
IREX ~簡介
IREX: Information Retrieval and Extraction Exercise
主辦: IREX Committee
參加者: 約20隊 (或以上)
 預備測試:利用BMIR-J2測試集中之查詢主題
文件集
每日新聞, 1994-1995
參加者必須購買新聞語料
IR System Evaluation - 28
IREX ~查詢主題
組成結構
<topic_id>編號 </topic_id>
<description> 簡短的資訊需求, 主要為名詞與其修飾語
構成的名詞詞組 </description>
<narrative> 詳細的資訊需求, 以自然語言敘述, 通常為2
至3個句子組 成, 亦包含名詞解釋, 同義詞
或實例. </narrative>
description欄位中的詞彙必須包含在narrative欄位中
IR System Evaluation - 29
IREX ~相關判斷
 判斷依據: 測試主題的所有欄位
 判斷方法: 由學生二名進行判斷
若二人之判斷結果一致, 則完成相關判斷
若二人之判斷結果不一致或不確定, 則由三人來作最後
的判定
 判斷基準
學生: 6個判斷層次
A: 相關
B: 部分相關
分相關
C: 不相關
A?: 不確定是否為相關
B?: 不確定是否為部
C?: 不確定是否為不相關
IR System Evaluation - 30
IREX ~相關判斷 (續)
最終判斷者: 3個判斷層次
A: 相關
B: 部分相關
C: 不相關
相關判斷的修正
IR System Evaluation - 31
IREX ~評比
評比項目
Name Entity Task (NE)
與MUC相似, 測試系統自動抽取專有名詞的能力, 如組織
名, 人名, 地名等.
一般領域文件抽取 v.s. 特殊領域文件抽取
Information Retrieval (IR)
與TREC相似
 評比規則
送回文件:前300篇
Query的建構:一律由系統自動建構
IR System Evaluation - 32
BMIR-J2 ~簡介
第一個日文資訊檢索系統測試集
BMIR-J1: 1996
BMIR-J2: 1998.3
發展單位: IPSG-SIGDS
文件集: 主要為新聞文件
每日新聞: 5080篇
經濟與工程
查詢主題: 60個
IR System Evaluation - 33
BMIR-J2 ~相關判斷
以布林邏輯結合關鍵詞檢索1-2個IR系統
由資料庫檢索者做進一步的相關判斷
由建構測試集的人員再次檢查
IR System Evaluation - 34
BMIR-J2 ~查詢主題
Q: F=oxoxo: “Utilizing solar energy”
Q: N-1: Retrieve texts mentioning user of solar energy
Q: N-2: Include texts concerning generating electricity and drying
things with solar heat.
 查詢主題的分類
目的: 標明該測試主題的特性,以利系統選擇
標記: o(necessary), x(unnecessary)
類別
The basic function
The numeric range function
The syntactic function
The semantic function
The world knowledge function:
IR System Evaluation - 35
AMARYLLIS~簡介
主辦:INIST (INstitute of Information Scientific and
Technique)
參加者: 約近10隊
文件集
新聞文件: the World, 共2萬餘篇
Pascal(1984-1995)及Francis(1992-1995)資料中抽取出來
的文件題名與摘要部分, 共30餘萬篇
IR System Evaluation - 36
AMARYLLIS~查詢主題
組成結構
<num>編號 </num>
<dom>所屬之學科領域 </dom>
<suj>標題 </suj>
<que>資訊需求之簡單描述 </que>
<cinf>資訊需求之詳細描述 </cinf>
<ccept><c>概念, 敘述語</ccept></c>
IR System Evaluation - 37
AMARYLLIS~相關判斷
原始的相關判斷
由文件集之擁有者負責建構
標準答案的修正
加入
不在最初的標準答案中,但被一半以上的參加者檢
索出來的文件
參加者所送回的檢索結果中的前10篇的文件
減去
在原始的標準答案中出現,但在參加者送回的檢索
結果中未出現的文件
IR System Evaluation - 38
AMARYLLIS~評比
系統需送回檢索結果的前250篇
系統可選擇採取自動或人工的方式建立query
評比項目
Routing Task
Adhoc Task
IR System Evaluation - 39
Descargar

A New Method of Weighting Query Terms for Ad