知的処理および演習 (2)
情報検索とは
本日のゴール
-
情報検索の概念を知る
-
情報検索システムの評価方法を知る
復習: 情報推薦と情報検索
- 情報推薦
- 履歴をもとに勝手に推薦してくる
- 個人化(personalize)されている
- 情報検索
- 検索語を入力すると検索対象(Webページなど)が示される
- 個人化されていないことが多い
能動的/受動的な情報アクセス
- 探して取り出す - 能動的
- 検索 (retrival) - 検索要求をシステムに与える
- 目的とするタスクがある
- やってくるものから見つける - 受動的
- 流れてくる情報を眺める
- とりあえずテレビをつける
- とりあえずニュースサイトを見る
- とりあえずはてなブックマークの人気エントリを見る
- フィードリーダで流れてくるものを見る
- X (Twitter) のタイムラインを見る
- 目的は日々の情報収集、ひまつぶし
- フィルタリング (filtering) - キーワードなどで見るものを絞り込む
情報推薦
推薦 (recommendation)
ユーザの能動的な動きから、他の候補を推薦する技術。
ユーザによって推薦される内容が異なるので、個人化 (personalization) の一種。
受動的にいい情報が得られるのであれば、能動的に探すよりも楽なので理想的?
なぜいいのかわからないという問題も。
能動的 - 情報検索
検索要求(検索語など)を自分で考える。
検索要求はさまざま。
- 富士山の高さについて書いてあるWebページはどれ? → Web検索
- 富士山の高さは何メートルかな? → 質問応答システム(事実を扱う)
- 集団的自衛権の論点は何かな? → 質問応答システム(議論を扱う)
- 自分が買うべきデジカメは? → 推薦システム
- おじいちゃんは元気かな? → 見守りシステム?
- 自分はいったい何者? → 街の占い師?
Web検索は直接の解を与えない。もっと高いレベルの要求に応えたい。
情報検索とは
情報検索(information retrieval)... 情報を探すこと... 広い概念。
日本語の Wikipedia では 2つのエントリに分かれている。
- 情報検索 (Wikipedia)
- 情報検索 (図書館情報学) (Wikipedia)
- 情報を探すこと全般で、図書館の蔵書検索 (紙のカードを使ったものなど) を含む。
- 「図書館情報学」という学問があること自体、広くは知られていない。
- 図書館情報大学という大学があったが 2002年に筑波大学に統合された。
この講義では、コンピュータを使った検索について扱う。
情報の蓄積と利用
情報はどこから探す? 蓄積されたものから。(探偵ではないので)
情報化社会と言われる時代になってから、かなりの時が流れ、
多くの情報がすでに蓄積され、また、日々蓄積され続けている。
- 図書館の蔵書 (出版物)
- Web - 一般サイト、掲示板、ブログ、ソーシャルメディア
- 官公庁・企業の持つデータ
- 企業では社内の膨大なデータを検索したりマイニングしたりしている。
- 官公庁では、オープンデータ(ex. LOD)としてデータを公開する流れがある。
Webのアーカイビング
過去のWebも歴史的遺産として保存。
オープンデータ
- 誰でも自由に使えて、かつ再配布できるようなデータ。
- 形式が重要
- 日本では、政府など行政機関が持つ公共データの公開を指すことが多い。
- 防災・減災情報などがクローズアップされているが、本来多様なもの。
- オープンデータ (デジタル庁)
- データセット (e-govデータポータル)
- 活用することで、新ビジネスの創出、行政の効率化などが期待できる。
情報を蓄積する方法
- 知識工学的アプローチ ... 可能な限り形式化して蓄積
- 例: エキスパートシステム (コンピュータに専門家の知識を持たせ、それを利用して何らかの判断をさせるシステム)
- 参考: Akinator
- 情報検索的アプローチ ... ありのままの姿で蓄積
知識工学的アプローチの問題点
- 情報を知識の形で蓄積しておけば知的なシステムが構築可能
- 知識の形に変換することは一般に困難
- 適用領域が狭いなど限られた条件でしか実現できない
- [例] 症状から病気を自動で診断する、知的なシステム
- 病気の種類を限定しなければ膨大な知識が必要
- その形式化が可能だったとしても、未知の病気や新しい病気には対応できない
情報検索的アプローチ
- 情報検索的アプローチでは、ありのままの形で蓄積
- 検索結果も元の情報を示すのみで、その解釈はユーザに任される
- ユーザの問いに直接答えてくれるような知的なシステムを構築することは、
このアプローチでは困難
- なお、情報検索的アプローチにおいても、
検索のためにはキーワードを抽出するといった処理は必要。
ただ格納して終わり、というわけではない。
情報抽出
- Webのコンテンツは、HTML で記述された Webページが基本
- HTML は、見出し、段落といった文書構造しか表現していないため、
形式化されているものの、ページの内容の解釈には役立たない
-
Webページから知識を獲得するには、
情報抽出(information extraction)技術などの言語処理が必要
ユーザが情報を利用する目的
- ユーザが検索するのは、なんらかの情報が必要なとき
- 一般には、なにか問題があり、それを解決するために必要な情報を検索
-
ユーザが、なにか情報が必要だと感じる時、それを「情報要求」の状態にあるという。
- 情報要求 (information need)
- ユーザがある目的を達成するために現在持っている知識では不十分であると感じている状態
- これをさらに分類したものに、Taylor による情報要求の4階層がある
情報要求の4階層 (Taylor, 1968)
- Q1: 直感的要求
- 現状に満足していないことは認識しているが、それを具体的に言語化してうまく説明できない状態
- Q2: 意識された要求
- 頭の中では問題を意識できるが、曖昧な表現やまとまりのない表現でしか言語化できない状態
- Q3: 形式化された要求
- 問題を具体的な言語表現で言語化することができる状態
- Q4: 調整済みの要求
- 問題を解決するために必要な情報の情報源が同定できるくらい問題が具体化された状態
- どの状態にあるかによって問題解決のための戦略も異なる
情報検索へのアプローチ
- 情報検索 (広義)
- ユーザの持つ問題(情報要求)を解決できる情報を見つけだすこと
- 情報検索 (狭義)
- ユーザの検索質問(query)に適合する文書を文書集合の中から見つけだすこと
- Web検索エンジンは狭義の情報検索を実現するもの
- 情報要求は Taylor の Q4 の段階まで具体化されていないと検索質問をつくれない
- 結果として出力するのはページ集合であり、問題の答えではない
対話型の検索エンジン
- 広義の情報検索を実現するための手法としては、
ユーザのフィードバックにより検索の方向性を変えていく方法や、
対話型システムなどがある。
- 検索結果を分類し、さらに絞り込めるようにする検索エンジンが実用化されている(流行らなかった)。
- Carrot2
- Yippy
- Google (検索ツール - ワンダーホイール) -> 提供終了
- Googleニュース (参考: 同一トピックの記事を自動でまとめる)
-
どのような検索要求なら有効か? どの程度の精度があれば実用になるか?
パーソナライズド検索
- ログインして Google 検索, Google Maps
- 検索結果を過去の検索履歴や現在位置で調整
- 検索であるが個人化(personalization)していて情報推薦的
情報検索システムの評価指標
- 効率性 - 時間コストなど
- 有効性
- 完全性 ... 再現率(recall) = R / C
- 正確性 ... 適合率(precision) = R / N
C: 全適合文書数, R: システムが出力した適合文書数、N: システムが出力した文書数
Precision は精度と呼ぶ場合もある。正解率 (accuracy) とは異なる。
F値
- 再現率と適合率はトレードオフの関係
- それらを合わせて評価する F値(F尺度; F-measure)という指標もある
- F値は再現率 Recall と適合率 Precision の調和平均
F = 1 / { (1/2) * (1/Recall + 1/Precision) }
再現率、適合率のどちらを重視するか
-
システムの目的により異なる
- 良質なものがいくつかあればいい場合は適合率重視
- 漏れのないことが大切な場合は再現率重視
-
裁判所が有罪判決を出す場合には、冤罪を防ぐことが最重要なので適合率重視
- 新型コロナウイルスの水際対策(空港検疫など)で疑いのある人を隔離するのは、
実際に感染している人を100%逃さないことが目的であるので再現率重視
混同行列 (検索)
- 検索: 検索対象を「適合」「不適合」のいずれかに分類するタスク
- 「適合」「不適合」のような分類 = クラス
- 検索は 2クラス分類問題
- 混同行列(Confusion matrix): 分類結果をまとめた表
実際の クラス 判定 |
適合 |
不適合 |
適合 |
真の適合 |
偽の適合 |
不適合 |
偽の不適合 |
真の不適合 |
例 (再現率/適合率を求めてみよう)
実際の クラス 判定 |
適合 |
不適合 |
適合 |
真の適合: 70件 |
偽の適合: 10件 |
不適合 |
偽の不適合: 5件 |
真の不適合: 15件 |
Web検索エンジンの評価
- Webのように検索対象の規模が大きい場合
- 再現率は実質的に計算不能なので、近似的な評価をすることに
情報検索システムの評価方法
- テストコレクションによる評価
- 正解のクラス(適合/不適合など)を人が付与したデータ集合を用いる評価
- 検索にもいろいろな種類があるため、検索タスクごとにテストコレクションが用意される
- ワークショップとしての実施
- 同一のテストコレクションを用いて、複数の組織が結果を出す
- 結果について参加者が集まり議論
- 代表的なワークショップ
- TREC (トレック)
- NTCIR (エンティサイル)