演習問題

問題1

索引語に重み付けをする代表的な手法として、TF と IDF がある。

  1. TF, IDF それぞれの定義を述べ、それを用いるねらいを説明せよ。定義は数式でも言葉でもよいが、数式を使う場合にはその中で用いる変数も定義すること。なお、IDFの定義については logをとる部分を省略してもよい。
  2. TF, IDF は単純な指標であるため、ねらい通りに機能しないことがある。そのような例を挙げ、ねらい通りに機能しない理由を説明しなさい。

問題2

情報検索システムの検索結果を評価するための代表的な指標として、再現率と適合率(精度)がある。

  1. それぞれの定義を述べよ。数式でも言葉でもよい。数式を使う場合にはその中で用いる変数も定義すること。
  2. ある科目の過去問には問題が15問あった。労力を省くため過去問だけを勉強したとする。さて今年度の試験に臨んだところ、問題は14問で、過去問と同じ問題は7問だった。過去問と同じ問題しか解けないとすると、今年度の問題において、過去問と同じ問題を「適合」、それ以外の未知の問題を「不適合」と見なすことができる。今年度の問題における、過去問の再現率、適合率(精度)を求めよ。なお、結果は分数のままでよい。
  3. 再現率と適合率(精度)はトレードオフの関係にある。再現率を重視すべき場合、適合率(精度)を重視すべき場合をそれぞれ1例挙げよ。採点者が納得できる例であれば何でもよいが、Webのテキストの例は避けること。
  4. 再現率あるいは適合率(精度)では評価できない例を1つ挙げよ。

問題3

転置ファイル(転置インデックス)とは何を実現するものか。使用する立場から、何を与えると何が得られるものか答えよ。

問題4

ベクトル空間モデルにおいては、検索質問と文書を索引語の重みベクトルとして表現する。ベクトルどうしの類似度により文書の適合度を求め、ランキングすることができる。

  1. ベクトルどうしの類似度を計算する際に多く利用される方法は何か記せ。
  2. Web検索エンジンでは、ベクトル空間モデルではなく、索引語の重み以外の情報を用いてランキングをするのが主流である。どんな情報を用いるのか説明せよ。

問題5

言語処理技術に関する以下の問いに答えよ。ただし、対象とする言語は日本語とする。

  1. 形態素解析により得られる情報は、語の区切りの情報だけではない。それ以外に得られる情報を1つ挙げよ。
  2. 統語解析は、文内の係り受け関係を解析する。授業で扱った例「大きな黒い瞳の女の子」のように、係り受けの構造の違いにより意味が複数考えられる例を挙げ、考えられる係り受けごとにその文の意味を示しなさい。「大きな黒い瞳の女の子」以外の例を示すこと。