検索対象の表現形式

人が検索したいものはさまざま。

Webページ
テキスト, 画像, 映像, 音,...
書籍, 写真, 映画, 音楽,...
空いている宿, ログイン中のユーザ, 仲良くなれそうな人,...

これらを情報検索システムの検索対象とするには、検索対象を表現する何らかの情報を検索システムに与えなければならない。

検索対象についての情報

図書館の蔵書検索: 本1冊につき、書名、著者名、出版社名などの情報を与える。
楽曲の検索: 曲1曲につき、曲名、アーティスト名、作曲者名などの情報を与える。

これらの情報は、検索対象そのもの、例えば本なら本文、楽曲なら音声データではなく、検索対象についての情報である。このような情報をメタ情報と呼ぶ。

メタ情報に対する検索

メタ情報に対する検索
- 図書館の蔵書・デジタルコンテンツの検索
  検索対象: 書誌情報、キーワード、抄録など
  - 国立国会図書館オンライン (国立国会図書館所蔵のもの)
  - 国立国会図書館サーチ (全国の図書館・大学など所蔵のもの)
- テレビ番組の検索
  検索対象: 番組情報(番組タイトル、出演者名など)
  - Yahoo!JAPAN テレビ
- 画像検索
  検索対象: キャプション、周囲のテキストなど
  - Web: Google, Yahoo! JAPAN
  - Twitter: twitter公式
- 音楽検索
  検索対象: アーティスト名・曲名など
  - 音楽配信サービス: Apple Music, Spotify

情報そのものに対する検索

情報そのものに対する検索 - 全文検索(文書の本文すべてが検索対象)など
- Webページ検索
- Webアーカイブ検索
  - WARP: 国立国会図書館インターネット資料収集保存事業
- 書籍の本文検索
  - Google Books
  - Amazon「なか見！検索」
- 色で画像検索
  - Multicolr Search Lab (flickr の画像の中から検索)

テキスト以外のメディアの検索

検索語で検索

検索語はテキストなので、同じくテキストであるメタ情報を検索するしかない。

検索語以外で検索

一部実用化されている。

画像による類似画像検索
- Google 画像検索 (カメラのアイコンをクリック)
- TinEye
  https://www.dendai.ac.jp/about/tdu/campus/e5vdec00000009di-img/campus_tokyo_senju_01.jpg
画像による種の同定
- Googleレンズ (動植物の画像から種の同定)
- PictureThis (花の画像から種の同定)
- GreenSnap (花の画像から種の同定)
鼻歌による曲の検索
- Google検索の機能
- SoundHound
流れている音楽による曲の検索
- Shazam (Siriで「この曲は何？」と尋ねても呼び出される)

テキストの検索

テキストなら内容の検索ができるかというと、歴史的にはそうではない。

蔵書検索: タイトル、著者、抄録などのメタ情報で検索
Amazon の書籍検索も、たいていはメタ情報のみが検索対象
全文検索: 本文に現れる語がすべてで検索可能
Web検索、PC内の検索、Amazon の「なか見検索」

本の内容が電子化されたのは比較的最近。
電子化されていても、その情報が検索システムに提供されるとは限らない。
例: 出版社は Amazon にテキスト情報を提供したがらない。

電子図書館

電子図書館(digital library)が時代の流れ。

Googleブック検索
国立国会図書館でも資料のデジタル化が進められている。

索引付け

検索語によって検索をする場合、検索対象も語によって表現しておかなければ、検索結果を求めることができない。

検索対象を表現する語 1つ1つ: 索引語(index term)
それらを検索対象に付与すること: 索引付け(indexing)

検索対象がテキストである場合、索引にふさわしい語を本文から取り出すことが索引付け。

索引(語)の単位

単語 (単純語)
- 「情報」「検索」
複合語
- 「情報検索」
文字の連続 - N-gram
- 「情報」「報検」「検索」 (bi-gram)
- 「情報検」「報検索」 (tri-gram)

文書を表す単語の集合

多くの情報検索システムでは、文書を単語の多重集合(multiset)として扱う。集合なので単語の出現順序は問わず、個々の単語の出現頻度のみを保持する。この文書の表現方法を bag-of-words model と呼ぶ。

bag of words でできること

単語による文書検索
文書をベクトルに見立てた類似文書検索

bag of words ではできないこと

文の意味、文脈など、語だけでは表現できない情報による検索
文書の構造(見出し、段落など)を考慮する検索

文を単語に分割

日本語文を単語に分割するためには形態素解析 (morphological analysis) が必要。

MeCab
- 本体のほかに辞書が必要。Windows版には辞書が含まれている。
- Debian, Ubuntu, Vine Linux ではパッケージが提供されている。
- 辞書や連接表はテキストファイルなので覗いてみるとよい。
JUMAN
- 「JUMANを試してみる」で体験できる。
日本語解析器 KWJA
- 汎用言語モデルに基づく統合的日本語解析器。
- GitHub
- スライド

不要語リスト

内容語(content word) - 特定の概念を表す語 (名詞、動詞など)
機能語(function word) - 語と語の関係を表す語 (日本語の助詞、英語の前置詞など)

機能語は一つ一つが極めて多くの文書で利用されるため、機能語は文書を特徴づける役割を果たさない。よって索引にはふさわしくない語と言える。

機能語ではないが、「こと」のような形式名詞、「する」「やる」といった動詞は、やはり索引としては不適切。

このような索引にふさわしくない語を排除する方法の一つとして、排除する語(stop word)のリスト(stop list)を作成する方法がある。

SMART システムの stop list

不要語リスト

単独では索引語としてふさわしくなくても、他の語と複合することにより特定の概念を表すものがある。また、最近の Web検索エンジンでは連続した単語列による検索をサポートしているので、一般に不要語とされている語でも索引づけされている。

Google で「を」を検索 (約46億件ヒット)

言語表現の多様性

言語表現には、以下のような多様性がある。

語選択の多様性: 同じ概念でも異なる言葉が用いられることがある。「パソコン」「PC」
語形の多様性: 同じ語でも構文上の制約により語形が異なることがある。「play」「played」

同じ概念であれば、言語表現が異なっても検索にマッチすることが期待されることが多いと言える。

Google で「PC」を検索「パソコン」も同時に検索される
Google で「インタフェース」を検索「インターフェース」も同時に検索される

語形の多様性

英語の場合

接辞処理 (stemming) により表現を正規化。例えば、「played」を「play」にする。「ed」などの接尾辞は重ねてつくことがあるので、ルールを繰り返し適用するタイプの手法が考案されている。 Porter の手法が有名。

日本語の場合

形態素解析により活用語尾を原形にする。例えば、「走って」を「走る」にする。形態素解析システムは、活用型と活用語尾の情報をルールとして持っている。

索引語の重み付け

索引語が決定できたとして、各語の重要度はどう考えたらいいだろうか。

語に重要度を表す尺度を与えることを、語の重み付け (term weighting) という。

語の出現頻度 tf
文書頻度 df

語の出現頻度

ある文書 d 中に出現する語 t の頻度を tf (term frequency) と呼ぶ。

「何度も繰り返し言及される概念は重要な概念である」(Luhn, 1957) という仮説より、 tf の値が大きい語ほど、その文書において重要な語であると言える。

ただし、一般的な語は多く使われていたとしても文書を特徴づける役割を果たさないので、それらを考慮する手法との組み合わせが必要となる。

一般に文書の長さが長いほど、tf の値が高くなりやすいと言える。これでは長い文書ほど重要になってしまうので、なんらかの方法で tf の値を正規化することが望ましく、例えば次のような手法が考えられる。

文書中のすべての語の出現数で割って正規化
文書中の語の異なり数で割って正規化

IDF

ある文書集合において、ある語 t が出現する文書数を文書頻度 df (document frequency) と呼ぶ。

多くの文書で出現する語ほど、文書を特定する能力は低い、つまり、df(t) の値が大きいほど、重要ではないことになる。

語の特定性を表す尺度として idf (inverse document frequency) がある。これは df の逆数に近いものであり、出現する文書数が多いほど値が小さくなる。

idf(t) = log(N/df(t)) + 1

ただし、N は全文書数。

索引語の重み

tf と idf は異なる視点からの重み付けであり、どちらも高いことが望ましい。そこで、tf と idf の積で語の重みを表現する。この手法を tf-idf と呼ぶ。

tf-idf

文書 d における語 t の重み w(t, d) は、次のようになる。

w(t, d) = tf(t, d) * idf(t)

検索質問の表現

検索対象の表現ができたとして、検索質問の表現は?

検索質問 (query) の代表例:

自然言語による表現
索引語の集合による表現
論理式による表現

これらは言語で表現することができる場合に限られる。なお、対話型のシステムでは、徐々に検索質問を絞り込むことができる。

自然言語による表現

人間にとってもっとも自然なのは、普段話している言語(自然言語)により質問をすること。

生きる理由、目的は何ですか？ (Yahoo! 知恵袋)

人間の考える質問は、複雑であったり、曖昧であったり、単純ではないことがある。 QAサイトに投稿される質問を解析することを考えてみると、答えを探す以前に、何を答えるべきか考えてしまうような質問も少なくない。

自然言語による検索質問は、Microsoft のオフィス製品などで古くから導入されていた(カイル君)。質問内容を理解しているわけではなく、文から自動的にキーワードを抜き出している。

索引語の集合による表現 / 論理式による表現

索引語の集合による表現

空白で区切られた複数の索引語を検索質問とする方法で、 Web検索エンジンでは、検索質問を構成するすべての語を含む文書の集合を結果とすることが多く、 AND 検索となっている。

"" でくくることにより、複合した索引語に対応している場合もある。

論理式による表現

古典的な手法で、AND, OR, NOT といった演算を用いた論理式で検索質問を表現する手法。 Web検索エンジンでは、一般に「-」による NOT の演算だけをサポートしているが、詳細検索でさらに複雑な論理式に対応する条件指定ができる場合もある。

論理式を用いる場合、索引語の個々の重みを考慮することができないという欠点がある。

検索質問拡張

ユーザが検索質問として入力する語が、ユーザの検索意図を正しく反映していることはまれである。何らかの方法で検索語を追加することにより、よりユーザの意図に近い検索質問を生成する手法のことを 検索質問拡張 (query expansion) という。

ある概念を表す語が複数存在することがある。

「食事」と「ご飯」
「教科書」と「テキスト」
「高校」と「高等学校」
「大学」と「最高学府」

同じ概念を表す語をまとめておき、ある語で検索されたときに、その語と同じ概念を表す別の語でも同時に検索するようにすれば、検索漏れを減少させることができる。例えば、「教科書」が検索語であったときに、「テキスト」でも同時に検索すれば、検索質問に適合する文書をより多く探すことができる。

この手法では多義語の扱いが問題になる。「テキスト」は「教科書」の意味で使われていることもあれば、「文章」の意味で使われていることもある。「テキスト」で検索すると「文章」の意味で使われている文書もヒットしてしまうため、ノイズが増える。つまり、再現率は上がるが、適合率が下がる。

情報アクセスと知的処理 (3)

検索対象の表現と索引付け

本日のゴール

検索対象の表現形式

検索対象についての情報

メタ情報に対する検索

情報そのものに対する検索

テキスト以外のメディアの検索

テキストの検索

電子図書館

索引付け

索引(語)の単位

文書を表す単語の集合

bag of words でできること

bag of words ではできないこと

文を単語に分割

不要語リスト

不要語リスト

言語表現の多様性

語形の多様性

英語の場合

日本語の場合

索引語の重み付け

語の出現頻度

IDF

索引語の重み

tf-idf

検索質問の表現

自然言語による表現

索引語の集合による表現 / 論理式による表現

索引語の集合による表現

論理式による表現

検索質問拡張