Webページの扱い

Webページは HTML (HyperText Markup Language) の仕様に基づき記述されている HTML 文書 (HTML document) である。タグにより文書構造がマークアップされている。

Webページから情報を抽出する際、抽出箇所を文書構造により特定したい場合や、単にタグを除去してテキスト部分を得たい場合がある。

リンク要素をすべて調べてリンク先一覧を作りたい。
ある単語がページ内に出現しているか調べるときにタグを無視したい。

これらの処理は、文字列操作により実現することもできるが、 HTML文書の構造を解析して木構造を生成する HTMLパーサ を利用するのが適切である。

HTMLパーサ

jsoup

jsoup: Java HTML Parser (公式ページ)
HTML5, DOM, CSS に対応。
jsoup使い方メモ (Qiita)

HTML Parser

古い HTML parser。2006年で開発が止まっている。
使い方

Swing 付属の Parser

javax.swing.text.html.parser.Parser
Java SDK に付属している (1.2 より)。
HTML 3.2に準拠している (とても古い)。
間違ったHTMLの解析も試みる。
多少取り扱いは繁雑, あまり美しくない

Swing 付属の HTMLパーサの使用例

import javax.swing.text.*;
import javax.swing.text.html.*;

Reader reader;   // 適当に生成されているものとする
EditorKit kit = new HTMLEditorKit();
Document doc = kit.createDefaultDocument();
try {
  kit.read(reader, doc, 0);
  ElementIterator it = new ElementIterator(doc);
  Element elem;
  while ((elem = it.next()) != null) {
    System.out.print(
      "Element " + elem.getName() +
      "(" + elem.getStartOffset() + "-" +
        elem.getEndOffset() + ")");
  }
} catch (Exception e) {
  e.printStackTrace();
}