科目の位置づけ・概要
- 選択科目です。
- 講義および演習の科目で、プログラミングの演習があります。後半に時間かけて作成する課題があります。
- 3年次科目「知的処理および演習」の前提科目です。
この科目は AI・自然言語処理・情報推薦に興味がある人が履修する科目です。
- 本科目では、データの記述、収集、処理などの技術について学びます。
また、応用として、Web上のデータを取得して組み合わせるマッシュアップの演習があります。
環境
テキスト
- データとその表現
- データの収集と処理
- Web上のデータの取得
- ストリームを用いたファイルの読み込み
- ストリームを用いたWeb上のリソースの取得
- 文字列の処理
- フィード (RSS/Atom)
- XML文書とDOM
- Webサービス (Web API)
- HTML文書とDOM
- 形態素解析の利用
- 感情分析 [参考]
- サンプルプログラム Python版
- 補足
- 最終課題: 自分の好きなテーマでマッシュアップ
- 複数のリソースから得られる情報を組み合わせて有益な情報を得る
マッシュアップのプログラムを作成しましょう。
- 上記プログラムのレポートを書きましょう。
- 発表会: 第14回
Boxで「データエンジニアリング(2025)」
という名前のフォルダが共有されています。
その中に各回のフォルダが用意されていますので、
出題回のフォルダの直下に学籍番号のフォルダを作成し、
その中に提出物をコピーしてください
(Box Driveの利用をおすすめします)。
なお、他の人と同じファイルを提出すると 0点以下の点数になります。
- 課題4
- 課題4: Webページからの情報抽出 (正規表現を使用)
Yahoo! ショッピングの任意の商品のページを取得し、その商品の送料を調べましょう。
正規表現を活用してください。
また、送料の値を整数値として得るようにしましょう。送料無料の場合は 0、送料不明の場合は -1 の値を取るようにしてください。
- 「送料〇〇円」の「〇〇」の部分を抜き出す正規表現を考えてみましょう。送料が4桁以上の場合、3桁ごとに「,」が入ることに注意しましょう。
また、HTMLのソースでは送料の値の前後にHTMLのコメント <!-- --> が入っていることに注意してください。例えば「送料<!-- -->1,190<!-- -->円」などとなっています。
- NumberFormat クラスを用いて、文字列を数値に変換しましょう。例外処理を忘れずに。
- ファイル名: YahooShoppingShippingExtractorIntValue.java
- 提出先: 授業フォルダの第04回
- 提出期限: 次回の前日 22:00
- 課題3
- 課題3: Webページからの情報抽出 (Stringクラスのメソッドを使用)
Yahoo! ショッピングの任意の商品のページを取得し、その商品が送料無料か調べましょう。
調べた結果はコンソールに表示してください。
String クラス
のメソッドを活用してください。
- 提出先: 授業フォルダの第03回
- 提出期限: 次回の前日 22:00
- 課題2
- 課題2: 「妥当な」XML文書ファイルの作成
自分が記述したいデータを決め、そのデータを記述するのに適したデータ記述言語を設計し、
実際にデータを記述してください。
記述する対象は、趣味のデータでもなんでもかまいません。
データ記述言語を設計するにあたっては、
意味的に適切な構造を持つようにしてください。
意味的に適切な構造を持つとは、例えば、実世界で階層構造を持つものは、
XMLの構造上も階層構造を持っている、といったことです。
5階層以上の構造を持つようにしてください。
- 提出先: 授業フォルダの第02回
- 提出期限: 次回の前日 22:00
- 課題1