= 今回の内容 =
* 清田さんより話題提供「研究内容紹介:自然言語処理技術の情報検索への応用」
* テーマ一覧(マイタンwiki
http://wiki.mi-tan.jp/wiki/%E3%83%86%E3%83%BC%E3%83%9E )のうち、1チームからの発表
** ログデータ使う系 http://wiki.mi-tan.jp/wiki/%E3%83%AD%E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%BF%E3%81%86%E7%B3%BB
* 今後(次年度)マイタンの方向性について討論
== 記録 ==
* twitterハッシュタグ→ #mitan
* ustream→ 第11回マイニング探検会 on USTREAM: .
http://www.ustream.tv/recorded/12589278 (アーカイヴあり)
= 清田陽司(株式会社リッテル)「研究内容紹介:自然言語処理技術の情報検索 への応用」 =
* プレゼン資料→ http://www.slideshare.net/ykiyota/11-6919322
* 自己組織化マップによる製品ニュース記事の整理システム(1999)
* 自動要約によるweb全体のKWICインデックスの生成システム(2001)
* 大規模テキスト知識ベースに基づく自動質問応答システム「ダイアログナビ」
(MicroSoftとの共同研究)(2003-2004)
......といったことを研究してきたが、今日は三つめの「ダイアログナビ(マイクロ ソフトと共同で
作成。用語集・ヘルプ・技術サポート情報などから必要な情報を対話的に探すシステム)」について、
研究の背景から実装・検証過程までを概説
(ダイアログナビの紹介→ http://www.ar.media.kyoto-u.ac.jp/msnavi/ )
== 研究の背景 ==
PC・家電などの複雑化、ノウハウが必要になってきたが、様々な問題点も出てきた。
* 質問への答えにたどりつけない
* 質問とテキストに表現のギャップがある
* 質問とテキストに具体性のギャップもある「windowsでエラー発生」
→(解決にたどりつけないくらい)大量にヒット
* エキスパートやコールセンターは、どうやって解消しているか?→ インタラクション。
ギャップを吸収する能力もある
== 情報検索のモデル ==
要求、と情報集合をマッチング→合致する情報を返す←「自然言語処理技術」、が必要になる。
以下、「検索ギャップ」解消の工夫
* 同義表現辞書の充実
* 否定表現フラグ
* 文末表現の削除
......といった、もろもろの積み上げで少しずつ精度が上がっていく。何かひとつ、
決定的な技術が存在しているわけではない。たとえばGoogleの場合でも、pagerankだけで検索の
精度が高まっているのではない
== 失敗例の分析 ==
* 同義表現の(量的)不足→辞書への用例追加
* 重要でない箇所とのマッチング→文末への重みづけ
* 「係り受け重みづけ」の副作用→最新の自然言語処理技術の利用で改善
1%ポイントずつ、くらいの地道な向上
=== 失敗例を受けて、の対処 ===
* 換喩表現への対応
* 換喩の例。「漱石を読む」「トヨタを買う」「エラーが出る」「JPEGで保存」「電源を入れる」
「アドレスを開く」......etc.
* 対話カードによる具体化(インタラクション)
失敗例を調査・修正していき、「成功率」を60%台→70%台に向上。
== 研究した上でのまとめ ==
* ユーザーの「具体的」でない質問と回答とのギャップをシステムでサポートする、というのが
清田先生の研究の方向性
* 実運用評価が必須。その上で情報検索プロセスを説明するモデルが必要
* この方法論の応用(の一部)として、リッテルナビゲーター(http://www.littel.co.jp/product/navigator.html )がある
* 質疑応答
* Q: 運用評価が必須、とあるが、運用期間等の規模(件数・調査期間)はどれく
らい?
* A: (計算機による解析を前提とすると)最低でも数万件。人間が見る場合でも千件はほしい。
運用評価期間は6ヶ月くらい
* Q: 漠然としたものを具体化していく過程は人の方が得意なはず。マンパワーを補助的にくみこむ
アプローチ、はあるのか?
* A: 大学、のようなドメインではありうる。シラバスは有効な資源になりうる。
* Q: ユーザー側の属性や個人情報を活用した検索マッチング、というアプローチはどうか?
* A: 開示の方法をどのようにするか、が問題。有効ではある
* Q: 「対話カード」はどうやって作ったか?
* A: microsoftのサポート事例をクラスタリングして作成。対象ドメインが定まっていれば作るのは
比較的簡単
* Q:「カフェバー」という単語の意味が時代とともに変わってきている(「カフェ=いかがわしい」
から「カフェ=オシャレ」へ変化)、というような例への追随
* A: 年代によってクラスタリングする、といった方法論がありうるが、本来システム化は人間しか
できないところ、のためにある。図書館は、本の貸出といった業務よりも、人間でないとできない
ことに注力して欲しい
* Q: 換喩、といいまちがいの区別をどうした、か
* A: 大量のテキストコーパスと質問をぶつけて処理。Googleが「もしかして:」で実現できている
のも、結局は大量のコーパス、が活きている。(「ダイアログナビ」の場合ではバイト数でいうと
数十〜数百MB。印刷物でいうと新聞記事十年分、程度。)
= 「ログデータ使う系」チーム発表●前田朗(東京大学)
「東大OPACログを用いた学術関連用語の提示」 =
* マイタンwiki→ http://wiki.mi-tan.jp/wiki/%E3%83%AD%E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%BF%E3%81%86%E7%B3%BB
東京大学OPAC検索ログデータによる関連語提示について、メリットとリスク対策を説明
*メリット
* (amazonのように)大学OPACでも集合知を活用できないか
* 貸出ログによるリコメンド機能。九州大学ではすでに実現中?
* 利用者コメント機能。vufind等、海外のOPACでは機能として持つものもある
* 「キーワード補完」←ここはあまり進んでいないのでは? →ならば手をつける価値がある
* 「学術分野に特化した」(オントロジーなどの人手によらない)関連語提示の実現。
* 「キーワード補完ノウハウ」の手法を公開、一般化していくことで学術研究発展・社会貢献、に
* 手法の説明
* 当面、検索式のみを利用中
* GETAssoc/言選webを利用
* 「用語・用語行列」もしくは「検索式・用語行列」を作成し、用語から他の用語を連想させる
* リスク
* 特殊なキーワードから個人が推定できてしまう可能性がある
* 自分が考えたキーワードの組み合わせを知られたくない
* IPアドレス(研究室が推定可能)は使っていないので、そこからの個人情報漏えいリスクはない
* 対策案
* 他の検索式と組み合わせ結果を出すよう保障する→「似た検索クエリの繰り返し」対策も考えたい
* ゼロ件ヒットの検索式を除く→蔵書の書誌中の語に限定されるため特殊な用語が減る
* 東大の構成員に利用を制限する。MyOPACでログインした場合に限定
* 関連語を他の仕組みで出し、OPAC検索ログは「学術用語」フィルタとして使う
* など
* テキストマイニングの性能やプライバシーリスクを考えると、データ量が多いほうが有利
* 慶応大学OAPCログであれば、2002年以降の検索ログがあるため、東京大学(半年分)より有利
== 発表場所・時期について ==
* FIT/情報科学技術フォーラム(2月) or 図書館総合展(11月)での発表?
* 時間の余裕とか考えても、図書館総合展、か。ただし、一枠(90分)30万〜くらいかかるので、
清田先生の講演ほか、いくつかの発表をくみあわせてはどうか(岡本)
= マイタン次年度についての討論 =
* 2011年度マイニング探検会叩き台●三津石智巳(筑波大学・ARGインターン)
* 参加者の各レベルに応じて中長期的にスキルアップできるように以下の3メニューを用意
* 3ヶ月単位?くらいで次レベルへの移行が目標、最終的には全員が上級にたどり着くように
1. 初級(学部レベル):システム・サービスのデザイン
* 「知識情報系」の問題に対し,図書館や出版等の現場の視点からサービスを考案
* 実用的価値がありそうなシステムが考案できた場合、実装は外部(リッテル?)に委託
* 実用的なサービスのプロデュースやデザイン経験が目的
2. 中級(修士レベル):既存のシステムの改良・機能追加
* 既存のシステム (例: リッテルナビゲータ) をライブラリアン視線から見て改善したいことや、
追加した方がいいという機能があればそれを実装
* ある程度はっきりした問題に対して技術的に実装できる能力を身につけることが目的
3. 上級(博士レベル):問題を自分で考案・解決し、アウトプットする
* (今までのマイタンと同じような内容) 各自の問題意識に沿って、システムやサービスを開発し,
何らかの形でアウトプット
* 例えば,学会や論文投稿というようなアウトプットの場合には清田先生にサポートしていただく
* 図書館総合展のフォーラム?でのアウトプット
== 出てきた意見 ==
* 必ずしも「コードが書ける」というところがゴール、と設定しなくても良いのではないか
* 欲している能力にあわせてメニューを選ぶ、もしくはメニューを順番に回していくのでも
良いのではないか
* webプロデュースの場では、「画用紙にイメージを描けるか」という方法論がある。
動作イメージを伝えたかったら、紙を貼りつけて「飛び出す絵本」にすればいい
* コード書ける人、提案できる人、間をつなぐ人、という役割があって、そこからものを
作り出していく、という方法論が見出せると良いのでは
* ゴールとビジョンを共有するために、4月合宿。7〜8月に原稿提出→11月の図書館総合展で発表、
でどうか。
と、いうことで4月の土日、あるいは日月で合宿しよう、ということに。
== 次回・次々回日程 ==
* 2011年3月11日(金)会場は同じく東京大学アントレプレナープラザにて