メールアドレス(半角):


バックナンバーは こちらから
株式会社リッテルが発行する
無料メルマガです。







東大産学連携企業株式会社リッテル

第9回マイニング探検会を更新しました

日時:2010年12月17日(金) 19:00-21:00
場所:東京大学 本郷キャンパス 東京大学アントレプレナープラザ
Ustreamアーカイブ:http://www.ustream.tv/recorded/11480803
記録:矢代寿寛
編集協力:牧野、前田、青木、田邊稔

参加者11名。風邪が流行っており、また年末ということで、少なめの参加者数でした。
今回は、清田さんによる情報推薦技術の解説「情報レコメンデーションとは」と、
「サービス作る系」「連想検索を利用したサービス」「メタデータをつなぐ系」
「究極のレファレンス」各チームの進捗報告がありました。


*「情報レコメンデーションとは」 清田さん(東京大学/リッテル)
 資料:http://www.slideshare.net/ykiyota/09-6206497

**情報レコメンデーションとは何か。
 Webではよく目にする言葉。わかり易い例。Amazonの「この本を買った人は
 この本も買っています」というレコメンド。ほかにもレンタルビデオ、eコマースなど幅広い。
 情報レコメンデーションは図書館でも使えるのではという議論をしたい。

**情報レコメンデーションとは何か。技術的な観点から解説する。
 情報レコメンデーションは情報フィルタリングの一種。
 フィルタリングの代表例は迷惑メールフィルタ。

なぜフィルタリングは必要か?

 情報オーバーロード問題がある。
 あふれている情報から必要なものだけを選ぶことは人間にとって大きな負担。

フィルタリングは二種類に分けられる。
 Passive Filtering:スパムフィルタなど
 Active Filtering:情報レコメンデーション
 Active Filteringは、人間の行動がトリガーになってレコメンデーションが行われる。

レコメンデーションがないとどうなるか。大量の情報を手探りで探さないといけない。
レコメンデーションが探索の手がかりになる。

ユーザが興味をもちそうな情報アイテムを提示。
情報アイテム:Web、書籍、音楽(iTunesなど)、映画、ニュースなどなど。

**情報レコメンデーションのタイプ(狭義の)G.Adomavicius(2005)による分類
 1)内容型(Content-based)
 2)協調型(Collaborative)
 3)複合型(Hybrid)

//G. Adomavicius and A. Tuzhilin. "Towards the Next Generation of
Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions."
IEEE Transactions on Knowledge and Data Engineering, vol. 17, no. 6, June 2005.


 1)内容型
   アイテムの情報を基に類似したアイテムが推薦される。
 2)協調型
   他人の情報を基に類似したアイテムが推薦される。
 3)複合型。
   内容型と協調型の複合型。

**広義のタイプ
  R.Burke(2002)による。
  //"Hybrid Recommender Systems: Survey and Experiments"

 1)協調フィルタリング。
 2)内容ベース。
 3)デモグラフィック。個人のデモグラフィック属性を利用。
 4)有用性ベース。利用者にとっての有用性を表すユーティリティ関数を定義。
   女性→コスメ、といった有用性の定義
 5)知識ベース。予め定義した知識ベースによる推論。こう来たらこう、というもの。
   わかりやすいのはネット広告。Overture, Google Adsなど。
   キーワードと広告が対応。
   今回は内容型と協調型について話す。GETAssocでも実現できることがある。

**内容ベース手法。
  顧客=c, 推薦候補アイテム=s
  アイテムsの顧客cに対する有用性u(c,s)
  si含むS(sに似たアイテムの集合)のcへの有用性u(c,si)によって推定する。
  ちなみに、レコメンデーションの論文の読み方は難しい。
  数学的な厳密さが求められるから。
  これをもっと分かりやすく表現してみる。

  Aさんにドラッカーの『マネジメント』が推薦できるか判断する例。
  この人にとって『マネジメント』が有用かわかればいい。
  既に見た本の履歴があればAさんが見たのと似たのを出す。
  でも、似た本とは?キーワードが似ている本。『もしドラ』など。
  買った、読んだ(評価した)、見た、の回数や滞在時間の記録があったとする。
  これらのデータから推薦できるか判断するのが内容ベース。

内容ベース手法の欠点。
  1)内容の解析が必要
    (自動的な)内容解析には限界がある。
    画像や動画や音声は特に。本だと、書誌データだけでは限界がある

  2)過剰な最適化
    ギリシャ料理を食べたことがない人にギリシャ料理は推薦できない。
    既知のニュースを推薦してしまう。このような推薦は意味が無い。

  3)新規ユーザ問題
    初めての利用者には適切な推薦ができない。

 三津石) 式について
 清田)   ベクトルの類似度計算など

**解説続き。
  協調フィルタリング(Collaborative Filtering)。略してCF
  またAさんと『マネジメント』を例に。
  すでにいろいろ履歴データがあると仮定。
  他のユーザの履歴データもあるとする。人が読んだ本の集合をもって人の類似度をはかる。
  で、似ている人が高評価したものは、有用であると推定。

CFの欠点
  1)新規ユーザ問題
    内容ベースと同じ
  2)新規登録アイテム問題
    発売されたばかりの商品は推薦できない。人が利用していないので。
  3)データスパースネス問題
    かなりの量の履歴データが必要。訪問者数などが必要。

 三津石) それなりに量があるとCFがうまくいくのは逆になぜ?
 清田)   見えないクラスタが形成されている可能性。

 三津石) 読書傾向が似ている人のものは有用だというもの。
        因果関係は明らかでないが機能しているのは不思議。
 清田)   データ量増やすと効果が大きいという現実。

**解説の続き。
  複合型の種類。

   1)内容ベースとCFの結果をマージしてレコメンド。
     郵便局の小包のサイトを例に。
     http://www.postal-jp.com/psc/ws010d01.html
     リッテルによるレコメンデーションシステムが入っている。
     アルゴリズムは一般的なものを採用。
     内容ベースの提示とCFの提示を両方並べて出している。

   2)内容ベースで得られる特徴量をCFに加える。あるいはその逆もある。
   3)別のモデルとマッピングする。例えばデモグラフィックモデルなどと。

 大別すると5つのレコメンデーションがあるということ。
 前提と入力と出力の組み合わせが異なる。基本的にはベクトル空間上で表現される。

**情報レコメンデーションの研究コミュニティー
  
  1)ACM REccomender Systems
     2007から。今年で4回目。http://recsys.acm.org/2010/
  2)Netflix Prize
     Netflixによるアルゴリズム開発コンテスト。
     プライバシー問題で2010年に中止。
     匿名化はされていたものの、別のものと付き合わせると特定が可能だった。
     OPACの履歴データ利用についてもこの点は留意が必要。
     前回の話題であるマスキング手法を考える必要がある。

**情報レコメンデーションの意味。これはマイタンぽい話。
   レコメンデーションは、ユーザに対する気づきの提供?おせっかい?
   押し付けがましいと感じるような境目とは?それはユーザの状況による?

   では、ユーザの状況をどうモデル化するか。
   一つの考え方。検索の場所・方法や目的が明確か・曖昧か。

  吉川 『サーチアーキテクチャ』(2007)p.52より作図
   http://www.amazon.co.jp/dp/4797341033
   http://webcatplus.nii.ac.jp/webcatplus/details/book/6436679.html
   場所・方法―目的×曖昧―明確をクロスした四象限の図。

   1)既知情報検索・再入手:人名など、ある場所が分かっている。検索エンジンやFAQ
   2)探求探索:どこからどう探せばいいかわからない、試行錯誤。
   3)巡回・捜索:目的は曖昧。場所・方法は分かっている。
   4)散策:ぶらぶら。
     このモデルだと、既知情報探索の人にはおせっかい?
     でもレコメンデーションはその象限に利用者を導いていくものとも考えられる。
     目的が曖昧なら明確にする。場所・方法が曖昧ならそれを明確にする。
     後者はレファレンスの役割に近い。

探す目的の階層
  動機→ドメイン→テーマ→行動。
  例:家族で過ごす→外出か家か→そこでの行動プラン→具体的な場所・方法など

**推定に使えそうな手がかり(アイデア)
  1)検索語による推定
    既知:定期的に流行する語
    探求:「方法」など。クエリの頻繁な変更
    巡回:サイト指定クエリ。サイト名など。
    散策:瞬間的流行クエリ。いまどきだけ「海老蔵」で検索するならゴシップ、
    そうでなく以前からなら歌舞伎に興味がある、など。

  2)サイト内行動による推定
    既知:サーチエンジン経由で直接。
    探求:何ページも根気よくブラウジング。
    巡回:いつも決まった時間になど。RSS経由などレファラなし。
    散策:掲示板経由など。

 矢代)  新規ユーザ問題はどうすれば解決・軽減できるか。
       モデルの流用などはできるか?
 清田)  ある程度は可能だろう

 矢代)  ユーザが推薦して欲しいものをある程度コントロールできるか。
 田邊稔) ヒアリングした結果、大学ではニーズがある。
       先輩がこの時期にどういう本を読んだか、そして成績は、就職先は?
       あるいは、ベンチャーの社長になった人が読んでいた本は?
       などのモデルケースとして知りたい、というニーズ。
       属性だけでも結構いけるのでは?
       この場合、タイプとしては何になるか?

 清田)  メディアマーカーの例。読者が自分で履歴を公開。
 矢代)  見栄で公開している嘘本棚などが与える影響について。
 矢代)  微妙な距離感がはまったりするということの定式化は?
 清田)  その定式化こそがレコメンデーションの本質。
 矢代)  費用対効果は明らかか?
 清田)  多数の利用例がある、ということが効用を物語っている。
       コンバージョン広告の場合の効果測定を参考に測ることはできるだろう。


以上が清田さんによる解説と議論の様子です。
続いて、マイタン内の各チームによる報告です。


*各チームの報告

**「サービスを作る系」 牧野(ゆうき図書館)

 「雑誌記事リストメーカーの紹介(+α)」
 資料:http://dl.dropbox.com/u/8108059/jquery-presentation-0.1.0/mitan20101217.html
 サービス:http://www.lib-yuki.com/kiji-list_maker.html
 説明:http://lib-plus.blogspot.com/2010/11/blog-post.html
 関連:http://ma6works.mashupaward.jp/oubo/456/

第2回CiNiiウェブAPIコンテストに応募し、佳作を受賞したサービス。
グループ内で第3回を目指してはどうかという提案が出ているため、
今後に向けた話題提供も兼ねて紹介。

CiNii収録雑誌記事を、ゆうき図書館所蔵に限って記事見出しと
著者名で検索してリスト化できるというもの。
所蔵雑誌記事検索が出来れば、とつくった。
バックナンバーの活用を促進できる。雑誌記事を見たいと思ったとき、
自館所蔵に限定していないと所蔵確認が必要になる。
説明のブログにまとめているので参照のこと。実際の画面を見ながら紹介する。
現在164誌をカバー。記事見出しまたは著者名から検索可。
検索すると、雑誌タイトル一覧と記事見出しを表示する。
記事見出しはOPAC検索とリンク。検索結果ページのURL指定可能。

【工夫したところ】
 NCIDと所蔵年次のリストを作成・利用。
 オフラインの図書館サービスにもつなげたい。印刷向けのフォーマット変更。キーワードにあった画像を盛り込むなど。
 APIを使ったサービスだが、比較的、作成や運用が用意。マニュアルを作成中。

【今後の展望】
 図書館のサービスとして公開予定。
 他のシステムと連携を視野に。ゆうき図書館の雑誌記事紹介ブログなどと連携できるといい。
 検索スピードなどが課題。その他、継続して改良していく。

【もうひとつ紹介】
 レファレンス協同データベースAPIを使ったもの。
 レファレンス事例Ticker。
 これは季節に関する調べ物事例を紹介するブログパーツ。
 所蔵図書と雑誌への検索にリンクしている。
 レファ協APIとYahooPipesを利用。月毎にキーワードが切り替わる仕組み。
 連想検索などへも対応したい。
 レファ協のコンテスト「API腕自慢」に応募。

 矢代)   レファレンス事例Tickerについて。
         月毎のキーワードの選定は?何か外部基準があるのか?
 牧野)   レファ協に面白い事例があるキーワードを選定。
 三津石)  もっと月毎のキーワードを増やしては?
 関戸)   雑誌記事リストメーカーについて。
         印刷用にした際に追加される画像についてはキーワードと連動?
 牧野)   現時点ではしていない。
 矢代)   画像をほかからAPIで持ってくるとバリエーションが広がるかも。


**「連想チーム」 青木(連想出版)
 連想検索バックエンドツールの紹介。
 連想検索に使うためにはいろいろやることがある。
 そこでデータを入れやすくするツールを開発した。
 端的には連想検索のデータ登録用インタフェイス。
 汎用性を持たせたので、特定の書誌形式に最適化されたデータ構造ではない。

利用方法の説明。
 予め投入するデータの項目リストを指定。
 項目ごとに連想検索の対象とするかどうかなどを指定。
 アップロードしてから、項目の対応を指定。どの項目・データがどの項目に対応するかを選ぶ。
 データが投入されると一覧できる。連想検索インデックスの作成ができる。
 連想検索に利用する/しない、形態素解析する/しない、全文検索する/しない、
 などを指定し、インデックス作成。ここまでができるツール。

 フロントエンドで見るとどうなっているか。ここではProtocol Analyzerで試す。
 今回インポートしてみたテストデータの件数が少ないので連想がされているかが
 分かりづらいが、検索は普通にできる。
 他にユーザ辞書の管理もできる。

 矢代)   項目リストは複数作れ、使い分けができるか?
 青木)   今のところはアカウント単位で作るしかない。
 田邊稔) 既存の辞書をインポートすることは?
 青木)   できるようにしたい。
 清田)   GETAssocと同梱してもいいレベルでは。


**「メタデータをつなぐ系」 日向野(東京電機大学)

 様々な機関のメタデータをwiki上でつなぐ試みをしている。
 例えば、人の情報。ここでは清田さんの著者ページを例に説明する。
 http://wiki.mi-tan.jp/wiki/Author:1

 テンプレートを用いる。機関IDの対応付け。
 本文に入れるべき情報は何かを議論している。
 概要や研究内容、キーワードなどが妥当か。
 現在は人手入力だが、量を考えると機械的にできるようにしたい。
 皆様には元リソースの提供を求めたい。

 矢代)  NIIのLODACプロジェクトと関連がありそう。
        http://lod.ac/projects/
        http://lod.ac/
        http://www.slideshare.net/kamuratetsuro/2010-share-6154812
 矢代)  変更によってURLなどが変わる可能性
 清田)  スクリプトの埋込みによる自動化は可能
 矢代)  ページとしての最低限の要素は何がなるべきか?
 清田)  集約するデータの内、最初の出典をベースにしては?
 清田)  本人にどこまで編集を許すか。Wikipediaの例
 矢代)  本人が編集していることが確実なリソースから引っ張ることで
       本人による編集の代替としては?Researchmapは本人が前提。
 関戸)  Wikipediaではページそれ自体が変わったらどうなっているか
 清田)  リダイレクトなどで対応


**「究極のレファレンス」三津石(筑波大学/ARG)
 Twitterで議論した。結果はTogetterにある。
 http://togetter.com/li/75663
 チームではなく個人的な意見としてだが、万人の正解はないのではないか。
 意見を求む。

 矢代)   発言のKJ法的な分類は?
 三津石) まだ。
 三津石) 既にあるものとしてレファ協事例の質的分析をすることで何か
        傾向が見いだせないか。
 清田)   大学図書館で分析を試みたことはある。>レファ協
 田邊稔) レファ協の場合、現場にどういう質問が多いのか、
        という入力の部分でも分析が必要になる。
 山田)   レファ協は選んで入れたものなので、統計的分析には留意がいる。
 田邊稔) 誰に向けての究極のレファレンスかをまず決めるべき。
        "万人向け"と"究極"は違うのでは?万人向けよりとんがったものの方が推薦で
        受け入れられるという議論が先ほどあった。
        あまり"究極"に捉われ過ぎない方がよいのでは。

*ログ分析の学会発表について
 田邊稔) 「ログデータを使う系」で前田さんからメールにて提言のあった
        学会発表の件で、清田先生から補足があればいただきたい。
 清田)   発表先の候補はDEIM2011や人工知能学会全国大会。
        全国大会の様に規模が大きいと埋没する可能性がある。
        発表の方向性をどうするか。フィードバックをもらうのか、
        広報的なのか、学術的なのか。書籍化という手段もありうる。
        セッションをオーガナイズするならどこか。
        オーガナイザーになったつもりで企画してみよう。
 三津石) 現場の人達の集団がアカデミックに入っていく、という図式の方がいいと思う。
        インパクトならDEIMでは。カラーの違いで目立つのなら
        自然言語処理学会とかはどうか。
 田邊稔) 確かに「現場発」の学会発表には説得力とインパクトがある、
        と同時に今後大きな意味を持つと思う。
 清田)   それぞれの性格の見極めが必要。現場の方がたくさんいて
        実験しやすいことがここの強み。工学系ではこの実験が難しい。

 他)IPSJのSIGなど、発表先の候補について


以上です。
次回の開催候補日は1月28日です。良いお年をお迎えください。


[筆者の横顔]
 矢代寿寛(YASHIRO, Kazunori)
 総合研究大学院大学複合科学研究科情報学
 専攻五年一貫制博士課程宮澤研究室所属
 個人サイト: http://sites.google.com/a/klis.tsukuba.ac.jp/yasirok/