メールアドレス(半角):


バックナンバーは こちらから
株式会社リッテルが発行する
無料メルマガです。







東大産学連携企業株式会社リッテル

第7回マイニング探検会を更新しました

日時:2010年10月22日(金)19:00-21:00
場所:東京大学 本郷キャンパス 東大アントレプレナープラザ

当日の詳しい様子は次の Ustream のアーカイブをご参照ください。

http://www.ustream.tv/recorded/10347315
http://www.ustream.tv/recorded/10347803

1. プライバシー保護データマイニング(PPDM): データマイニング研究の最前線

今回は、清田先生による「プライバシー保護データマイニング (PPDM) 」についての紹介から始まりました。マイタン内のグループでも実際のOPACの利用データを活用するサービスに取り組んでいることもあり、とてもタイムリーな話題です。当日の発表資料は、次のURLをご参照ください。

マイニング探検会#07
http://www.slideshare.net/ykiyota/07-5524651

以下では、概要のみを簡単に紹介します。

まず、データマイニングは次の理由で敷居が下がってきています。

  • データ蓄積のコストが低減
  • 計算機資源が容易に入手可能
  • 「R」や「GETAssoc」等、オープンソースのツールの拡充

しかし、データマイニングには次のような課題も存在しています。

  • 「使いやすい形」でのデータ蓄積が困難
  • データマイニングの良い結果がなかなかでない
  • プライバシー保護とデータの有用性とはトレードオフの関係

そして、今回は課題の3つ目を解決する「プライバシー保護データマイニング (PPDM)」についての話題でした。プライバシー保護の議論については、「ある情報を公開すべきかどうか」といった定性的議論はなされている一方で、定量的な議論があまりなされていないのではないかとの指摘がありました。定量的な議論の前提として、プライバシーと個人情報がイコールではないことに注意する必要があります。すなわち、どちらか一方を保護したからといって、両方を保護できるということにはなりません。その具体的な例として、link attacks の紹介がありました。 link attacks とは、正規に公開されている複数の情報を組み合わせることによって、ある人物を特定可能であるというものです。

次に、 PPDM の具体的な手法として次の3つが紹介されました。

  • k-匿名性:ある個人を他のk-1人に紛れされる手法
  • l-多様性:あるグループにおいて、少なくともl種以上の多様性を持たせる手法
  • t-closeness:あるグループ内の多様性の極端な偏りをなくす手法

最後にまとめとして、次のエッセンスが挙げられました。

  • プライバシー保護は個人情報を公開しないことで、実現されるとは限らない
  • 法が定められた精神を考えて柔軟に対処しても良いのでは

その後は、質疑が行われました。 PPDMの国内外での認識や実践の違いについての質問や、実際に各組織において、個人情報を利用したマイニング等を行うためにはどのようなことが必要かといった議論がなされました。

2. 各チーム報告

[サービス作る系]

牧野さんの発表資料は次の URL をご参照ください。

「サービス作る系」グループ@マイニング探検会 活動報告
http://dl.dropbox.com/u/8108059/jquery-presentation-0.1.0/mitan20101022.html

グループの方針として、必ずしもグループ全体で一つのサービスを作るのではなく、各々興味を持ったものを作り、それをお互いににフォローし合うことになりました。具体的な進捗状況については、次のWiki ページにまとめられています。

サービス作る系
http://wiki.mi-tan.jp/wiki/%E3%82%B5%E3%83%BC%E3%83%93%E3%82%B9%E4%BD%9C%E3%82%8B%E7%B3%BB

今後は、各々の企画を進めていき、適宜マイタンで進捗報告を行うとのことです。また、新企画「図書館ウェブデザインを見直す」企画については、メンバー募集中だそうです。

[究極のレファレンス]

チームとしては、12月中にレファレンス協同データベースの APIコンテストに応募することを一つの目標とすることになりました。また、現在までに作られた「レファ協おすすめ図書館(仮)」など2つのサービスのデモが行われました。

[連想検索を利用したサービス]

連想検索に入力するデータを何にするかを決めるところが重要であるということについて議論されました。今後は、メンバー間での連想検索の共有をするためにどこかで勉強会を開く予定とのことです。

[OPAC検索ログによるキーワード補完計画]

前田さんの発表資料については、次の URL をご参照ください。

OPAC 検索ログによるキーワード補完計画(第2回)
https://mbc.dl.itc.u-tokyo.ac.jp/lecture/OPAC_serachlog_and_keyword_02.pdf

OPAC 検索ログによるキーワード補完について、システムのデモおよび、それに対する議論が行われました。今後は細かいパラメータのチューニングも行うとのことです。

「ログデータ使う系」チームが新規に立ち上がりました。詳しくは次のWikiへ。

マイタンwiki: ログデータ使う系

[メタデータつなぐ系]

メタデータつなぐ系は、今後の活動はメタデータ連係ウィキの活用するため、各機関のフォーマットを提示してもらっている段階です。構成員が大人数ということもあり、連携がまだ完全にとれていないので、今後一度集まる機会を設けたいとのことです。

次回マイタンは11月19日(金)を予定しています。

(文責:三津石 智巳)