メールアドレス(半角):


バックナンバーは こちらから
株式会社リッテルが発行する
無料メルマガです。







東大産学連携企業株式会社リッテル

第10回マイニング探検会を更新しました

= 今回の内容 =

* 清田さんより話題提供「データ処理のパラダイムシフト」
* テーマ一覧(マイタンwiki http://wiki.mi-tan.jp/wiki/%E3%83%86%E3%83%BC%
E3%83%9E )のうち、以下の2チームからの発表
** ログデータ使う系 http://wiki.mi-tan.jp/wiki/%E3%83%AD%E3%82%B0%E3%83%
87%E3%83%BC%E3%82%BF%E4%BD%BF%E3%81%86%E7%B3%BB
** サービス作る系 http://wiki.mi-tan.jp/wiki/%E3%82%B5%E3%83%BC%E3%83%93%
E3%82%B9%E4%BD%9C%E3%82%8B%E7%B3%BB

== 記録 ==
* twitterハッシュタグ→ #mitan
* ustream→ 第10回マイニング探検会 on USTREAM: . http://www.ustream.tv/
channel/mitan10 (アーカイヴあり)


= 清田陽司(株式会社リッテル)「データ処理のパラダイムシフト」 =

* プレゼン資料→ http://www.slideshare.net/ykiyota/10-6731429
* データサイズの爆発的増大、それを支えるコンピュータ側の指数関数的なパフ
ォーマンス向上、データ処理自体へのニーズの変化
(定型処理から非定型処理)、という背景説明
* 大量データを処理する、というニーズに応え、ちゃんとスケールアウトするソ
フトウェアフレームワーク「Hadoop」の仕組みの紹介
** 数テラバイト以上のデータの処理を想定している。facebook、yahoo、楽天、
クックパッド、リッテルナビゲータなど導入事例は国
内外を問わず多い
* データマイニングの鉄則「量が質に転化する」。たとえば、「一週間、一店舗
の精密な売り上げ情報」よりも、「数年単位、全国の
大まかな売り上げ情報」の方がより的確な判断を下せる、という考え方
* 告知。TP&Dフォーラム( http://tpd.eplang.jp/ 8/19〜20)の宣伝。熱海で温
泉につかりながら情報管理について議論しよう

* 質疑応答
** Q: web系では特にリアルタイムが注目される現在,バッチ処理がはたしてど
ういうところに効いてくるのか?/A: リアルタイムが
重要視されているのはその通りだが、バッチ処理がダメ、ということではない。
むしろリアルタイム処理のためのデータ構造を決定す
るために、バッチ処理によるマイニング、という側面もある。ビジネスの意思決
定、といった非定型な処理はリアルタイムである必要
はない
** Q: Hadoopが必要になるデータ規模は? たとえば図書館一館で必要になるか?
A; どのようなデータを処理するか、にもよるが、公
共図書館単館ではおそらく不要。NDL、NII、JSTクラスであれば有効かも
** Q: Hadoopが「すごい」のはどこら辺なのか? /A: 概念自体は1970年代にす
でに存在していた。これをPCサーバレベルでちゃんと
動くように実装したところがポイント
** Hadoopha,国立国会図書館サーチ(開発版) ( http://iss.ndl.go.jp/ )のどこ
ら辺で使われているのか?/A: 計算コストが高い部
分、具体的にはインデクシング・著者の名寄せ・著書の同定処理に使っている
** Q: 「リアルタイム/バッチ処理」の区分けをどう考えると理解しやすい?/A:
業界・業務によって変わってくるが、たとえば「基
幹システム」と呼ばれているものはリアルタイム処理が前提。図書館業務で言え
ば貸し出し処理。銀行や店のレジ処理等、お金関係は
おおむねリアルタイム。売り上げの解析などの統計処理がバッチ処理


= 「ログデータ使う系」チーム発表●前田朗(東京大学) 「OPAC検索ログによる
関連キーワード提示のさらなるビジョン」 =

* プレゼン資料→ http://www.slideshare.net/genroku/ss-6739283
* マイタンwiki→ http://wiki.mi-tan.jp/wiki/%E3%83%AD%E3%82%B0%E3%83%87%
E3%83%BC%E3%82%BF%E4%BD%BF%E3%81%86%E7%B3%BB
* 概要としては、OPACの検索語ログデータをソースに、さまざまなアプローチで
用語を抽出し、GETAssocで連想マッチしたキーワード
を表示(キーワード補完)する
* 「さまざまなアプローチ」としては以下が考えられるが、言選Webが一番バラ
ンスが良さそう
** 入力そのまま
** 言選Web
** 形態素解析して、日本語名詞のみ取り出す
** KIWIシステム手法(東大中川研究室)
** 学術研究、という前提があるので、誰がキーワードを入力したか(「同業者」
が見ると)推測できてしまう。プライバシーへの配慮が必要
** 入力ソースについても、OPAC検索ログ以外の可能性を探る
** インターフェースの作成がかなりの難関。作成してくれる人募集
** 成果発表については、年度内にとにかく出す、から、じっくり取り組んでい
く、に方針変更。大きな理由としてはプライバシー問題。OPACのログを使うため
には図書館に有用性とプライバシー上の危険度を説明し、許諾を取りたい。その
要件をテーマに学会発表を考えている
** 発表形態について、「イベント企画」を考えてはどうか
** イベントの場として、FIT2011 第10回情報科学技術フォーラム http://www.
ipsj.or.jp/10jigyo/fit/fit2011/index.html はどう
か、もしくは第13回図書館総合展はどうかと岡本さんから提案あり


= 「サービス作る系」チーム発表●関戸麻衣(国立情報学研究所) 「現在の話題」
=

* プレゼン資料→ http://www.slideshare.net/skdmai/20110128-6751602
* マイタンwiki→ http://wiki.mi-tan.jp/wiki/%E3%82%B5%E3%83%BC%E3%83%93%
E3%82%B9%E4%BD%9C%E3%82%8B%E7%B3%BB
* ひとり12時間枠 CiNii APIチャレンジ。前田さんがプログラマーとして動いて
くれる、という提案。当初1〜3月、ということだった
が、こちらも年度内にこだわらず、(来年のAPIコンテストを意識して)7月、8月
でも良い
* 「作りたいもの」の紹介
** CiNiiの目次生成ブログパーツ
** CiNiiのリッチ表示版
* マイニング技術とCiNiiのマッシュアップ。CiNiiの検索結果を決定木にかけて
みる
* CiNii APIのためのJavaScriptライブラリやJSONP環境の提供→可能だが、個人
的なサーバでサービス提供することの継続性やNIIがど
う「承認」するか、といった問題はある(小野(一橋大学))


= 主宰 岡本さんより =

== リッテル子会社化報告 ==
* 「子会社化」というと日本的にはあまりピンとこないかもしれないが、研究開
発メインの会社が、こういう堅実な会社に正当に評価
された、ということ。日本の情報処理研究者が作った会社が、この規模の会社に
買収されたのはもしかしたら初めてかもしれない。皆
さんには誇りに思って欲しい
* 今年度いっぱいはリッテルを維持。今後はネクストのR&D部門として活動予定
* マイタン会場変更もありうるが、少くとも3月まではこのまま

== 今後について ==
* 一年、という期限で場所の提供などもお願いしてやってきたが、今後はこちら
からリッテルに提案していく必要がある
* が、3月で終了、ということはなさそうなので、継続して「第二期」を引続き
やります
* 幽霊部員、フリーライダーお断り、としたい。メンバーの入れ替えを考える
* 運営方法について、三津石さんより。「作れる人」とそうでない人の差が激し
い。ゼミに例えると、マスタークラスの人は課題を見
つけて進められるが、学部生レベルの人を支えるための仕組みを作れないか→以
降、MLで議論を続ける
** 自分のテーマを、自分で実装して、公開、また、学会やイベントで発表
** 既存サービス(たとえばリッテルナビゲータ)の改良を提案
** 自分では作らない。アイディア出し→リッテルにサービス化してもらう
* 新規メンバー候補、自薦・他薦で
* さまざま、報告・告知
** ハイパーネットワーク2011ワークショップ[共生プログラミング・キャンプ]
http://www.hyper.or.jp/staticpages/index.php/ws2011/
** 2011-01-18(Tue): 第11回ARGカフェ&ARGフェスト@宮古島への招待(2/6
(日)開催) | ACADEMIC RESOURCE GUIDE (ARG)
http://www.arg.ne.jp/node/6908
** レファレンス協同データベース事業 第7回フォーラム開催要項 http://crd.
ndl.go.jp/jp/library/forum_7.html

== 次回・次々回日程 ==

* 2011年2月10日(木)会場は同じくリッテルにて
* 2011年3月18日(金)・19(土)を候補に調整