メールアドレス(半角):


バックナンバーは こちらから
株式会社リッテルが発行する
無料メルマガです。







東大産学連携企業株式会社リッテル

第19回マイニング探検会開催報告

第19回マイニング探検会
 
====================
日時:12月16日(金)19:00-21:00
場所: 株式会社ネクスト 本社 3階会議室
 
 
スケジュール:
19:00-19:30 清田先生講義
19:30-19:40 「汎用情報分類ツール「かじき」チーム発表
19:40-19:50 「理想の図書館をつくったぜ!」チーム発表
19:50-20:00 「シー・ビブリオ」チーム発表
20:00-20:10 「Ref.Master」チーム発表
20:10-21:00 全体ディスカッション(含:今後の方針等)
 
 
係分担:
記録係:関戸
中継係:嶋田
懇親会係:ふじた
タイマー係:前田
====================
Ustream
 
Togetter
http://togetter.com/li/230807
 
■清田先生講義「検索ユーザインターフェース」
 
・今日はあえて「検索ユーザーインタフェース」について取り上げる。
 
・OPACへの不満がいろいろあり、それを解決するためのアプローチが試みられてきたが、うまくいっているものもいないものもある。
・ユーザインターフェース(UI)をめぐるよくある飛躍。UIの良さは誰にでも理解できる→?、良いUIは誰にでも作れる →??
→実際はUIはひとつの研究領域
→UIについての知見の重要性が認識されていないのでは。
・UI設計の最重要ポイントはインターフェースをシンプルに保つこと
・UIの使いやすさを決める主要素は、学習しやすさ、効率、記憶しやすさ、エラー、満足度
・UIの設計ガイドライン
有益なフィードバックの提供
自動的なアクションとユーザ自身による制御のバランス
 
・フィードバック
有益なフィードバックの例
-ユーザのアクションに応じて直ちに検索結果を提示
-なぜ検索されたのかを見せる(スニペット、ハイライト)
わからないと不満に思う。
-カテゴリ提示
-情報資源が限られている場合は有効
-キーワードのサジェスト
 
有益でないフィードバックの例
-関連情報のグラフィカル表示
-クラスタリング
-分けている基準、グルーピングは何であるかを示されないと不満
 
・評価手法
検索の主要な評価手法として、再現率と適合率がある。 
一方現実のWeb検索エンジンの使われ方は、インタラクションが重要。
インプット→アウトプット→ユーザーが結果を解釈→再度インプット 
潜在的ユーザ(被験者)による実験
縦断調査
サーバログ分析
 
■各チーム発表
 
 □「俺CiNii」チーム(日高)
 発端は国文系の研究をしているメンバーの要望、「国文系」の論文をチェックしたいが、チェックするのも大変。
自動で振り分けられるフィルターがあればいいのではないか。
 
・合宿でやったこと
SVMを使おう
合宿の成果はまあまあの精度(100位以内に80%)。濃縮できている。
 
・図書館総合展に向けて
「Learnモード」で好みを覚えさせ、それをもとに自動で振り分ける
Webインターフェースを作る
日高さんバージョンは音楽系、岡田さんバージョンは国文系
 
新着論文を判断して覚えさせる機能を追加。論文ID(NAID)を登録できるモードも。
 
・総合展後
NAIDを打ち込むのは手間なので、TSVダウンロードのファイルをそのまま登録できる機能を追加。
 
・今後
APIで外から使えるようにすれば、マイニングのためのツールの一つとして使っていければよいと思っている。
どうリソースを割くかが問題。
 
清田: フィルターを共有できたりすると価値が高まるのでは。既存のモデルをリバイズしていくこともできるとなおよい。
日高: 「国文系」のフィルターができたこと自体が喜ばれている。CiNiiの論文以外にも使えるはず。
 
□ブクリスチーム(南雲)
 
・動機
図書館に「何か面白い本ないかなー」と来るように本を見つけられる図書館Webサイトにしたい
旬の話題の本が見つかるサービス「ブクリス」
 
・こだわり
公共図書館で実際に使えるもの
 
・情報源
地域の情報源(市役所のサイトなど)や図書館独自のリストなども
 
・資料検索はカーリルローカルAPIを使う
 
・合宿終了時
検索結果の数でフィルタ
 
・問題点
フィルタに検索をつかっているので、OPACの負荷が高い。
 
・図書館総合展にむけて
CiNiiBooksをつかってキーワードをフィルタ。件数かけても大丈夫。
図書館のヒット数ともある程度相関があるだろう。
 
・管理画面(総合展であまり見せられなかった)
情報源から作るキーワード候補とCiNii Booksのヒット件数を確認できる。
ヒット件数の上限下限を調整する。
その後OPACの件数、結果も確認可能。不要なキーワードを対象外にすることも。
 
・今後
OPACの負荷は大丈夫か→カーリルAPIを使っていれば大丈夫
図書館に使ってもらいたい→ゆうき図書館の了解を得た。
 
清田: そこそこ面白い情報が出ていると思う。
むずかしいのは、ゆうき図書館などに実際使ってもらうとして、継続性。
APIに依存しているので、その変更に対応できるか。
たとえばカーリルに協力してもらえればいいのかもしれないが、そうでない場合はどうしていくか。
 
□シービブリオチーム(前田)
 
・コンセプト
パソコンの画面をフルに使って、書籍関連情報を1件づつリッチに「たれながす」
家でごろごろしているときに OR 書店や図書館で広告として
新たな書籍探しスタイルの提案
・イメージアニメーションでのデモ
例として近刊検索βの情報をつかっている
オリジナルのグラフィックデザインやアニメーションにより、ブラウジングで飽きないように工夫
 
・図書館総合展において、コンセプトを示すことができた。
  (13回図書館総合展「マイニング探検会」メンバー成果物ポータルでWeb公開中)
 
・図書館総合展後
東京大学情報基盤センターの成果として、「Be-ビブリオ」を開発・公開中。
シー・ビブリオで得た知識やアイデアを活用している。
https://mbc.dl.itc.u-tokyo.ac.jp/Be-Biblio/
 
ISBNのリストをインプットすることで、書籍情報を連続ブラウジング。
書籍関連情報として用意した情報は次のとおり。
1)国会図書館OPAC ro 楽天の書誌情報
2)Yahoo Web検索 plus 「言選Web」による書籍関連語提示
3)楽天の書影と内容紹介
4)Googleブログ検索による書評ブログ等の提示
自身でも実際に書籍の選定などに使っている。
 
Be-ビブリオには、ISBNリストをインプットにするのではなく、国会図書館OPACの独自検索インターフェイスから書籍を検索し、その検索結果から書籍関連情報を提示する機能もある。
 
Be-ビブリオの仕組みを応用することで、ブックフェア用のページを簡単に作成できる。
実際に、「東京大学柏図書館ビブリオバトル本紹介」のページを作成・公開した。
設定はHTML中に表示したい書籍のISBNリストを埋め込むだけ。
https://mbc.dl.itc.u-tokyo.ac.jp/Be-Biblio/KashiwaBiblioBattle.html
 
Be-ビブリオの国会図書館OPAC検索機能部分を切り出し。
Perlモジュール MARC::NDL_Search::OPAC として開発・配布中。
https://mbc.dl.itc.u-tokyo.ac.jp/MARC-NDL_Search-OPAC/
 
また、Be-ビブリオの応用で、CiNii Booksを、書誌ID(NCID) or 著者ID(NRID)のリストから、書籍詳細画面を連続表示できる「CiNii Booksランチャー」も作成・公開中。
https://mbc.dl.itc.u-tokyo.ac.jp/CiNII_Books_Launcher/
 
清田: 前田さんはアイデアマンでコンセプトをいろいろ打ち出せているが、それを実際のプロダクトに落とし込むパートナーがいるといいと思う。
今回はリッテルのエンジニアが期待に応えられない面もあって申し訳なかったが、前田さんが上のステージに行けるようになるといいと思う。
 
□RefMaster
 
・RefMasterとは
レファレンス共同データベースを活用したスキルアップツール。遊びながら学べる。
 
・背景
個人でのスキルアップは難しい?
 
・デモ
Twitterなどのアカウントでログイン。
分類(分野)を選ぶ。
問題に対して適するキーワードを四択で答える。
今後はレファレンスツールを選ぶなどへの変更も
「レファレンスレベル」が向上していく。目指せ「レジェンド」!
 
・回答の分析
分野は「総記」に偏り。
平均所要時間 適当に読んでいるというよりは10秒?1分くらい読んでいる。→ちゃんと考えている。
平均正答率は 88%。
ユーザ属性、大学図書館、学生が多い。
都道府県 東京→長野→茨城。
利用時間帯 10時と19時にピーク。
 
・今後
システムを変えるよりは、ログデータを集めるために利用実験を。
山崎さんから、Webラーニングのコンテンツとして宣伝するとの協力申し出をいただいている。
他にもご協力いただけることがあれば。
 
そもそもの目的としてはレファ協へのフィードバック
「GWAP」として考えた。
ゲームを通じてフィードバックを得る仕組み。
 HumanComputationの例「ReCapture」
 
たとえば、トップレファレンサーが同じ問題で誤答する場合、もともと入っている正解が適切ではない可能性が。
 
岡本: レファ協へのフィードバックとは?レファレンス共同データベース事務局に連絡をしたらいいと思う。
2月にフォーラムがあるのでもしかしたらその時に紹介してもらえるかもしれない。
 ---------------
■ディスカッション
 
清田:合宿からの作業は「共生プログラミング」のテストでもあった。
リッテルとしては新入社員を中心に、関わらせてもらってよかったという印象。
この成果物をどうしていくかという点についてはチームによって濃淡がある。
 
俺CiNiiチームはかなり進んでいる。
日高:自分では見通し暗いなと思っているが。
清田:フィルタを流通させていくのは未開拓の分野なので、そこでアカデミックにつながえていける可能性はある。
日高さんのエフォートが高いことが課題だった。一人に無理がかかると長続きしない。どう長続きさせる体制にするかが課題。
 
そこはこの勉強会全般に意識をもってほしい。 
作った後どうワークさせ続けていくか。ビジネスなのか、研究なのか。
いくつかのロールモデルを次のタームでは作っていきたいと。
 
中塚:mitanサーバにおいているブクリス。あのサーバにいろいろ入っている...。
作るところはともかく、継続的な運用にかかるコストを回収するための仕組みが何か必要か。新しく入ってきた方などにコメントをいただきたい。
 
清田:シリコンバレーのエンジニアのコストは高い。でもエンジニアがどう面白いとおもうことをやり続けられるか、ということを用意するかということに力を割いている。エンジニアも続けられる仕組みを作ることも重要かと。
中塚:エンジニア側としては箱庭のようなイメージ。大きなプロジェクトの中ではできない新しいことを試すようなこともできて楽しかった。
 
岡本:来年どうするのか。手を動かさなくてもエンジニアと一緒にやるのは楽しいと思う。
4月に新入社員が入るならば、1?3月ブレストして、夏に合宿するようなスケジュールでどうか。
作ったものは、各自が仕事の成果として回収できるといいと思う。
 
○各チームの今後
三津石:各チームの代表の方に今後どうしたいかをコメントいただきたい。
 
日高:ビジネスの話はない状態。サーバも自社のサーバを使っているので責任の部分は手切れがいい状態にはしているが、反面行き先は決まってない。
仕事としてはいい名刺になると思っているので、継続して残していければプレゼンスにはなるのかと。
 他のチームも、みんなWebサービスなので続けていくこととセットにして考えなくてはいけないのだなとは思っている。
俺CiNiiチーム内ではみな話もしたが、これで続けていくことは考えていない。
APIをたたけるようになって外から使ってもらえるとかであれば、まあやってよかったとは言える。 
 
嶋田:ブクリスチームはコードをかける人がいない、サーバも間借りで課題は多い。ゆうき図書館で実際に動かしてもらえることになっているので、サーバの問題は解決しなくてはいけない。
中塚:ゆうき図書館に使ってもらうとしたら、ウェブサイトにインポートする部分が難しくなりがちかもしれない。
関戸:カーリルとは使っていることについて話はしているが、特に興味は示されていない。
中塚:カーリルに負荷がかかるくらい使われれば興味を持たれるかも?
 
前田:サーバは東大のを使っているので、安定性は問題ない。次回またコンセプトからということならうれしい。
清田:そこを拾い上げてやる人がでると新しい展開があるのかと。
 
三津石: メンバーが学生なので、研究成果を出したいということでまとまっている。来年以降も続けていきたい。 
 
清田:継続したいのはRefMasterとブクリスチームか。
中塚:ブクリスで使っている新聞社のRSSは利用料を取られる可能性があるので注意。
 
○今後のスケジュール案 
岡本: 11月が一つの終わりとして、12月の今回はクールダウンの時期。長い開発ではクールダウンの時期は必ず必要。
1月になってから自由テーマの発表、3月まで。4月からチーム作り。5月から新卒のエンジニアさんが単発で参加、
7月に合宿。8月?10月は各チームで作る、というスケジュールでどうか。
人によっては出来たものを実際に使ってもらえるように売り込むのが楽しい、ということでもいい。
ともかく、みんなそれぞれテーマをもつこと。この会では互いに手の内をあかす。
今回参加している人はこれで確定というわけではない。働いている人を優先したい。職場で機会がない、など。
今のチームは解散したつもりでいい。リセットして続けたい人はやればいい。
 
 
□会費制について
会費制に移行したい。
ARGの持ち出しもある。三津石さんの交通費。サーバ代もあった方がいい。
チームごとに渡してもいい。年間、最大でも6000円。学生割引あり。
→予算として必要な額については三津石さんが調査する。
サーバを4チーム仮に借りるとして、プラス三津石さんの交通費。