メールアドレス(半角):


バックナンバーは こちらから
株式会社リッテルが発行する
無料メルマガです。







東大産学連携企業株式会社リッテル

第23回マイニング探検会を開催しました

====================
日時:4月13日(金)19:00-21:00
場所:株式会社ネクスト 本社 3階会議室
 
スケジュール:
19:00-19:30 統計のお話(清田)
19:30-20:00 4つの自作言語処理ツール(前田)
20:00-20:30今年度の計画ディスカッション?やりたいこと、チームビルド、マイルストーン(全員)
20:30-20:50 幾つか話題提供オープンマイク?某社相談(岡本ほか)
20:50-21:00 来月の開催場所(OR開催日)
係分担:
記録係:岩井
中継係:嶋田
懇親会係:
タイマー係: 日向野
====================

Ustream

http://www.ustream.tv/recorded/21806661
 
●事務連絡(岡本)
・2年間事務局を務めていた三津石さんが、研究に専念するために事務局から降板する。
・後任は皆勤賞の嶋田さんにお願いする。毎回の交通費+謝金を、会費からお出ししたい。
・ただし事務局に全面依存するのではなく、参加者は引き続き各役割の立候補などを積極的にお願いする。
・4月から再びチーム制で開発、夏に合宿、図書館総合展で発表。
 
●清田先生講義「統計を知ろう」
・統計学とは
出自はギャンブル?
英語でstatistics←states国家から 政治算術、国勢調査(センサス)
統計的推測という考え方 ガウスの正規分布、ピアソンの回帰・相関、フィッシャーの推定・仮説検定
・身近な事例に「統計」を適用する
利用者が増えた・ユーザーインタフェースを改善してコンバージョンレートが上がった
...本当に上がった?それとも偶然(ゆらぎの範囲)? この区別はできるか?
体重の例
t検定 集団を正規分布に従うと仮定し、その平均の差が偶然の範囲かどうかを調べる手法
統計解析ソフトR
p-value 危険率(通常5%)以下の時に、「平均の差がない」(=偶然)という仮説を捨てることができる
・ユーザビリティテストへの応用
被験者にユーザインタフェースを使ってもらうことで問題点を洗い出すという場合、被験者が多いほど問題点も多く見つかるが
...何人が適正か?
いろいろな仮説
Magic Number 5 (Nielsen et al. 1993) 5人で85%は発見できる
10 ± 2 rule (Hwang and Salvendy 2010)
これらに対する反論
二項分布を仮定して導かれたが...本当に二項分布でよいか?
Logit Normal Binominal と呼ばれる対数分布に乗せてみると、10名ではとても足りない説
まだ答えが出ない問題
以前はこうしたことは暗黙知・経験知に依存していたが、科学的手法を取り入れる流れ
被験者評価以外の方法、たとえばログデータからも改善ポイントを見つけていくといったことも必要になる
 
○質疑
矢代 ユーザビリティテストの最近の知見では二項分布ではなく対数分布のほうが合っているという話だったが、二項分布の論文ではどのようなロジックで実験がデザインされていたのか? 未発見の問題点というのは具体的にどう設定していたのか?
清田 そこまで読み込んでいないのでまた調べておく。
矢代 Rの使い方のコツが何かあれば教えてほしい。
清田 ライブラリが豊富。クラスタリングをやったり地図にマッピングしたり。
岡本 統計処理に関してYahoo!で面白かった事例。キーワードの推移の形が似ている言葉同士を探してみる。たとえば「マスク」と「花粉」。花粉が飛びはじめる→敏感なひとが「マスク」で検索しだすといった流れが見える。図書館やCiNiiの検索ログで見てみても面白いのでは。
 
●前田「4つの自作の自然言語処理ツールについて」
当日プレゼン資料
http://www.slideshare.net/genroku/ss-12533629
 
1.難語レポーター https://mbc.dl.itc.u-tokyo.ac.jp/nango_report/
日本語テキスト中の難しい語をレポートする
本の推薦・選定や蔵書の評価に使える?
難易度の判定基準
学術度= ac.jpサイトでのヒット件数/全サイトでのヒット件数
レア度=IPADICの形態素生起コストを複合語に拡張した用語生起コストとYahoo!ヒット件数の組み合わせ
使用文字=ラテン、ひらがな、カタカナ、漢字
難読度の既存研究 帯2、リーダビリティ・リサーチ・ラボ
いずれも短い文では難しい・難易度とリーダビリティは一致しない
文章ではなく用語からアプローチする
全単語をかけると大変なので上位のみ
2.Wikipediaタガー https://mbc.dl.itc.u-tokyo.ac.jp/wikipedia_tagger
Wikipedia記事になっている語に対してリンクを張って表示する
文章を自動注釈 初学者、図書館による選書に
Kakasi(日本語分かち書きツール)を利用
3.国会図書館件名標目タガー https://mbc.dl.itc.u-tokyo.ac.jp/NDLSH_tagger
国会図書館件名標目をポップアップで表示
しくみはWikipediaタガーと同様
4.中文テキストの用語抽出
人民日報タグ付きコーパス 1ヶ月分が無償配布されている 単語分割・品詞情報つき
奈良先端のYamChaによって、こうした品詞情報を使って単語を抽出できる
図書館にどう応用するか?自分でコーパスをつくるのもきついし...

○質疑
山田 難語が面白い。APIは公開するのか?
前田 それほど難しくないのでやってみる(2012.4.18現在 Perlモジュールでの提供準備中)
矢代 IPADICを使ったのはなぜ?
前田 言選Webのデフォルトだったので
日高 国会図書館の方は、件名標目の抽出に影響するkakasi辞書中の用語を取り除いてを作ってるとのことだが、Wikipediaの方はそうしない?
矢代 件名標目は言葉が独特で、一般的ではないのでは
前田 統制語なのである部分仕方ない。日本語WordNetを使ったほうが一般的になる。日本語WordNetを使った同様の仕組みは簡単に作れると思う。
清田 難読度・学術度を判定するという研究はすでにあるといえばある。ただ単なる車輪の再発明ということではなく、どうやってサービスに落としていくかという本質的な議論だ。こういうのをどうやってアピールしていくか。わかりやすく言うと前田さんをどうやってプロデュースしていくか。
前田 ユーザビリティを考えたアプリケーションづくりはあまり得手ではないかもしれない。
清田 その部分を他の人がいろいろ知恵を出してもらうと面白くなるかなと。
日高 使い道として、ブログの文章を解析して炎上係数やアレゲ度を判定してみるとか
前田 文章を投稿する前に、それを解析して判定してくれるとか
岡本 語学学習に使えるかも。その言い回しは一般的なのかレアなのか、みたいなことをチェックする。外国語教育系に熱心な先生がいるのでそういうところにあたってみるのもいいかも。
清田 ロングマン辞書などは大量のコーパスの知見を活かしているという話も聞く。日本ではあまり聞かないが...
 
●チームビルディング(のためのフリーディスカッション)
岡本 新卒の方が参加してくる頃(清田:今年は7月くらい)、やりたいことを出せる状態にしておきたい。5月くらいまでに、同じ問題意識のひとが集まる感じにしたい。やってみたいことを自由に出してほしい。
南雲 図書館員のモチベーションの保ち方が気になっている。たとえば自分とこのOPACが止まってて気づかないひととか。図書館員の人が常にOPACを意識してる状態をどうやったら作れるか。
岡本 業務フローに入れるというのがふつうだが、面倒くさいのでふだんの業務に埋め込まれてる状態が必要。テーマとしては面白い。図書館員、とくに公共では、PCの前にいることが少ない。カレントアウェアネス-Rを読んでる人も少ない。日々の業務の中で自己学習する機会がない。それができるようにするにはどうしたらよいか?
日高 OPACについてはWebAPIがあれば動いてるかのチェックは簡単。こういうシステムの不具合を外部からの指摘で気づくのは屈辱的。
関戸 不具合が起きたら音を出したり紙を吐いたりみたいな仕組みもいい。
岡本 ソフトだけじゃなくハードにも広げてみてもいいのでは。岡崎の事件みたいに、ソフトを別世界にすることの弊害もある。
清田 コンピュータを理解する上ではソフトだけでなくハードを意識するのが重要というのはある。
田邉稔 今年の最初にも話した、人に注目したいというテーマがある。FacebookやTwitterを見てると、図書館員が不満・怒りを持っているのが何となく見える。彼らがどこにいるのか、またそれを解決する人がどこにいるのかという情報を集めて届けたい。人的リソースのキュレーションというイメージ。何かあると、いつも同じ人が出てくるが、出て来ていない若い人が埋もれてるのでは。手がかりはソーシャルメディア、リアル口コミ。
矢代 声を集めるツールといえば、ushahidiを使ったsinsai.infoみたいな先例がある。声を可視化するだけなので、その先をどうするかはまた別の話。
岡本 誰がどこにいるかを地図にマッピングしたり、年度替わりの異動を可視化したりというだけでも面白い。個人的な興味では、国立大の人はあちこち地方に異動するので、各人の履歴を可視化したりしたらどうか? 過去30年分とかやると、王道ルートみたいなものが見えてくるかも。公共では例えば滋賀県から他地方へ引っ張られるとか。エプロンスタイルはそれによって広まった。
日高 LinkedInみたいなイメージか。
岡本 アメリカの議会図書館を見たりするとLinkedInの情報が充実している。日本ではそこまでになってない。一人ひとりのプレゼンスを高めていくにはどうするか。重要な職歴などが分かる仕組みがあるといい。図書館員SNSみたいなのもいいが、職業別SNSはたいていコケる。あとはレファ協の事例に回答者の個人名を出すとか。
田邉 それはやりすぎても良くないので...
長沖 不満をどうするかという話が人事情報の話になってる。技術の話にしないとこの集まりのルール的にはちょっと。
田邉 不満や怒りの原因の大部分は人なので...
岡本 いろんな図書館の人と付き合っていると、職場が小さくていろいろ不満が溜まっているのを感じる。利害がかぶってなくてしかも専門職としての悩みが共有できる場があれば。まずは人の可視化から。
山田 昔の職場や上司関係などは、トークのネタにしやすい。悩み共有という点については、時代ごとに掲示板やmixiやTwitterなどいろいろな場所がある。ただそういう場所に出てこない人をどうするかが今後の課題ではないか。
岡本 もらった名刺の情報を勝手にアップするみたいなことも考えているが、反発は大きそう。Spyseeにもけっこう文句が来ている。
山田 異動情報は文教速報に載っているので、追おうと思えば追える。
清田 どうやって入力していくか 人力でやる・日本語だとやっぱ難しい
岡本 来月にかけてこんな感じでアイディアを出していき、ゆるやかにチーム分けしていきたい。他にもやりたいことは発言してみてほしい。
 
●告知
図書館総合展フォーラムin仙台 5月27日(翌日は名取市図書館訪問)
ニコニコ超会議(幕張メッセ) 4月28日・29日
岡本さん・清田先生で京都にシェアハウス
 
●次回日程 5月18日(金)