第32回マイニング探検会を開催しました
第32回マイニング探検会
http://www.facebook.com/events/241773805955345/
====================
日時 2月8日(金)19:00-21:00
場所:国立情報学研究所 20階 実習室
スケジュール:
- 19:00-19:30 清田先生
- 19:30-20:00 前田さん報告
- 20:00-20:30 山田さん報告
- 20:30-20:50 今年の活動について
- 20:50-21:00 来月の開催場所(OR開催日)
係分担:
- 記録係:関戸
- 中継係:嶋田
- 懇親会係:
- タイマー係:
====================
(記録はここに書く)
Togetter http://togetter.com/li/452693
Ustream http://www.ustream.tv/channel/mitan32
清田先生のスライド http://www.slideshare.net/ykiyota/31-16416997
前田さんのスライド http://www.slideshare.net/genroku/ss-16431472
■「ログ解析を知ろう」清田先生から
・「ログ」語源は「航海日誌」なぜ「丸太」がそういう意味に?
-船の速度を測るのに、丸太を利用したことから。
-昔アマチュア無線をやっていたが、通信記録も「ログ」
-ログとはなにか。特徴
--時系列(日時情報付き)
--網羅的
--一定の基準
・サーバログ
-Webサーバに記録される主な情報
--日付
--IPアドレス
--ファイルパス
--ブラウザ
--ステータスコード
・サーバログ解析の主な目的
-利用統計
--つまりこのサービスは使われているのか?どのくらいアクセスがあるか、ないか。
-サービス改善の効果を知る
--何か改善をしたあとに、その前後のアクセス増減を測ることで効果を知る。
-サービス改善のためのヒントを得る
-エラー検知
--リンク切れのあるページを確認できる。必要なページが作られていないということを知る、構成変更で無くなったページがないか。
-不正アクセスの検知
--アクセス権のないところからのアクセス
--国外からのアクセス
・特に注意したいポイント
実際のデータは見せられないのでポイントを。
-変化の規則性
--一日単位、週単位、など。
--秋季から大きく外れると何か起きているかもしれない。
-極端な値
--急激なアクセス増はどこかから紹介された?不正アクセス?
--急激な減少は、エラーが起こっているのかも
-変化に着目する
時間単位の場合、深夜に谷があり、昼に上がる、など。
一週間サイクルも
-ぽこっと盛り上がっているところは何か。HOMESの場合、CMを打ったところだったり。
-時間属性に着目する
--平日と週末
--朝、昼、夕方、深夜
--季節
-時間帯、日によって想定されるユーザは異なる。
-たとえば、平日昼間は主婦?平日夜や休日はサラリーマン?
-どのような人に使われているのか?
--期待した通りの使われ方をしているか。
--予想していなかった使われ方をしているのか。
-サービス導入前とくらべて
・その他に取れる情報
-リファラ
どこからリンクされているか
-IPアドレス
個人を特定しうる情報。個人情報保護法の対象ではないが、プライバシーに関わる情報では十分ある。
-遠隔操作ウイルスでの誤認逮捕の話でもわかるように、個人を特定しうる。
-本人を特定しうるので取扱には注意する。
・ログ収集のタイプ
-Webサーバによる収集
-タグを埋め込んで、ログ集積サービスで集積してもらう。例:Google Analytics
-マイタンページの例。グラフ化したアクセス傾向、例えば11月は図書館総合展で増えている。どこの国から来ているか、ブラウザーのバージョン、解像度等。
-ページデザインをするときに、どのくらいの大きさを想定してつくったらよいかの手がかりに。
-
Q: CMの効果測定はどのように。
A: リファラーなどを見る。「HOMES」というキーワードで来るのが増えていること、などを。
通常のユーザは一般的なキーワード「引越し」など、で到達することが多いが、CMの効果は底に出る。
・図書館サイトの傾向
-ダイレクトで入ってくるのは少なく、検索エンジン経由が多い
-あとは大学のサイトからとか
-OPACだと半分くらいは業務利用だったり
-どこでユーザがそのサイトから抜けるか。検索結果が多すぎるとそこで離脱する。
-リプレイス前後でログのとり方が違うと、比較が難しかったりする。ユニークユーザやセッションの取り方。
■「蔵書選定のためのマイニング」前田さん
・大学図書館は、ユーザの研究分野に沿った蔵書を選定する必要がある。
・前田さんの勤務先である東大柏図書館でも問題にしている。
・職場の若手のスキル向上
-プログラミングより、データマイニングの方が敷居が低いかもしれない
・言選Webの向上のため
・学位論文データを利用した。
・学部の情報にはいろいろある。
-ウェブサイト
-シラバス
-学位論文
・ログなどに比べてデータ利用の問題をクリアしやすい
-一般公開されているデータである。
-学位論文論題データベース 前田さんが10年くらいまえに作ったCGI
-クラスタリング結果。キーワードはたくさん出てきた。近いほど関係が深い。
・なぜ用語の関連か
-特定の用語が使われていることは調べることは簡単
-しかし、どの用語との組み合わせで使われているか、が重要。
・柏図書館の蔵書のキーワードと、学位論文のキーワードとの相関。不足しているテーマがわかる。
・学部ウェブサイトと図書館蔵書の相関、
2. テキストマイニングを楽したい -ツールの使い方とその結果-
フリーで楽に使えるテキストマイニングツール
・「コーパスとテキストマイニング」(共立出版 2012)で紹介されているツール
・KH Coder ←
・MTMineR ←GUIで使いやすい
・言選Webで開発した termmi
・準備は、データを用意するだけ。一件一行で。
いくつか前処理があるがむずかしくない。
「共起ネットワーク」形態素で
・言選Web担当者としては、形態素じゃなく専門用語を使いたい
・KH Coderは茶筅をつかって切り出しているが、そこに辞書を入れられるので入れてみた。
・termmiを使ってやってみた。
-Rで分析。
-KH Coderとくらべて広がってばらばらとなってしまう。KHコーダーが工夫している?
-用語間の距離を見られるように。
・終わりに
-テキストマイニングで図書館に関してできることはいろいろありそう。
-これらのツールは簡単に使えそう。
Q:(山田) オススメは?
A: KH Coderが使いやすい。手順通りにやれば簡単に出るし、使い込めばいろいろなことができそう。
図書館だったら、最近買った本とか、ランキングとか、いろいろなデータを突っ込んでみてもいいのでは。
Q:(清田)たとえば、学科のサイトとか、受験生がページを見た時に情報がない、というようなことの補完につかえるのでは。各学科のキーワードを抽出するとか。
山田: 先生方にも興味深いかもしれない。うちの学生の研究はこの辺りなのか、とか。
関戸: 知らなかった他の研究室との関係とかが見つかることもあるのかも。
■ニコニコデータ研究会の話 山田
ニコニコデータ研究会 Facebookページ
https://www.facebook.com/niconicodata
・ニコニコ学会βについて
-ニコニコ動画から発展して、研究を発表する場
-ユーザ参加型研究発表
-超会議2(ニコニコ動画をリアルに再現)でも開催
-アート系のひととかロボット作ってる人とか、ウェブ系とか。
・データ研究会はその分科会
-趣旨
-さまざまなデータをあつめて分析している人がいる。
-ニコ動で言うと山田さんとか。
-集まれば共有できることがあるのでは。
・第一回ミーティング
-1月12日に開催
-30名来場
-当日はニコ生も、300人視聴
-研究発表とライトニングトーク(10名も!)
・当日のプログラム
-共同主催?の武田英明先生からご挨拶
-濱崎さん 初音ミクの引用ネットワークの人。 「ニコニコ動画研究のよもやま話」
-江渡浩一郎さん 「ブラウザ拡張から使いやすい共有データリポジトリWedata」 AutoPageなんじゃらとかで使っている。
-「ありらいおんさんのデータ本の作り方解説」
-ニコ動の投稿がいつ20万件に達するかの予測
-就活リコメンドエンジン
-電脳メガネ。
-ニコ生をさがす、コメントをフィルタリングしてランキングを作る「ソムリエちゃん」
-ソーシャルゲーム業界のマイニング(オフレコ)(おもしろかったらしい)
・感想
-面白かった
-いろんな人に会えた、飲み会も盛り上がった。共通の話題が。
-ニコ生がちゃんとできなかった。(NIIの?一ツ橋の?)ネットワークの問題
今後の予定
-4月27日、28日幕張メッセで超会議2にて。ニコニコ学会の中で。
-世界ボーカロイド大会。(6/8-9)@ヤマハリゾートつま恋
など
Q: 分析の仕方は共通している?
A: それぞれだが、やり方は、やりたいことはそれぞれ何種類かなので、他の人の手法が大いに参考になる。
自分も統計をちゃんと勉強してるわけではないが、そういう人と、本当の研究者の人と、企業の人と、いろんな人が混ざっているのがよいと思っている。
■マイニング探検会の来年度活動について
清田:
・マイニング探検会は今年の3月で丸3年。
・今後どうするか話していたが、
・メンバーのバラエティを増やして行きたい。
・長尾先生をお呼びする話があり、京都でもという話も。
・関西方面から参加したい人もいる。
・そこで、運営の仕方を変更したい。
・月一回だと頻度が高いので、もう少し下げて、
・一つの案は、東京、京都で隔月開催、という案。偶数月は京都で奇数月は京都。など。
岡本:
・現実問題毎月参加できている人は少ないのでは。東京で毎月だと清田先生の時間を拘束してしまうし。
・グループで集まる時間も取れたほうがよい。
清田:会場は前回合宿で使ったシェアハウスを予定しているので、繁忙期でも泊まることはできる。
岡本:京都で新年会をしたときに、東京うらやましいという話があった。関西でこういう技術系のものをやるのもありかと。
村木:時間は?
岡本:
・京都でやるときは土曜日というのはありか。いま参加している人は、土日の方が都合がいい人が多そう。関西メンバーもいまのところ大学図書館員が多いので、
・長尾先生、京大の勉強会に出たり、エンジンがかかって来た。月に4回は東京にいらしているので、東京でも参加できるとのこと。長尾先生とやる部分には、統一のテーマをもちたい。本当の人工知能の理想を追求するというのを考
・一方的に教わるのではなく、一緒にディスカッションする形にしたい。実務の面ではメンバーの方が詳しいこともあるだろう。
・Ust音声を切った理由は、長尾先生が有名だから参加したい、というようなことは避けたいから。フラットに議論する場にしたい、先生もそういうことなら参加したい、という話。
まとめ
・定例会としては隔月化。開催しない月にグループでやるのはあり。嶋田さんのサポートもある。
・関西でもメンバー募集。関西は嶋田さんは毎回いくわけではないので、手間が大きくなり過ぎないように。
今後のスケジュール
・合宿と、今後半年くらいスケジュールを決めたい。
・facebookアンケートで2月いっぱいくらいで調査。
・3月は15日を予定。
・合宿は4月にお花見合宿で関西と合同では?5月までにはやりたい。
・場所は安くて近いところを検討。熱海とか。
関西メンバー
・今は神戸大学の小村愛美さん、京都府総合資料館の福島さんがメンバー候補。
・他にも山下ユミさんとか、NDL関西館とか。
会費
・昨年度とんとんだったので、4000円のまま継続。