メールアドレス(半角):


バックナンバーは こちらから
株式会社リッテルが発行する
無料メルマガです。







東大産学連携企業株式会社リッテル

第22回マイニング探検会を開催しました

====================
日時:3月9日(金)19:00-21:00
場所:国立情報学研究所 19階プレゼンテーション室
http://www.nii.ac.jp/access/
 
スケジュール:
19:00-19:20 三津石研究発表〈仮〉(DEIMで発表したもの)
19:20-19:40 日向野発表 メタデータをつなぐ
19:40-20:00 田邊(稔)発表 クラウド型共用リポジトリサービス
20:00-20:40 清田先生講義
20:40-21:00 全体討議、ディスカッション
係分担:
記録係: 日高
中継係: 岩井
懇親会係: 関戸 タイマー係: 村木
 
懇親会会場:マキアヴェリの食卓 http://r.tabelog.com/tokyo/A1310/A131003/13011660/
====================

Ustream

http://www.ustream.tv/channel/%E7%AC%AC22%E5%9B%9E%E3%83%9E%E3%82%A4%E3%83%8B%E3%83%B3%E3%82%B0%E6%8E%A2%E6%A4%9C%E4%BC%9A

 
●三津石さん発表「クラウドソーシングによるhuman-powered joinの効率化」(DEIMでの発表)
 
・Crowd(群集)の知による、クラウドソーシングが多数ある。たとえばwikipedia、saveMLAK、linux、Re captchaとか
・human-powered演算とは? 結合・選択・ソートなどがあるが、ここでは「結合」について説明
・例:表Rと表Sの結合。これをHuman Poweredでモデル化すると...。
・100枚x100枚で10000の組み合わせが発生してしまう。これを効率化していく際、従来の仮定を前提としない手法の開発
・Crowdsourced join pre-filter
・Crowdsourced task assignment
・処理効率化自体をクラウドソーシングによって行う
・Crowdsourced join pre-filteringについて。
作業の細分化自体をCSで行う
・Crowdsourced task assignmentについて
作業の割り当てをCSで行う→作業者が、単純な回答以外に「入力(判断)可能と考えられる人」を提案できる
・コミュニティのプラットフォームとして、Crowd4Uを開発
・「筑波大学の部屋番号一覧と研究室名一覧の結合」というテーマで予備実験を実施
・Crowdsourced join pre-filter考察→分割性能は「それほど悪くない」
・Crowdsourced task assignment考察→比較的良好
 
○質疑
Q: 「task assignment」において、質問が「特定」の人、に集中してしまうとクラウドの意味がなくなるのでは?
A: 学会でも同様の指摘が。論文の査読などでも同様のことが。改善策としては、「誰にでもできる」のか、「難易度が高い」のかを判定した上で、ふっていく
Q: 同値分割自体にリソースが使われてしまうのは効率化になっていないのでは?
A: よほど「筋の悪い」分割でない限り、効率化が期待できると見ている
 
 
●日向野さん発表「メタデータをつなぐ」
 
・CiNii/研究者リゾルバ/J-Global/NDL-OPAC等を「つなぐ」必要性
・各機関が独自にやっているので、横断的な検索についてのニーズに応えられない
・「情報の修正」の問題、信頼性←→スピーディな修正がなされない
・MediaWikiで「機関横断型文献情報Wiki」を開発
・識別番号(ID)を集め、くっつける
・クローラでひたすら収集→botでmediawiki上の記事として追加→「曖昧さ回避ページ」に出てきたものを人力で統合(リダイレクトを設定)
・サンプルとして、東京電機大学教員200名ほどを対象に実験
・メリット:mediawikiなので、その場で修正ができる
・デメリット:wiki記法はハードルが高い→簡単にするインターフェース作成中
・今後の課題:インターフェースの開発と、横断検索システムの開発
 
○質疑
Q: 人力で「つなげる」部分のコスト評価は?
A: 現状はおこなっていない。今後の課題ではある
Q: あいまいさ回避ページ、というのは?
A: 「増田英孝」が複数いた場合、複数のページができた上で「曖昧さ〜」のページができる
Q: 最終的には、LOD(Linked Open Data)の考え方につながっていくのか?
A: RDFの形で出力していくこと自体は可能。LODはひとつのデータにひとつの固有IDが前提。こちらはあくまでも「横断的につなげていく」ものなので、コンセプトとしては、あまり被らない
 
 
●田邉(稔)さん発表「NII学術情報発信基盤 共用・共同リポジトリ JAIRO cloud の紹介」

  ・機関リポジトリの独自構築が難しいところに、基盤を提供する。4月より正式に提供予定
 ・大学、短大、高専等62機関から申請があり、すでに12機関に仮想環境を提供中
 ・共用→一大学、一サーバ
 ・共同→拠点、を決めて、そこから発信していく(例:信州大学に、信州・長野エリアをまとめて、そこから発信)
 ・当面は無償、長期的には有料化
 ・WEKO(Netcommons2のプラグイン)をベースに構築
 ・システム概念。クラウド→OS→NC2→WEKOとなっている。NIIのプライベート・クラウド内に、200機関分のリソース(一機関につき50GBを割当)を用意している
 ・JAIRO・CiNiiによる横断検索も可能
 ・バックエンドはLAMPスタック。全文検索はTritonnで。phpフレームワークはmapleを使用
  ○質疑
Q: どのくらいのレベルの人が導入できるのか?
A: webブラウザ・アプリをGUI操作できる人なら導入可能。(NC2の操作と合わせて)システム導入支援講習もやっている。論文メタデータを一括登録する際、ELS形式に揃える、のが結構大変なので、セルマッピング等ができるGUIの支援ツールを作ろうかとも考えている
Q: Mapleは開発が止まっているが、不安はないか?
A: いちおうNII内でスペシャリストが見ているので大丈夫。
Q: Dspaceからの移行は可能なのか? 東大ではツールを作っている。Dspaceはカスタマイズして使っているところも多いので、移行は大変では?
A: 「移行ツール」を来年度作成予定。Dspaceをカスタマイズするくらいのレベルであれば、そもそも移行を考えないのではないか。
 
 
●清田先生講義「プログラミング言語を知ろう」
 
・細部につっこむとキリがないので、さわりだけを。
・プログラム言語、ってなに?
→コンピュータへの命令
→人工言語
・例:マシン語のダンプリスト。→これをCPUで処理、する。
・「機械語」を(人間に)わかりやすくする、→さまざまなプログラミング言語
・わかりやすくするためには?→自然言語っぽくする?
・本質は、「抽象化」すること→詳細を隠して、全体を把握しやすくする
例:アセンブリ言語。抽象化ゼロ
例:FORTRAN 史上初の高水準言語。数式をほぼそのまま書ける
「プログラミングが好きでなかったので作った」(ジョン・バッカス)
・名前を知っておきたい言語。awk,Bounce shell script, C, C++, COBOL,...etc.
・それぞれの言語は、いろいろなパラダイムにもとづいて設計されている
・清田先生自身は、自然言語処理のためのプログラミングが多く、最初はPerl→最近はPythonが中心になっている
・「プログラマの三大美徳」(Larry Wallによる)→無精・短気・傲慢
・経営やマネジメントにもつながる話
・岡本さんの「コードを一行も書いたことがない」→プロデューサーの仕事はプログラミング行為そのもの
 
○質疑
Q: 高級言語、にはちょっと飽きていて、Perlにおける正規表現の簡潔な美しさはいい、と思う
A: うつくしさ、は傲慢につうじる大事な要素かもしれない
Q: COBOLは文系向き(?) いきなり高級言語よりも、いろいろな言語に触れてから、というステップを踏んだ方がベターなのでは
A: フレームワークの発達。ハードウェアとの距離が遠くなってしまうとリソースの按分に目が行かなくなる。
エンジニア限定のハナシかもしれないけど、ハードウェア寄りの言語も知っておくとベターかもしれない
Q: PCを使う、ことはできてもプログラミングができない、というキャズムは依然として存在する、なぜか。
A: 通ってきた道を見ても、わからない、ということもある。一般的な概念を事象に適合する→抽象化、というエンジニア的性格の有無ができる/できないを分けているのかもしれない。大学での勉強、座学一般、というのも共通する部分がある。
 
 
●全体討論・三津石さん
 
資料:facebook上の「年間スケジュール」 https://www.facebook.com/groups/201437096566189/doc/293011277408770/
 
・年会費制、に。
・三津石さん、研究生活に専念。マイタンを休む。事務作業を嶋田さんにお願いしている最中
・4月以降のスケジュール。今年も図書館総合展での発表をめざして共生プログラミング、という流れに
・グループワークに入らない、という選択肢もあり。
・ソロ活動もあり?
 
と、まあ基本こんな感じで。
 
○告知など
・「薬学図書館」への寄稿、8月くらいに刊行
・新規メンバーは清田先生か岡本さんに連絡、を。