でたぁっ 感動と失敗の備忘録

データ解析を担当することになったサラリーマンの備忘録

TokyoR#30に参加してきた

 以前から参加してみたかったTokyoRに参加してきたので個人的な感想をメモメモ。φ(..)
ツートまとめはこちら 第30回R勉強会@東京 #TokyoR - Togetter @bob3bob3 さんがまとめてくれています。

1.はじめてのR(@aad34210さん)

demo()関数でdemoが見れる。ex)demo(graphics) + enter
R Cheet Sheet は、Rのカンニングペーパー
CRAN Task View はパッケージを見つけるのに便利

2.分散分析(@aad34210さん)

2つ以上の平均値を比較するための統計的手法(2つの場合はt検定)
主効果と交互作用効果
rep関数は繰り返せ
aov関数が分散分析
interactionm.plotで図示できる

3.MySQLではなくRでデータ操作しよう(@IT7Cさん)

Rデータ自由自在 ※そういえばこの本まだななめ読みだった もう1度読もう
DBI、RMySQL ※RMySQL は type='source' が必要

4.Rで始める強調フィルタリング(@mikado_hitoさん)

実際には組み合わせてつかうらしい
メモリベース
ユーザーベースTop-N は計算量が多い
アイテムベースTop-N はアイテムを選択しておくアクションが必要
モデルベース はベイジアン、クラスタリング、回帰モデル など
ハイブリッド型 はコンテンツベース
課題
 データのスパース性、スケーラリビティーシノニム、灰色の羊、シリングアタック
評価の枠組み
 k-given法による評価
 MAE 誤り率
 Precision 再生率
 Recall 再認率
 TPR 陽性率
 FPR 偽陽性率
 ROC曲線 ※判別器の指標
 Rでの実行例
 RecommenderLab ←これは使えそう! 実務で試すしかない!
 Jester5k サンプルデータセット 5000人分のジョーク

5.歴史を学んでR言語の未来を考える(@tech_machiiさん)

統計数理研究所のスパコンが更新される(アベノミクス効果)
RはAPLのパクリ
探索的データ解析では、まずデータを図で眺めるのを重視している
Rでも薬事申請できるようになった?

6.Rでコンジョイント分析(@bob3bob3さん)

重要度は全てたすと100になる
個人別の結果でクラスタリングもできる
DoE.base、AlgDesign 直交表
conjointパッケージ ポーランド語?
A/B多変量テストはコンジョイントと同じ考え?

7.plyrパッケージ徹底入門(@teramonagiさん)

作者は ggplot2 開発者
分割・適用・結合 が plyr の思想
Split、Apply、Combaine
XYply が最もよく使う関数 ※X:入力、Y:出力 のデータタイプ
従来のRの関数とも対応しているが使いやす
欠損値を除外 na=True
プログレスバーも導入可能
.parallel 引数もある ※並列処理
colwise関数 列毎への関数適用


以下LTをしてくれた皆様

8.R-3.0.0を使ってみてわかったn個のこと(@wdkzさん)

RDFは、主語・述語・目的語で構成
SPARQLは、RDFにアクセスするためのクエリ言語
Rでもできる

10.fluentdとR でお手軽ログ解析(@_TRIP_DANCERさん)

MongoDB

11..NET で書いて R で実行(@kos59125さん)

12.R 3.0.0 is released!(@sfchaosさん)

13.RとC++と画像処理 (PART3)(@yuukicammyさん)

ヒストグラムの類似性をEMDで求める
SIFT 画像特徴
Visual Words クラスタの中心ベクトル


皆様どうもありがとうございました。ペコリm(__)m
次回は6月1日、すでにATNDもたっている。さっそくエントリーさせて頂きました。