さくさくテキストマイニング#6 に参加してきました #SakuTeki
12/17 に行われた「さくさくテキストマイニング#6」 に参加してきました。
テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、 大量のアンケートテキストを分析するために用いられる技術です。 特にマーケティングの場で多くの利用例があります。
さくさくテキストマイニングは、テキストマイニングについて興味のある人を対象として、 入門レベルから最新の要素技術や適用事例についての話が聞ける勉強会です。 今回はその6回目になります。
私は第1回と第2回に参加しましたがしばらく多忙で参加できず、 今回久しぶりの参加でした。
以下、発表を聞きながら取った個人的なメモを公開します。(ところどころ完全に抜けているのはご容赦ください)
入門セッション @AntiBayes さん
概要
- テキストマイニング必須用語を20分程度で紹介
毎回恒例となっている、初心者向けの入門セッションです。
分かりやすいスライド資料が公開されているので、詳しくはそちらを見てください
http://www.slideshare.net/AntiBayesian/ss-10620456
ツイートからユーザーをクラスタリングできる? @gepuro さん
発表資料: http://www.slideshare.net/gepuro/clustering-of-user
概要
- ツイートからユーザを分類できるかやってみた
- 結果: 文字2-gramで非階層型クラスタリングしたらうまくいった
(すみませんが、途中からメモを取りはじめたのでこのセッションのメモがありません)
テキストマイニングのイメージと実際 @AntiBayes さん
発表資料: http://www.slideshare.net/AntiBayesian/ss-10620707
概要
- (Hadoop × ビッグデータ × データマイニング) のイメージとギャップについて
メモ
- Hadoop
- hive を使えば Hadoop は簡単に使える
- HiveQLの例:
select count(*) from table limit 10
- ビッグデータ
- ビッグデータがあっても、どのような指標を作ったり解析したりするかを誤れば何も得られない
- 統計的素養が必要
- ビッグデータでデータクレンジングは無理
- どうしてもやりたければログ出力部分の設計変更が必要
- ビッグデータがあっても、どのような指標を作ったり解析したりするかを誤れば何も得られない
- 統計解析の基礎
- 例:「給料の増加がパフォーマンスの向上に繋がるかどうか」を調べる
- 操作変数: 給料
- 説明変数: パフォーマンス
- 統制変数: それ以外
- 例:「給料の増加がパフォーマンスの向上に繋がるかどうか」を調べる
- ソーシャルアプリのテキストマイニングで苦労したこと
- 原理的な対立が存在
- ゲーム制作側: 新規要素を入れるのが仕事
- データマイニング側: 要素を統制するのが仕事
- 事例1: テキストからトレンドを知りたい
- →外的要因多すぎ
- 新ゲームがリリースされると、それに関連した単語の頻度が急増する
- ログ出力失敗してる
- ログ出力の頻度が変わる
- →外的要因多すぎ
- 事例2: アクセス端末を調べよう
- →いつのまにかパターンが増えてる
- (PC, 携帯電話)
- (PC, 携帯電話, スマートフォン)
- (PC, 携帯電話, iPhone, スマートフォン)
- (PC, 携帯電話, iPhone, スマートフォン, タブレット)
- →いつのまにかパターンが増えてる
- 事例3: 商品の効果測定をしたい
- →商品が途中で増える、なくなる、単位すら変わる
- 原理的な対立が存在
- 話が通じない
「分析とは」~モバイル検索の現場より~ @stsuji0303 さん
概要
- 携帯電話向け検索エンジンの改良をした
メモ
- 携帯電話で検索されることの多い語彙
- 季節行事: 初詣, 花見
- 大規模なイベント: 五輪, サッカーW杯, 甲子園
- 時事ネタ: テレビで話題になった商品や芸能人
- ナビゲーションクエリ(特定のサイトの検索)も多い
- どんなクエリに対してどんな結果をどうやって出すか?
- 元データ
- 1,300万行/日 * 365日 * 3年の生ログ
- date,time,word,UA
- クエリには同義語、誤記も含まれる
- 人手で作成した辞書とシソーラスを用いて生ログをクレンジング
- 時期的な偏り × 検索クエリ数で分類
- 時期的な偏りが大きい AND 検索クエリ数が多い → 短期集中イベント型
- 時期的な偏りが小さい AND 検索クエリ数が中程度 → レストランの検索など携帯電話ならではのシーンが多く含まれる
- この2つのパターンを中心に、ユーザの欲しいであろう情報を出す
- 「新宿 初詣」で検索したら、検索結果の上に新宿近辺の神社の情報を表示する
- 元データ
- テキストマイニングの良いところ
- 客観的で定量的なデータを、誰がやっても取れること
- グループインタビューは、まだ存在しないサービスに対しては向かない
- 分析には目的がある
- 目的:ユーザの利用動向を知ること
- 手段:過去の検索クエリをマイニングし、可視化する
(ここから先3件のセッションはメモを取り損ねました)
スタート形態素解析 @todesking さん
発表資料: http://www.slideshare.net/todesking/ss-10621137
概要
- MeCab のデータを使って形態素解析器を作ってみた
ソースコード: https://github.com/todesking/okura
@unnonouno さん
概要
- 大規模データに対してオンライン学習可能な Jubatus について
http://research.preferred.jp/2011/10/jubatus/
@sleepy_yoshi さん
概要
- 時空間情報を用いて検索を行う新しいインタフェースを備えた Android アプリ「エリアダス」の紹介
公式サイト: http://www.facebook.com/areadas
那須川さん
概要
- テキストマイニングとは何か
- 何が重要か
- 従来の技術と何が違うか
- 活用事例
「テキストマイニングを使う技術/作る技術」の著者の方です。
IBM で TAKMI というテキストマイニングツールを開発されています。
メモ
- テキストマイニングの本質
- 個々のテキストを読んだだけでは得られない知見を獲得する
- どのような問い合わせが多いのか
- どのような問い合わせが増えているのか
- 個々のテキストを読んだだけでは得られない知見を獲得する
- 長所
- 膨大な量のデータが利用可能
- 全体的な傾向が分かる
- 短所
- 導入に工夫が必要
- 人手による分析との違い
- テキストマイニングの目的は「気づき」を得るため
- 人手で集計していた結果を自動化しようとすると失敗する
- 出てきた結果に含まれるノイズに対する理解が必要
- テキストマイニングの目的は「気づき」を得るため
- 件数ではなく分布の偏りと変化を見る
- 再現率が50%以下でも、他と比較することで有意な結果が得られる
- アクションに繋がるテキストマイニング
- 世の中には活用されていないテキストデータが溢れている
- 対象データと目的に応じた分析設定の試行錯誤
- 「必ず何かが出てくる」と信じて深堀りする
- 結果が出るまでに時間がかかることを納得してもらうことが大事
- 最近作っているもの
- 「週刊感動」 iPhone アプリ
- テキストマイニングで出てきたキーワードを翻訳する→多言語化
(発表時は実際にデモを見せながら実例を交えて説明されていましたが、メモではそこは割愛しています。活用事例についても同様です)
抜けが多くてすみません。 Togetter や他の参加者の方のブログ記事(見つけ次第随時追加)にリンクしておくので、そちらで補完してください。
