‘Mahout’ タグのついている投稿
Hadoop本
Hadoop関連のテキストを3冊紹介します。
1冊目は「象本」こと Hadoop: The Definitive Guide です。Hadoopについて勉強したい方は、まずはこのテキストを読むとよいでしょう。原初では第2版が出版されているので、英語が苦手ではない人は原初を読んだ方がよいかもしれません。
2冊目は Data Intensive Text Processing with MapReduce です。 “in-mapper combining”, “pairs/stripes”, “reduce/map-side join” などのMapReduceのデザインパターンや、 「転置インデックス」「グラフアルゴリズム」「EMアルゴリズム」などについて説明しています。MapReduceを用いてデータ解析を行う場合には、これらの知識が基礎になるのではないでしょうか。著者のWebページ でドラフト版の全文PDFが公開されているので、興味を持った方はまずこちらに目を通して見るとよいかと思います。
3冊目は Mahout in Action です。Hadoop上の機械学習・データマイニングライブラリであるMahoutについて説明しています。このテキスト、実はまだ完成していないのですが 「書きあがった所まで読む権利」 を購入することが出来ます。現在読むことが出来るのは “Recommendations” と “Clustering” のパートです。どのようなアルゴリズムがMapReduceに載せられるのか、実例を通して理解するという観点からも参考になるテキストです。
ところで HBase, Cassandara などの NoSQLや GAE のデータモデリングについて、何かよい参考文献はないものでしょうか?
