Apache > Hadoop > Pig
 

Pig へようこそ!

Pig は、大規模なデータセットを分析するためのプラットフォームで、データ分析プログラムを記述するための高水準言語を構成要素とし、データ分析プログラムを評価するためのインフラストラクチャも備えています。Pig プログラムの最大の特徴は、大規模な並列処理に対応できる構造を持っていることで、このような特徴のゆえに、大規模なデータセットを処理することができるようになっています。

現在、Pig のインフラストラクチャを構成するコンパイラは一連の Map-Reduce プログラムを生成しますが、これらのプログラムを動作させるための大規模な並列実装 (Hadoop サブプロジェクトなど) はすでに存在しています。現時点で Pig の言語レイヤを構成しているのは、Pig Latin と呼ばれるテキストベースの言語で、次のような特徴があります。

最新情報

Pig 0.3.0 がリリースされました!

このリリースのハイライトはマルチクエリーの最適化で、これにより 1 つの Pig スクリプト内で複数のクエリーにまたがって計算を共有することができます。詳細については、リリースのページを参照してください。

スタートガイド

  1. 基本を理解する。
  2. ドキュメントを読む。
  3. Pig の紹介を見る
  4. Pig についてメーリングリストで議論する。

プロジェクトに参加するには

Pig は Apache Software Foundation の下で進められているボランティアによるオープンソースプロジェクトです。どのようなプロジェクトか理解して興味を持ったら、あなたが持っている優れた知識をぜひプロジェクトのために役立ててください。そのための方法をいくつか以下に示します。

  1. プロジェクトに協力するにはのページを参照してください。
  2. 改善すべき点などについてフィードバックをください。
  3. メーリングリストに参加して、コミュニティに加わってください。