Pig へようこそ!
Pig は、大規模なデータセットを分析するためのプラットフォームで、データ分析プログラムを記述するための高水準言語を構成要素とし、データ分析プログラムを評価するためのインフラストラクチャも備えています。Pig プログラムの最大の特徴は、大規模な並列処理に対応できる構造を持っていることで、このような特徴のゆえに、大規模なデータセットを処理することができるようになっています。
現在、Pig のインフラストラクチャを構成するコンパイラは一連の Map-Reduce プログラムを生成しますが、これらのプログラムを動作させるための大規模な並列実装 (Hadoop サブプロジェクトなど) はすでに存在しています。現時点で Pig の言語レイヤを構成しているのは、Pig Latin と呼ばれるテキストベースの言語で、次のような特徴があります。
- 容易なプログラミング。単純でありながら「嫌気がさすほど並列的な」データ分析タスクも、簡単に並列実行できます。相互関係を持つ複数データの変換を伴う複雑なタスクは、データフロー・シーケンスとして明示的にコード化されるので、コードの記述はもちろんのこと、コードの理解も保守も容易になります。
- 最適化。タスクのコード化方法を工夫していることで、システム側でコードの実行を自動的に最適化できるので、ユーザーは効率のことを考えずにプログラムの内容に集中することができます。
- 高い拡張性。具体的な処理目的に合わせてユーザーが独自の関数を作成できます。
最新情報
Pig 0.3.0 がリリースされました!
このリリースのハイライトはマルチクエリーの最適化で、これにより 1 つの Pig スクリプト内で複数のクエリーにまたがって計算を共有することができます。詳細については、リリースのページを参照してください。
スタートガイド
プロジェクトに参加するには
Pig は Apache Software Foundation の下で進められているボランティアによるオープンソースプロジェクトです。どのようなプロジェクトか理解して興味を持ったら、あなたが持っている優れた知識をぜひプロジェクトのために役立ててください。そのための方法をいくつか以下に示します。
- プロジェクトに協力するにはのページを参照してください。
- 改善すべき点などについてフィードバックをください。
- メーリングリストに参加して、コミュニティに加わってください。



