tPigMapのインタフェース - 7.0

ビッグデータのフローマッピング

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio

Pigとは、スクリプト言語を使ってデータフローを表現したプラットフォームです。Pigは、Pig Latinという言語を使って、データを変換するステップバイステップのオペレーションをプログラミングします。

tPigMapは、Pigプロセスで処理する入出力フローをマッピングする、高度なコンポーネント(Pigコンポーネントのアレイ)です。そのため、ソースシステムからデータを読み込むためのtPigLoadと、指定した対象にデータを書き込むためのtPigStoreResultが必要になります。tPigLoadtPigMaptPigStoreResultから構成される基本的なデザインから始め、その他のさまざまなPigコンポーネントをtPigMapに追加していくことで、複雑さの異なるPigプロセスを視覚的に構築することができます。Pigコードはこれらのコンポーネントから生成されるため、Hadoop環境に最適なジョブが作成できます。

tPigMapの設定には、マップエディターを使います。[Map Editor] (マップエディター)はオールインワンのツールです。この便利なグラフィカルインタフェースを使って、データフローのマッピング、変換、ルートなどを行うあらゆるパラメーターを定義することができます。

ウィンドウアイコンを使うと、[Map Editor] (マップエディター)および[Map Editor] (マップエディター)内のすべてのテーブルを最小化し復元することができます。

[Map Editor] (マップエディター)はいくつかのパネルから構成されています:

  • [Input panel] (入力パネル)は、エディターの左上のパネルです。これはすべて(メインおよびルックアップ)の入力側データフローをグラフィカルに表現したものです。このデータは入力テーブルのさまざまなカラムに集められます。テーブル名は、デザインワークスペースのジョブデザインでのメインまたはルックアップの行を反映しています。

  • [Output panel] (出力パネル)は、エディターの右上のパネルです。入力テーブルのデータやフィールドを適切な出力行にマッピングします。

  • [Search panel] (検索パネル)は上部中央にあります。このパネルでは、[Find] (検索)フィールドに文字列を入力してエディターにあるカラムや式を検索することができます。

  • 検索パネルの下にある[UDF panel] (UDFパネル)を使用して、接続された入力コンポーネントによってロードされ、特定の出力データに適用されるPigユーザー定義関数を定義することができます。詳細は、UDFパネルを使用したPig UDFの定義を参照して下さい。

  • 下部のパネルはいずれも、入力および出力スキーマを説明するものです。[Schema editor] (スキーマエディター)タブでは、選択中の入力および出力テーブルのすべてのカラムのスキーマビューをそれそれのパネルに示しています。

  • [Expression editor] (式エディター)は、入出力データやフィルター条件式のすべてのキーを編集できるツールです。

[Map Editor] (マップエディター)の入力/出力テーブルの名前は、入力側および出力側フロー(行接続)の名前を反映しています。

この[Map Editor] (マップエディター)のデザインと使い方は、tMapなど、従来のTalendTalendのマッピングコンポーネント用のマップエディターと同じです。そのため、従来のマッピングコンポーネントを十分に理解するために、Talend Studioでデータフローがどのようにマッピングされるかを説明した『[Map editor] (マップエディター)インタフェース』の章を読むことをお勧めします。

Talendはまた、Talend MapReduceまたはSparkのジョブにビッグデータフローをマッピングするために、tMapのMapReduceバージョンとSparkバージョンを提供しています。これらのバージョンのtMapのユーザーインタフェースは、標準のtMapとほぼ同じです。