tPigMapのインタフェース - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

tPigMapは、Pigプロセスで処理する入出力フローをマッピングする、高度なコンポーネント(Pigコンポーネントのアレイ)です。

Pigとは、スクリプト言語を使ってデータフローを表現したプラットフォームです。Pigは、Pig Latinという言語を使って、データを変換するステップバイステップのオペレーションをプログラミングします。

tPigMapでは、ソースシステムからデータを読み込むためのtPigLoadと、指定した対象にデータを書き込むためのtPigStoreResultが必要になります。tPigLoadtPigMaptPigStoreResultから構成される基本的なデザインから始め、その他のさまざまなPigコンポーネントをtPigMapに追加していくことで、複雑さの異なるPigプロセスを視覚的に構築することができます。Pigコードはこれらのコンポーネントから生成されるため、Hadoop環境に最適なジョブが作成できます。

tPigMapの設定には、マップエディターを使います。このマップエディターはオールインワンのツールです。この便利なグラフィカルインタフェースを使って、データフローのマッピング、変換、ルートなどを行うあらゆるパラメーターを定義することができます。

ウィンドウアイコンを使うと、[Map Editor] (マップエディター)および[Map Editor] (マップエディター)内の全てのテーブルを最小化し復元することができます。

[Map Editor] (マップエディター)はいくつかのパネルから構成されています:

  • エディターの左上には[Input] (入力)パネルがあります。これは全て(メインおよびルックアップ)の入力側データフローをグラフィカルに表現したものです。このデータは入力テーブルのさまざまなカラムに集められます。テーブル名は、デザインワークスペースのジョブデザインでのメインまたはルックアップの行を反映しています。

  • [Output panel] (出力パネル)は、エディターの右上のパネルです。入力テーブルのデータやフィールドを適切な出力行にマッピングします。

  • [Search panel] (検索パネル)は上部中央にあります。このパネルでは、[Find] (検索)フィールドに文字列を入力してエディターにあるカラムや式を検索することができます。

  • 検索パネルの下にある[UDF panel] (UDFパネル)を使用して、接続された入力コンポーネントによってロードされ、特定の出力データに適用されるPigユーザー定義関数を定義することができます。詳細は、UDFパネルを使用したPig UDFの定義を参照して下さい。

  • 下部のパネルはいずれも、入力および出力スキーマを説明するものです。[Schema editor] (スキーマエディター)タブでは、選択中の入力および出力テーブルの全てのカラムのスキーマビューをそれそれのパネルに示しています。

  • [Expression editor] (式エディター)は、入出力データやフィルター条件式の全てのキーを編集できるツールです。

[Map Editor] (マップエディター)の入力/出力テーブルの名前は、入力側および出力側フロー(行接続)の名前を反映しています。

この[Map Editor] (マップエディター)のデザインと使い方は、TalendtMapコンポーネントなど、従来ののマッピングコンポーネントのマップエディターと同じです。そのため、従来のマッピングコンポーネントを十分に理解するために、Talend Studioでデータフローがどのようにマッピングされるかを説明した『[Map editor] (マップエディター)インタフェース』の章を読むことをお勧めします。

Talendはまた、MapReduceまたはSparkのジョブにビッグデータフローをマッピングするために、tMapのMapReduceバージョンとSparkバージョンを提供しています。これらのバージョンのtMapのユーザーインタフェースは、標準のtMapとほぼ同じです。