このプロパティは[Standard] (標準)ジョブフレームワークで実行するtPigStoreResultの設定で使用されます。
Standard tPigStoreResultコンポーネントはビッグデータファミリーおよび変換処理ファミリーに属しています。
このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで利用できます。
基本設定
[Property type] (プロパティタイプ) |
[Repository] (リポジトリー)または[Built-in] (組み込み)。 [Repository] (リポジトリー)オプションによって、[Repository] (リポジトリー)ツリーの[Hadoop cluster] (Hadoopクラスター)ノードの下に一元的に保管された接続のプロパティを再使用できるようになります。選択すると、 それ以外の場合は、[Built-in] (組み込み)を選択すると、各パラメーターを手動で設定する必要があります。 |
[Schema] (スキーマ)と[Edit Schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを使用できます。
|
|
[Built-in] (組み込み): そのコンポーネントのみのスキーマを作成して、ローカルに保存します。 |
|
[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。 |
[Use S3 endpoint] (S3エンドポイントを使用) |
このチェックボックスを選択して、特定のAmazon S3バケットフォルダーにデータを書き込みます。 この[Use S3 endpoint] (S3エンドポイントを使用)チェックボックスをオンにしたら、表示されたフィールドに次のパラメーターを入力する必要があります。
|
[Result folder URI] (結果フォルダーURI) |
データが保管される結果ファイルへのパスを選択します。 |
[Remove result directory if exists] (結果ディレクトリーがある場合は削除する) |
このチェックボックスを選択して、存在する結果ディレクトリーを削除します。
注:
[Store function] (関数の保存)リストから[HCatStorer]を選択する場合に、このチェックボックスは無効になります。 |
[Store function] (関数の保存) |
データが保管されるStore関数を選択します:
使用するファイル形式が[PARQUET]である場合は、特定のPARQUET jarファイルを見つけてStudioにインストールするように指示するプロンプトが表示される可能性があります。
|
[HCataLog Configuration] (HCataLog設定) |
以下のフィールドに入力して、HDFS (Hadoop Distributed File System)上のHCataLog管理対象テーブルを設定します。 [Distribution] (ディストリビューション)と[Version] (バージョン): アクティブなtPigStoreResultの同じPigプロセスで使用されるtPigLoadコンポーネントで接続を定義した対象のHadoopディストリビューションを選択します。 そのtPigLoadコンポーネントがカスタムHadoopディストリビューションに接続されている場合は、このtPigStoreResultコンポーネントにも[Custom] (カスタム)を選択する必要があります。選択後、[Custom jar] (カスタムjar)テーブルが表示されるので、選択した[Store function] (関数の保存)に必要なjarファイルだけを追加します。 [HCat metastore] (HCatメタストア): HCatalogのメタストア(実際にはHiveのメタストア)の場所を入力します。 [Database] (データベース): テーブルが置かれるデータベース。 [Table] (テーブル): データが保管されるテーブル。 [Partition filter] (パーティションフィルター): このフィールドにパーティションキーを入力して、パーティションをフィルターごとにリスト表示します。 注:
[Store function] (関数の保存)リストから[HCatStorer]を選択する時のみ、[HCataLog Configuration area] (HCataLog設定エリア)が有効になります。HCataLog DDLの使用に関する詳細は、https://cwiki.apache.org/confluence/display/Hive/HCatalogをご覧ください。[Partition filter] (パーティションフィルター)の使用に関する詳細は、https://cwiki.apache.org/confluence/display/HCATALOG/Design+Document+-+Java+APIs+for+HCatalog+DDL+Commandsをご覧ください。 |
[HBase Configuration] (HBase設定) |
このエリアはHBaseStorage関数によって使用できます。設定するパラメーターは以下のとおりです。 [Distribution] (ディストリビューション)と[Version] (バージョン): アクティブなtPigStoreResultの同じPigプロセスで使用されるtPigLoadコンポーネントで接続を定義した対象のHadoopディストリビューションを選択します。 そのtPigLoadコンポーネントがカスタムHadoopディストリビューションに接続されている場合は、このtPigStoreResultコンポーネントにも[Custom] (カスタム)を選択する必要があります。選択後、[Custom jar] (カスタムjar)テーブルが表示されるので、選択した[Store function] (関数の保存)に必要なjarファイルだけを追加します。 [Zookeeper quorum] (Zookeeperクォーラム): Studioとデータベース間のトランザクションを調整するZookeeperサービスの名前またはURLを入力します。Zookeeperを設定する時に、zookeeper.znode.parentプロパティを明示的に設定して、作成されてデータベースで使用されているすべてのznodeを含むルートznodeへのパスを定義しなければならない場合があります。次に、[Set Zookeeper znode parent] (親zookeeper znodeの設定)チェックボックスをオンにして、このプロパティを定義します。 [Zookeeper client port] (Zookeeperクライアントポート): 使用しているZookeeperサービスのクライアントリスニングポートの数を指定します。 [Table Name] (テーブル名): データを保管する必要があるHBaseテーブルの名前を入力します。テーブルはターゲットHBase内に存在している必要があります。 [Row key column] (行のキーカラム): HBaseテーブルの行のキーカラムとして使用されたカラムを選択します。 [Store row key column to Hbase column] (Hbaseカラムに行キーカラムを保管): このチェックボックスをオンにすると、行のキーカラムが、特定のカラムファミリーに属するHBaseカラムになります。 [Mapping] (マッピング): このテーブルに入力して、処理するデータフロー用に定義されているスキーマカラムに使うテーブルのカラムをマップします。 このテーブルの[Column] (カラム)カラムは、スキーマを定義すると自動的に入力されます。作成または使用するカラムファミリーを[Family name] (ファミリー名)カラムに入力して、[Column] (カラム)カラム内のカラムをグルーピングします。カラムファミリーの詳細の詳細は、Column familiesでApacheのドキュメンテーションをご覧ください。 |
[Field separator] (フィールド区切り) |
転送されたデータのフィールドを区切るために、文字、文字列、または正規表現を入力します。 注:
このフィールドは、[Store function] (関数の保存)リストから[PigStorage]を選択する時のみ有効になります。 |
[Sequence Storage configuration] (シーケンスストレージ設定) |
このエリアは[SequenceFileStorage]関数のみによって使用できます。SequenceFileレコードがバイナリキー/値のペアで構成されるため、設定するパラメーターは以下のとおりです。 [Key column] (キーカラム): キー/値レコードのキーカラムを選択します。 [Value column] (値カラム) キー/値レコードの値カラムを選択します。 |
詳細設定
[Register jar] (jarを登録) |
[+]ボタンをクリックしてテーブルに行を追加し、これらの行から、追加するjarファイルを参照します。たとえば、piggybank.jarというjarファイルを登録する場合は、[Select Module] (モジュールの選択)ウィザードに従って、[+]ボタンを1回クリックして行を1つ追加し、次にこの行をクリックして[...]参照ボタンを表示し、このボタンをクリックしてpiggybank.jarファイルを参照します。 |
[HBaseStorage configuration] (HBaseStorage設定) |
このテーブルにHBaseStorageストラーオプションをさらに追加および設定します。オプションは次のとおりです。 [loadKey]: trueと入力して、行キーを結果スキーマの1つ目の行として保管します。保管しない場合は、falseと入力します。 [gt]: キーの最小値。 [lt]: キーの最大値。 [gte]: キーの最小値(含まれる)。 [lte]: キーの最大値(含まれる)。 [limit]: リージョンごとに取得する最大行数。 [caching]: キャッシュする行数。 [caster]: HBaseへの書き込みに使用するコンバーター。たとえば、Utf8StorageConverter。 |
[Define the jars to register] (登録するjarを定義) |
このチェックボックスはtHCatStorerをお使いの時に表示され、デフォルトでは、Studioが必要なJarファイルを自動的に登録するため、消去されたままにしておけます。Jarフィルのどれかが見つからない場合は、このチェックボックスを選択し、[Register jar for HCatalog] (HCatalog用のJarを登録)テーブルを表示させて、その見つからないJarへの正しいパスを設定します。 |
[tStatCatcher Statistics] (tStatCatcher統計) |
このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。 |
グローバル変数
[Global Variables] (グローバル変数) |
ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合にのみ機能します。 Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。 フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。 変数の詳細は、 Talend Studio ユーザーガイドを参照してください。 |
使用方法
[Usage rule] (使用ルール) |
このコンポーネントは、Pigプロセスを終了するために常に使用されて、データを入力するにはこのチェーンの最初にtPigLoadが必要です。 このコンポーネントは、このPigプロセスでtPigLoadコンポーネントによって作成された接続を自動的に再使用します。 Hortonworks Data Platform V2.0.0を使用している場合は、ディストリビューションとTalendのジョブを実行するオペレーティングシステムの種類が同じでなければなりません(WindowsまたはLinuxなど)。それ以外の場合、Talend Jobserverを使用して、使用中のHortonworks Data Platform V2.0.0が稼働する同じ種類のオペレーティングシステムでジョブを実行する必要があります。 |
前提条件 |
Talend Studioとの操作を確実に行うには、Hadoopディストリビューションを適切にインストールする必要があります。以下のリストに、MapR関連の情報などを示します。
Hadoopディストリビューションのインストール方法の詳細は、使用しているHadoopディストリビューションに対応するマニュアルを参照してください。 |
制限事項 |
Pigスクリプトの知識が必要です。HCatStorerをStore関数として選択すると、HCataLog DDL (Hiveデータ定義言語のサブセットであるHCataLogデータ定義言語)の知識が必要となります。HCataLog DDLに関する詳細は、https://cwiki.apache.org/confluence/display/Hive/HCatalogをご覧ください。 |