tPigStoreResult標準プロパティ - 7.2

Pig

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 変換処理コンポーネント > Pig
データガバナンス > サードパーティーシステム > 変換処理コンポーネント > Pig
データクオリティとプレパレーション > サードパーティーシステム > 変換処理コンポーネント > Pig

このプロパティは[Standard] (標準)ジョブフレームワークで実行するtPigStoreResultの設定で使用されます。

Standard tPigStoreResultコンポーネントはビッグデータファミリーおよび変換処理ファミリーのコンポーネントです。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。

基本設定

[Property type] (プロパティタイプ)

[Repository] (リポジトリー)または[Built-in] (組み込み)

[Repository] (リポジトリー)オプションによって、[Repository] (リポジトリー)ツリーの[Hadoop cluster] (Hadoopクラスター)ノードの下に一元的に保管された接続プロパティを再使用できるようになります。選択すると、ボタンが表示されます。そして、これをクリックし、保管されたプロパティのリストを表示させて、そのリストから使う必要があるプロパティを選択します。選択したら、適切なパラメーターが自動的に設定されます。

それ以外の場合は、[Built-in] (組み込み)を選択すると、各パラメーターを手動で設定する必要があります。

[Schema] (スキーマ)[Edit Schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを使用できます。

  • [View schema] (スキーマの表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続を更新): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーのコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

 

[Built-in] (組み込み): そのコンポーネントのみのスキーマを作成して、ローカルに保存します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Use S3 endpoint] (S3エンドポイントを使用)

このチェックボックスを選択して、特定のAmazon S3バケットフォルダーにデータを書き込みます。

この[Use S3 endpoint] (S3エンドポイントを使用)チェックボックスをオンにしたら、表示されたフィールドに次のパラメーターを入力する必要があります。
  • [S3 bucket name and folder] (S3バケットの名前とフォルダー): データを書き込む必要があるバケットの名前とそのフォルダーを入力します。バケット名とフォルダー名はスラッシュ(/)で区切ってください。

  • Access key (アクセスキー)とSecret key(シークレットキー): 使用するAmazon S3バケットへの接続に必要な認証情報を入力します。

    パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

S3ファイルの形式はS3N (S3ネイティブファイルシステム)です。

[Result folder URI] (結果フォルダーURI)

データが保管される結果ファイルへのパスを選択します。

[Remove result directory if exists] (結果ディレクトリーがある場合は削除する)

このチェックボックスを選択して、存在する結果ディレクトリーを削除します。
注:

[Store function] (関数の保存)リストから[HCatStorer]を選択する場合に、このチェックボックスは無効になります。

[Store function] (関数の保存)

データが保管されるStore関数を選択します:
  • [PigStorage]: UTF-8形式でデータを保管します。

  • [BinStorage]: コンピューターによって読み取り可能な形式でデータを保管します。

  • [PigDump]: データをタプルとして人間によって判読可能なUTF-8形式で保管します。

  • [HCatStorer]: Pigスクリプトを使用して、HCataLog管理対象テーブルにデータを保管します。

  • [HBaseStorage]: HBaseにデータを保管します。次に、表示される[HBase configuration] (HBase設定)エリア内で、HBase設定を完了必要があります。

  • [SequenceFileStorage]: SequenceFile形式のデータを保管します。次に、表示される[Sequence Storage Configuration] (シーケンスストレージ設定)エリアに保管されるファイルの設定を確定する必要があります。

  • [RCFilePigStorage]: RCFile形式のデータを保管します。

  • [AvroStorage]: Avroファイルを保管します。AvroStorageの詳細は、Apacheのドキュメンテーションを https://cwiki.apache.org/confluence/display/PIG/AvroStorageでご覧ください。

  • [ParquetStorer]: Parquetファイルを保管します。次に、[Associate tPigLoad component] (tPigLoadコンポーネントを関連付ける)リストから、使用されるMapReduceクラスターへの接続が定義されるtPigLoadコンポーネントを選択する必要があります。

    [Compression] (圧縮)リストが表示されたら、PARQUETファイルの処理に必要な圧縮モードを選択します。デフォルトモードは[Uncompressed] (圧縮なし)です。

  • [Custom] (カスタム): どのユーザー定義Store関数でも使うデータを保管します。そうするには、[Advanced settings] (詳細設定)タブビューで、使用される関数を含むjarファイルを登録した後に、[Store function] (関数の保存)フィールドの横に表示されているフィールドでその関数を指定する必要があります。

使用するファイル形式が[PARQUET]である場合は、特定のPARQUET jarファイルを見つけてStudioにインストールするように指示するプロンプトが表示される可能性があります。
  • Hiveへの接続モードが[Embedded] (埋め込み)の場合、ジョブはローカルマシンで実行され、Studioにインストールされたこのjarを呼び出します。

  • Hiveへの接続モードが[Standalone] (スタンドアロン)の場合、ジョブはHiveをホストするサーバーで実行され、このjarファイルは接続先のクラスターのHDFSシステムに送信されます。したがって、[Basic settings] (基本設定)ビューの対応するフィールドでNameNode URIが正しく定義されていることをご確認ください。

このjarファイルはApacheのサイトからダウンロードできます。

[HCataLog Configuration] (HCataLog設定)

以下のフィールドに入力して、HDFS (Hadoop Distributed File System)上のHCataLog管理対象テーブルを設定します。

[Distribution] (ディストリビューション)[Version] (バージョン):

アクティブなtPigStoreResultの同じPigプロセスで使用されるtPigLoadコンポーネントで接続を定義した対象のHadoopディストリビューションを選択します。

そのtPigLoadコンポーネントがカスタムHadoopディストリビューションに接続されている場合は、このtPigStoreResultコンポーネントにも[Custom] (カスタム)を選択する必要があります。選択後、[Custom jar] (カスタムjar)テーブルが表示されるので、選択した[Store function] (関数の保存)に必要なjarファイルだけを追加します。

[HCat metastore] (HCatメタストア): HCatalogのメタストア(実際にはHiveのメタストア)の場所を入力します。

[Database] (データベース): テーブルが置かれるデータベース。

[Table] (テーブル): データが保管されるテーブル。

[Partition filter] (パーティションフィルター): このフィールドにパーティションキーを入力して、パーティションをフィルターごとにリスト表示します。

注:

[Store function] (関数の保存)リストから[HCatStorer]を選択する時のみ、[HCataLog Configuration area] (HCataLog設定エリア)が有効になります。HCataLog DDLの使用に関する詳細は、https://cwiki.apache.org/confluence/display/Hive/HCatalogをご覧ください。[Partition filter] (パーティションフィルター)の使用に関する詳細は、https://cwiki.apache.org/confluence/display/HCATALOG/Design+Document+-+Java+APIs+for+HCatalog+DDL+Commandsをご覧ください。

[HBase Configuration] (HBase設定)

このエリアはHBaseStorage関数によって使用できます。設定するパラメーターは以下のとおりです。

[Distribution] (ディストリビューション)[Version] (バージョン):

アクティブなtPigStoreResultの同じPigプロセスで使用されるtPigLoadコンポーネントで接続を定義した対象のHadoopディストリビューションを選択します。

そのtPigLoadコンポーネントがカスタムHadoopディストリビューションに接続されている場合は、このtPigStoreResultコンポーネントにも[Custom] (カスタム)を選択する必要があります。選択後、[Custom jar] (カスタムjar)テーブルが表示されるので、選択した[Store function] (関数の保存)に必要なjarファイルだけを追加します。

[Zookeeper quorum] (Zookeeperクォーラム):

Studioとデータベース間のトランザクションを調整するZookeeperサービスの名前またはURLを入力します。Zookeeperを設定する時に、zookeeper.znode.parentプロパティを明示的に設定して、作成されてデータベースで使用されているすべてのznodeを含むルートznodeへのパスを定義しなければならない場合があります。次に、[Set Zookeeper znode parent] (親zookeeper znodeの設定)チェックボックスをオンにして、このプロパティを定義します。

[Zookeeper client port] (Zookeeperクライアントポート):

使用しているZookeeperサービスのクライアントリスニングポートの数を指定します。

[Table Name] (テーブル名):

データを保管する必要があるHBaseテーブルの名前を入力します。テーブルはターゲットHBase内に存在している必要があります。

[Row key column] (行のキーカラム):

HBaseテーブルの行のキーカラムとして使用されたカラムを選択します。

[Store row key column to Hbase column] (Hbaseカラムに行キーカラムを保管):

このチェックボックスをオンにすると、行のキーカラムが、特定のカラムファミリーに属するHBaseカラムになります。

[Mapping] (マッピング):

このテーブルに入力して、処理するデータフロー用に定義されているスキーマカラムに使うテーブルのカラムをマップします。

このテーブルの[Column] (カラム)カラムは、スキーマを定義すると自動的に入力されます。作成または使用するカラムファミリーを[Family name] (ファミリー名)カラムに入力して、[Column] (カラム)カラム内のカラムをグループ化します。カラムファミリーの詳細の詳細は、Column familiesでApacheのドキュメンテーションを参照してください。

[Field separator] (フィールド区切り)

転送されたデータのフィールドを区切るために、文字、文字列、または正規表現を入力します。

注:

このフィールドは、[Store function] (関数の保存)リストから[PigStorage]を選択する時のみ有効になります。

[Sequence Storage configuration] (シーケンスストレージ設定)

このエリアは[SequenceFileStorage]関数のみによって使用できます。SequenceFileレコードがバイナリキー/値のペアで構成されるため、設定するパラメーターは以下のとおりです。

[Key column] (キーカラム):

キー/値レコードのキーカラムを選択します。

[Value column] (値カラム)

キー/値レコードの値カラムを選択します。

詳細設定

[Register jar] (jarを登録)

[+]ボタンをクリックしてテーブルに行を追加し、これらの行から、追加するjarファイルを参照します。たとえば、piggybank.jarというjarファイルを登録する場合は、[Select Module] (モジュールの選択)ウィザードに従って、[+]ボタンを1回クリックして行を1つ追加し、次にこの行をクリックして[...]参照ボタンを表示し、このボタンをクリックしてpiggybank.jarファイルを参照します。

[HBaseStorage configuration] (HBaseStorage設定)

このテーブルにHBaseStorageストラーオプションをさらに追加および設定します。オプションは次のとおりです。

[loadKey]: trueと入力して、行キーを結果スキーマの1つ目の行として保管します。保管しない場合は、falseと入力します。

[gt]: キーの最小値。

[lt]: キーの最大値。

[gte]: キーの最小値(含まれる)。

[lte]: キーの最大値(含まれる)。

[limit]: リージョンごとに取得する最大行数。

[caching]: キャッシュする行数。

[caster]: HBaseへの書き込みに使用するコンバーター。たとえば、Utf8StorageConverter

[Define the jars to register] (登録するjarを定義)

このチェックボックスはtHCatStorerをお使いの時に表示され、デフォルトでは、Studioが必要なJarファイルを自動的に登録するため、消去されたままにしておけます。Jarフィルのどれかが見つからない場合は、このチェックボックスを選択し、[Register jar for HCatalog] (HCatalog用のJarを登録)テーブルを表示させて、その見つからないJarへの正しいパスを設定します。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

グローバル変数

[Global Variables] (グローバル変数)

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合にのみ機能します。

Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細については、 Talend Studio ユーザーガイドを参照してください。

使用方法

[Usage rule] (使用ルール)

このコンポーネントは、Pigプロセスを終了するために常に使用されて、データを入力するにはこのチェーンの最初にtPigLoadが必要です。

このコンポーネントは、このPigプロセスでtPigLoadコンポーネントによって作成された接続を自動的に再使用します。

Hortonworks Data Platform V2.0.0を使用している場合は、ディストリビューションとTalendのジョブを実行するオペレーティングシステムの種類が同じでなければなりません(WindowsまたはLinuxなど)。それ以外の場合、Talend Jobserverを使用して、使用中のHortonworks Data Platform V2.0.0が稼働する同じ種類のオペレーティングシステムでジョブを実行する必要があります。

前提条件

Talend Studioとの操作を確実に行うには、Hadoopディストリビューションを適切にインストールする必要があります。以下のリストに、MapR関連の情報などを示します。

  • MapRクライアントは必ずStudioのあるマシンにインストールして、そのマシンのPATH変数にMapRクライアントライブラリーを追加します。MapRのドキュメンテーションによると、各OSバージョンに対応するMapRクライアントのライブラリーは、MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\nativeにあるとされています。たとえば、Windows版のライブラリーは、\lib\native\MapRClient.dllにあるMapRクライアントのjarファイルにあります。詳細は、MapRからhttp://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-maprを参照してください。

    指定のライブラリーを追加しないと、no MapRClient in java.library.pathというエラーが発生する可能性があります。

  • たとえば、[Window] (ウィンドウ)メニューの[Preferences] (環境設定)ダイアログボックスにある[Run/Debug] (実行/デバッグ)ビューの[Job Run VM arguments] (ジョブ実行VMの引数)エリアで、-Djava.library.path引数を設定します。この引数により、そのMapRクライアントのネイティブライブラリーへのパスがStudioに渡されるので、サブスクリプションベースのユーザーはデータビューアーをフルに活用して、MapRに保存されたデータをStudioでローカルに表示できます。

Hadoopディストリビューションのインストール方法の詳細は、使用しているHadoopディストリビューションに対応するマニュアルを参照してください。

制限事項

Pigスクリプトの知識が必要です。HCatStorerをStore関数として選択すると、HCataLog DDL (Hiveデータ定義言語のサブセットであるHCataLogデータ定義言語)の知識が必要となります。HCataLog DDLに関する詳細は、https://cwiki.apache.org/confluence/display/Hive/HCatalogをご覧ください。