メイン コンテンツをスキップする 補完的コンテンツへスキップ

tFileInputFullRow MapReduceプロパティ(非推奨)

Availability-note非推奨

これらのプロパティは、MapReduceジョブのフレームワークで実行されているtFileInputFullRowを設定するために使われます。

MapReducetFileInputFullRowコンポーネントは、MapReduceファミリーに属しています。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。

MapReduceのフレームワークは、Talend 7.3以降非推奨となります。Apache SparkのTalendジョブを使って、インテグレーションタスクを実行します。

基本設定

[Property type] (プロパティタイプ)

[Built-in] (組み込み)[Repository] (リポジトリー)のいずれかです。

 

[Built-In] (組み込み): 一元的に保存されるプロパティデータはありません。

 

[Repository] (リポジトリー): プロパティが保存されているリポジトリーファイルを選択します。

プロパティは、[Repository] (リポジトリー)ツリーの[Hadoop Cluster] (Hadoopクラスター)ノードに一元的に保存されます。

[Hadoop Cluster] (Hadoopクラスター)ノードの詳細は、Getting Started Guideをご覧ください。

後続するフィールドは、取得されたデータを使用して事前に入力されます。

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。
情報メモ注: 変更を加えると、スキーマは自動的に組み込みになります。
 

[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Folder/File] (フォルダー/ファイル)

ファイルシステムで使用するデータを参照するか、パスを入力します。

設定したパスがフォルダーを指す場合、このコンポーネントによりフォルダーに保管されているすべてのファイル(/user/talend/inなど)が読み取られます。サブフォルダーが存在する場合、[Hadoop configuration] (Hadoop設定)タブの[Hadoop properties] (Hadoopプロパティ)テーブルでプロパティmapreduce.input.fileinputformat.input.dir.recursivetrueに設定しない限り、サブフォルダーは自動的に無視されます。

このフィールドに複数のファイルまたはディレクトリーを指定する場合は、パスをそれぞれコンマ(,)で区切ります。

読み取るファイルが圧縮されている場合は、拡張子を付けてファイル名を入力します。するとtHDFSFullRowは実行時に自動的に解凍します。サポートされている圧縮形式と対応する拡張子は次のとおりです。

  • DEFLATE: *.deflate

  • gzip: *.gz

  • bzip2: *.bz2

  • LZO: *.lzo

[Run] (実行)ビューの[Hadoop configuration] (Hadoop構成)タブで使用するHadoopディストリビューションの接続が正しく構成されていることを確認する必要があることにご注意ください。

[Die on error] (エラー発生時に強制終了)

エラーの発生した行をスキップし、エラーが発生していない行の処理を完了するには、このチェックボックスをオフにします。エラーをスキップしたら、[Row] (行)> [Reject] (リジェクト)リンクを使用してエラーの発生した行を収集できます。

[Row separator] (行区切り)

行の終端を識別するために使用される区切り。

[Header] (ヘッダー)

ファイルの先頭でスキップする行の数を入力します。

[Skip empty rows] (空の行をスキップ)

このチェックボックスを選択すると、空白行はスキップされます。

詳細設定

[Custom Encoding] (カスタムエンコーディング)

保管データを処理する際、エンコーディングの問題が発生することがあります。このような場合は、チェックボックスをオンにして[Encoding] (エンコーディング)リストを表示します。

次に、リストから使用するエンコーディングを選択するか、[Custom] (カスタム)を選択して手動で定義します。

グローバル変数

グローバル変数

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + スペースを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、Studio Talendユーザーガイドをご覧ください。

使用方法

使用ルール

Talend Map/Reduceジョブでは開始コンポーネントとして使用され、出力リンクとして変換コンポーネントが必要になります。一緒に使用される他のコンポーネントもMap/Reduceのコンポーネントでなければなりません。Hadoopで直接実行できるネイティブMap/Reduceコードを生成します。

Map/Reduceジョブがワークスペースで開かれると、tFileInputFullRowとMapReduceファミリがStudioの[Palette] (パレット)に表示されます。

本書では、特に明記されていない限り、標準ジョブ、つまり従来の Talend データ統合ジョブ、およびMap/Reduce以外のジョブのシナリオで説明しています。

[Hadoop Connection] (Hadoop接続)

[Run] (実行)ビューの[Hadoop Configuration] (Hadoop設定)タブを使用して、ジョブ全体で特定のHadoopディストリビューションに対する接続を定義する必要があります。

この接続は、ジョブごとに有効になります。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。