HDFSへの接続の作成 - 7.1

Talend Real-time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Real-Time Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

手順

  1. [Repository] (リポジトリ)ツリービューで、[Metadata] (メタデータ)ノードの下の[Hadoop cluster] (Hadoopクラスター)ノードを展開し、使用するHadoop接続を右クリックしてコンテキストメニューから[Create HDFS] (HDFSの作成)を選択します。
  2. 接続ウィザードが表示されます。ここで、[Name] (名前)[Purpose] (目的)[Description] (説明)など、ジェネリックプロパティを入力します。[Status] (ステータス)フィールドは、[File] (ファイル) > [Edit project properties] (プロジェクトプロパティの編集)で定義することができます。
  3. 完了したら、[Next] (次へ)をクリックします。2番目の手順では、HDFSの接続データを入力します。[User name] (ユーザー名)プロパティには、前の手順で選択したHadoop接続から継承された値が自動的に入力されます。
    [Row separator] (行区切り)と[Field separator] (フィールド区切り)のプロパティには、デフォルトの値を使用します。
    使用しているHadoop接続でKerberosセキュリティが有効な場合は、[User name] (ユーザー名)フィールドが自動的に無効になります。
  4. アクセス先のHDFSのデータに、無視したいヘッダーメッセージが含まれている場合は、[Header] (ヘッダー)チェックボックスをオンにして、無視するヘッダー行の番号を入力します。
  5. アクセスするデータのカラム名を定義する必要がある場合は、[Set heading row as column names] (見出し行をカラム名に設定する)チェックボックスをオンにします。これにより、Studioは無視した最後の行を選択し、データのカラム名として使用します。
    たとえば、このチェックボックスをオンにして、[Header] (ヘッダー)フィールドに「1」と入力すると、使用するデータのスキーマを取得するときに、データの最初の行がデータ本体としては無視され、データのカラム名として使用されます。
  6. 使用するHadoopディストリビューションのHDFSの設定をカスタマイズする必要がある場合は、[Hadoop properties] (Hadoopプロパティ)の横の[...]ボタンをクリックして対応するプロパティテーブルを開き、カスタマイズするプロパティを追加します。その後、ランタイムにStudioがHadoopのエンジンに使用するデフォルトのプロパティが、カスタマイズした設定に上書きされます。
    [Parent Hadoop properties] (親Hadoopプロパティ)テーブルは、現在編集中のプロパティテーブルの上に表示されます。この親テーブルは読み取り専用で、現在のHDFS接続のベースとなる親Hadoop接続のウィザードで定義されたHadoopプロパティがリストされます。
    HadoopのHDFS関連のプロパティについて詳しくは、http://hadoop.apache.org/docs/current/に記載されているApacheのHadoopについてのドキュメンテーションを参照するか、使用するHadoopディストリビューションのドキュメンテーションを参照して下さい。たとえば、次のページにはデフォルトのHDFS関連のHadoopプロパティの一部がリストされています: http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
    このプロパティテーブルの活用方法の詳細は、再利用可能なHadoopプロパティの設定を参照して下さい。
  7. 必要に応じてデフォルトの区切り文字を変更し、[Check] (チェック)をクリックして接続を確認します。
    正しく接続できたかどうかを示すメッセージが表示されます。
  8. [Finish] (終了)をクリックして、変更を確定します。
    作成したHDFSの接続は、[Repository] (リポジトリ)ツリービューの[Hadoop cluster] (Hadoopクラスター)ノードの下に表示されます。
    注:

    この[Repository] (リポジトリ)ビューは、使用しているStudioのエディションによって異なる場合があります。

    環境コンテキストを使用してこの接続のパラメーターを定義する必要がある場合は、[Export as context] (コンテキストとしてエクスポート)ボタンをクリックして対応するウィザードを開き、以下のオプションから選択します。
    • [Create a new repository context] (新しいリポジトリコンテキストの作成): 現在のHadoop接続からこの環境コンテキストを作成します。つまり、ウィザードで設定するパラメーターは、これらのパラメーターに設定した値と共にコンテキスト変数として取られます。

    • [Reuse an existing repository context] (既存のリポジトリコンテキストを再利用): 特定の環境コンテキストの変数を使用して現在の接続を設定します。

    コンテキストの実装をキャンセルする必要がある場合は、[Revert context] (コンテキストから戻す)をクリックします。使用中のコンテキスト変数の値は、このウィザードに直接入力されます。

    この[Export as context] (コンテキストとしてエクスポート)機能の使い方の手順を追った説明は、コンテキストとしてのメタデータのエクスポートとコンテキストパラメーターを再利用した接続の設定を参照して下さい。

  9. 作成した接続を右クリックし、ドロップダウンリストから[Retrieve schema] (スキーマの取得)を選択して、目的のテーブルスキーマを確立した接続からロードします。