HDFSへの接続の作成 - Cloud - 7.3

Talend Studioユーザーガイド

Version
Cloud
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-02-13
対象製品...

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

手順

  1. [Repository] (リポジトリー)ツリービューで、[Metadata] (メタデータ)ノードの下の[Hadoop cluster] (Hadoopクラスター)ノードを展開し、使用するHadoop接続を右クリックしてコンテキストメニューから[Create HDFS] (HDFSの作成)を選択します。
  2. 接続ウィザードが表示されます。ここで、[Name] (名前)[Purpose] (目的)[Description] (説明)など、ジェネリックプロパティを入力します。[Status] (ステータス)フィールドは、[File] (ファイル) > [Edit project properties] (プロジェクトプロパティを編集)で定義できます。
  3. 完了したら、[Next] (次へ)をクリックします。2番目の手順では、HDFSの接続データを入力します。[User name] (ユーザー名)プロパティには、前の手順で選択したHadoop接続から継承された値が自動的に入力されます。
    [Row separator] (行区切り)[Field separator] (フィールド区切り)のプロパティには、デフォルトの値を使用します。
    使用しているHadoop接続でKerberosセキュリティが有効な場合は、[User name] (ユーザー名)フィールドが自動的に無効になります。
  4. アクセス先のHDFSのデータに、無視したいヘッダーメッセージが含まれている場合は、[Header] (ヘッダー)チェックボックスをオンにして、無視するヘッダー行の番号を入力します。
  5. アクセスするデータのカラム名を定義する必要がある場合は、[Set heading row as column names] (先頭行をカラム名に設定)チェックボックスをオンにします。これにより、Studioは無視した最後の行を選択し、データのカラム名として使用します。
    たとえば、このチェックボックスをオンにして、[Header] (ヘッダー)フィールドに1と入力すると、使用するデータのスキーマを取得する時に、データの最初の行がデータボディとしては無視され、データのカラム名として使用されます。
  6. 使用するHadoopディストリビューションのHDFSの設定をカスタマイズする必要がある場合は、[Hadoop properties] (Hadoopのプロパティ)の横の[...]ボタンをクリックして対応するプロパティテーブルを開き、カスタマイズするプロパティを追加します。その後、実行時にStudioがHadoopのエンジンに使用するデフォルトのプロパティが、カスタマイズした設定に上書きされます。
    [Parent Hadoop properties] (親Hadoopのプロパティ)テーブルは、現在編集中のプロパティテーブルの上部に表示されます。この親テーブルは読み取り専用で、現在のHDFS接続のベースとなる親Hadoop接続のウィザードで定義されたHadoopのプロパティがリストされます。
    HDFSに関連するプロパティの詳細は、Apache Hadoopのドキュメンテーションか、使用するHadoopディストリビューションのドキュメンテーションをご覧ください。たとえば、このページにはデフォルトのHDFS関連のHadoopプロパティがいくつか記載されています。
    このプロパティテーブルの活用方法の詳細は、再利用可能なHadoopのプロパティの設定をご覧ください。
  7. 必要に応じてデフォルトの区切り文字を変更し、[Check] (チェック)をクリックして接続を確認します。
    正しく接続できたかどうかを示すメッセージが表示されます。
  8. [Finish] (終了)をクリックして変更を確定します。
    作成したHDFSの接続は、[Repository] (リポジトリー)ツリービューの[Hadoop cluster] (Hadoopクラスター)ノードの下に表示されます。
    注:

    この[Repository] (リポジトリー)ビューは、使用しているStudioのエディションによって異なる場合があります。

    環境コンテキストを使用してこの接続のパラメーターを定義する必要がある場合は、[Export as context] (コンテキストとしてエクスポート)ボタンをクリックして対応するウィザードを開き、以下のオプションから選択します。
    • [Create a new repository context] (新しいリポジトリーコンテキストを作成): 現在のHadoop接続からこの環境コンテキストを作成します。つまり、ウィザードで設定するパラメーターは、これらのパラメーターに設定した値と共にコンテキスト変数として取られます。

    • [Reuse an existing repository context] (既存のリポジトリーコンテキストを再利用): 特定の環境コンテキストの変数を使用して現在の接続を設定します。

    コンテキストの実装をキャンセルする必要がある場合は、[Revert Context] (コンテキストを復元)をクリックします。使用中のコンテキスト変数の値は、このウィザードに直接入力されます。

    この[Export as context] (コンテキストとしてエクスポート)機能の使い方に関するステップバイステップの説明は、メタデータのコンテキストとしてエクスポート、およびコンテキストパラメーターを再利用して接続を設定をご覧ください。

  9. 作成した接続を右クリックし、ドロップダウンリストから[Retrieve schema] (スキーマを取得)を選択して、目的のテーブルスキーマを確立した接続からロードします。