飼い主/ペットのサンプルデータを読み取る - 7.2

Pig

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 変換処理コンポーネント > Pig
データガバナンス > サードパーティーシステム > 変換処理コンポーネント > Pig
データクオリティとプレパレーション > サードパーティーシステム > 変換処理コンポーネント > Pig

手順

  1. メインtPigLoadコンポーネントをダブルクリックし、その[Component] (コンポーネント)ビューを開きます。
  2. [Edit schema] (スキーマを編集)の横の[...]ボタンをクリックしてスキーマエディターを開き、[+]ボダンを3回クリックして行を3つ追加します。
  3. [Column] (カラム)カラムで、新しい行の名前をそれぞれownerpetageに変更した後に、age行も[Type] (タイプ)カラムで[Integer] (整数)を選択します。
  4. [OK]をクリックしてこれらの変更を確認し、ポップアップ表示されるダイアログボックスで求められるプロパゲーションを承認します。
  5. [Mode] (モード)エリアで、[Map/Reduce]を選択して、使用されるリモートHadoopクラスターを使います。
  6. [Distribution] (ディストリビューション)リストと[Version] (バージョン)リストで、お使いのHadoopディストリビューション選択します。この例では、HortonWorks Data Platform V2.1.0 (Baikal)が選択されています。
  7. [Load function] (関数のロード)リストで、[PigStorage]を選択します。未設定の対応するパラメーターが表示されます。
  8. [NameNode URI]フィールドと[Resource Manager] (リソースマネージャー)フィールドに、それらのサービスのロケーションをそれぞれ入力します。 WebHDFSを使用している場合、ロケーションはwebhdfs://masternode:portnumberとなります。WebHDFS with SSLはまだサポートされていません。
  9. [Set Resourcemanager scheduler address] (リソースマネージャースケジューラーアドレスの設定)チェックボックスをオンにして、表示されたフィールドにこのサービスのURIを入力します。これにより、使用されるHadoopクラスターで定義されるスケジューラーサービスを使うことができます。クラスターでこのサービスが定義されていない場合は、このステップを無視できます。
  10. [User name] (ユーザー名)フィールドに、クラスターにデータを書き込む適切な権限を持っているユーザーの名前を入力します。この例では、hdfsとなります。
  11. [Input file URI] (入力ファイルURI)フィールドに、データを読み込む必要がある関係を指すパスを入力します。先に説明したように、ここで読み取られる関係は飼い主とペットのサンプルデータを含む関係です。
  12. [Field separator] (フィールド区切り記号)フィールドに、読み取られるデータの区切り記号を入力します。この例では、セミコロン(;)となります。