交通データをロード - 7.2
Pig
- Version
- 7.2
- Language
- 日本語 (日本)
- Product
- Talend Big Data
- Talend Big Data Platform
- Talend Data Fabric
- Talend Open Studio for Big Data
- Talend Real-Time Big Data Platform
- Module
- Talend Studio
- Content
- ジョブデザインと開発 > サードパーティーシステム > 変換処理コンポーネント > Pig
- データガバナンス > サードパーティーシステム > 変換処理コンポーネント > Pig
- データクオリティとプレパレーション > サードパーティーシステム > 変換処理コンポーネント > Pig
手順
-
trafficというラベルの付いたtPigLoadをダブルクリックして、[Component] (コンポーネント)ビューを開きます。
-
[Edit schema] (スキーマを編集)の横の
ボタンをクリックし、スキーマエディターを開きます。
-
ボタンを3回クリックして3つの行を追加し、[Column] (カラム)カラムで、名前をそれぞれdata、street、trafficに変更します。
-
[OK]をクリックして、これらの変更を保存します。
-
StudioをリモートHadoopディストリビューションに接続する必要があるため、[Mode] (モード)エリアで[Map/Reduce]オプションを選択します。
-
[Distribution] (ディストリビューション)リストと[Version] (バージョン)フィールドで、使用するHadoopディストリビューション選択します。この例では、Hortonworks Data Platform V1.0.0となります。
-
[Load function] (関数のロード)リストで、データが人間によって判読可能なUTF-8形式での構造化ファイルであるため、[PigStorage]関数を選択して、ソースデータを読み取ります。
-
[NameNode URI] (ネームノードURI)フィールドと[Resource Manager] (リソースマネージャー)フィールドに、使用されるHadoopディストリビューションのマスターノードとリソースマネージャーの場所を入力します。 WebHDFSを使用している場合、ロケーションはwebhdfs://masternode:portnumberとなります。WebHDFS with SSLはまだサポートされていません。
-
[Input file URI] (入力ファイルのURI)フィールドに、交通状況に関するデータが保存されているディレクトリーを入力します。先に説明したように、この例のディレクトリーは/user/ychen/tpigmap/date&trafficです。
-
[Field separator] (フィールド区切り)フィールドに、ソースデータによって使用される区切りに応じて;を入力します。