Talend Studioでのビッグデータの最初のステップ
このチュートリアルでは、Talend Studioでのビッグデータの最初のステップを確認できます。
このチュートリアルではHadoopクラスターを活用します。Hadoopクラスターが利用可能であることが必要です。
Talend Studioプロジェクトを作成
プロジェクトの作成は、Talend Studioを使用するための最初のステップです。プロジェクトによって仕事をよりよく整理できるようになります。
手順
タスクの結果
Hadoopクラスター接続を使うジョブを作成
Talend Studioプロジェクトにはジョブが含まれています。ジョブではコンポーネントを通じてワークフローのビルドが可能なので、特定のアクションを完了できます。
始める前に
手順
タスクの結果
Hadoopクラスターのメタデータ定義を作成
Hadoopクラスターメタデータ定義を作成すれば、Hadoopクラスター情報でコンポーネントをすばやく設定できるようになります。また、Talend Studioを使うことでクラスターメタデータ定義をインポートできるようになります。
始める前に
- このチュートリアルではHadoopクラスターを活用します。Hadoopクラスターが利用可能であることが必要です。
- [Integration] (統合)パースペクティブ( )を選択します。
手順
タスクの結果
Hadoopクラスターのメタデータ定義をインポート
Hadoopクラスターの設定をインポートしてHadoopクラスターのメタデータ定義を作成すれば、その情報でコンポーネントをすばやく設定できるようになります。また、Talend Studioを使うことでクラスターのメタデータ定義を最初から作成できるようになります。
始める前に
- このチュートリアルではHadoopクラスターを活用します。Hadoopクラスターが利用可能であることが必要です。
- [Integration] (統合)パースペクティブ( )を選択します。
手順
タスクの結果
HDFSでデータを読み書き
このチュートリアルでは、自動的に生成されたランダムなデータを使用してHDFSにデータを書き込む方法を確認できます。次に、HDFSからデータを読み取り、ソートし、コンソールに結果を表示する方法を学習します。
ランダムデータを生成
tRowGeneratorコンポーネントを利用すると、Talend Studioによって機能テスト用のランダムデータが作成されます。
このタスクについて
手順
タスクの結果
次のタスク
メタデータを使ってHDFSにデータを書き込み
tHDFSOutputコンポーネントを使えば、HDFSにデータを書き込めます。
始める前に
- このチュートリアルではHadoopクラスターを活用します。Hadoopクラスターが利用可能であることが必要です。
- HDFSメタデータも設定済みであること(Hadoopクラスターのメタデータ定義を作成とHadoopクラスターのメタデータ定義をインポートをご覧ください)。
手順
タスクの結果
メタデータを使ってHDFSからデータを読み取り
tHDFSInputコンポーネントを使えば、HDFSからデータを読み取れます。
始める前に
- このチュートリアルではHadoopクラスターを活用します。Hadoopクラスターが利用可能であることが必要です。
- HDFSメタデータも設定済みであること(Hadoopクラスターのメタデータ定義を作成とHadoopクラスターのメタデータ定義をインポートをご覧ください)。
- HDFSにデータが書き込まれていること(メタデータを使ってHDFSにデータを書き込みをご覧ください)。