Talend Studioでファイルをソート - 7.3

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン

Talend Studioでファイルをソート

このチュートリアルでは、Talend StudiotSortRowコンポーネントを使ってファイルからデータをソートする方法を確認できます。

このチュートリアルでは.csvファイルを使います。.csvファイルがない場合は、 [Downloads] (ダウンロード)タブをクリックしてcustomers_unordered.csvを保存します。

Talend Studioプロジェクトを作成

プロジェクトの作成は、Talend Studioを使用するための最初のステップです。プロジェクトによって仕事をよりよく整理できるようになります。

手順

  1. [Create a new project] (新しいプロジェクトを作成)を選択します。
  2. プロジェクトの名前を入力します。

    TalendDemo
  3. [Create] (作成)をクリックします。
  4. [Finish] (終了)をクリックします。

タスクの結果

プロジェクトが開きます。Talend Studioで作業する準備が整いました。

区切り付きファイルをソートするジョブを作成

Talend Studioプロジェクトにはジョブが含まれています。ジョブではコンポーネントを通じてワークフローのビルドが可能なので、特定のアクションを完了できます。

始める前に

[Integration] (統合)パースペクティブ([Window] (ウィンドウ) > パースペクティブ > [Integration] (統合))を選択します。

手順

  1. [Repository] (リポジトリー)で、[Job Designs] (ジョブデザイン)を右クリックします。
    1. [Create Standard Job] (標準ジョブを作成)をクリックします。
  2. [Name] (名前)フィールドに、名前を入力します。

    SortCSVfile
  3. オプション: [Purpose] (目的)フィールドに目的を入力します。

    Sort a .csv file
  4. オプション: [Description] (説明)フィールドに説明を入力します。

    Sort a .csv file according to a defined column
    ヒント: [Purpose] (目的)[Description] (説明)を入力して整理します。
  5. [Finish] (終了)をクリックします。

タスクの結果

[Designer] (デザイナー)で空のジョブが開かれます。

区切り付きファイルを読み取るコンポーネントを設定

Talend Studioのコンポーネントを使えば、特定のアクションを完了できるようになります。コンポーネントはジョブに追加できます。tFileInputDelimitedコンポーネントを使えば、区切り付きファイルを読み取ったりできるようになります。

始める前に

このチュートリアルでは.csvファイルを使います。.csvファイルがない場合は、 [Downloads] (ダウンロード)タブをクリックしてcustomers_unordered.csvを保存します。

手順

  1. [Designer] (デザイナー)内をクリックします。
  2. tFileInputDelimitedと入力し、同名のコンポーネントを選択します。
  3. [Designer] (デザイナー)で、tFileInputDelimitedコンポーネントをダブルクリックします。
    1. [File Name/Stream] (ファイル名/ストリーム)フィールドの横にある[...]ボタンをクリックします。
    2. [File Explorer] (ファイルエクスプローラー)で目的のファイルを選択します。
    3. オプション: そのファイルの[Field Separator] (フィールド区切り)をチェックし、必要であれば変更します。
      注: 最も一般的な[Field Separator] (フィールド区切り) ; です。

タスクの結果

tFileInputDelimitedコンポーネントが追加され、読み取るファイルが選択されます。

区切り付きファイルを読み取るコンポーネントスキーマを定義

区切り付きファイルのコンポーネントスキーマを定義すれば、作業中のデータの解析が容易になります。

始める前に

tFileInputDelimitedコンポーネントを追加および設定していること(区切り付きファイルを読み取るコンポーネントを設定をご覧ください)。

手順

  1. [Designer] (デザイナー)で、tFileInputDelimitedコンポーネントをダブルクリックします。
  2. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックします。
    [Schema] (スキーマ)ウィザードが開きます。
  3. プラスボタンをクリックして新しいカラムを追加します。
    1. .csvファイルのヘッダーと同じ数のカラムを追加します。
      注: ヘッダーは.csvファイルの最初の値です。
    2. カラムの名前を入力します。
      カラム名はヘッダー名と同じであることが必要です。

      • First
      • Last
      • Number
      • Street
      • City
      • State
    3. カラムタイプを選択します。
      ヒント: 郵便番号にはStringを選択します。郵便番号には演算関数が含まれないようにしてください。
  4. [OK]をクリックします。

タスクの結果

ファイルのスキーマが定義されます。

データをソート

Talend StudiotSortRowコンポーネントを使えば、データをソートできます。

区切り付きファイルをソート

tSortRowコンポーネントへのリンクで、区切り付きファイルをソートできます。tSortRowコンポーネントは、1つまたは複数のカラムに基づき、ソートタイプやソート順序などによって入力データをソートします。

始める前に

手順

  1. [Designer] (デザイナー)tSortRowコンポーネントを追加します。
  2. tFileInputDelimitedコンポーネントを右クリックします。
    1. [Row] (行) > [Main] (メイン)を選択します。
    2. tSortRowコンポーネントをクリックし、両コンポーネントをリンクします。
  3. tSortRowコンポーネントをダブルクリックします。
  4. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックします。
    両者はリンクされているため、tSortRowコンポーネントはtFileInputDelimitedコンポーネントのスキーマを継承します。
  5. プラスボタンをクリックして、ソートルールを追加します。

    1. [Schema column] (スキーマカラム)Cityを選択します。
    2. [sort num or alpha?] (数字または英字でソート?)alphaを選択します。
  6. オプション: プラスボタンをクリックして、別のルールを追加します。

    1. [Schema column] (スキーマカラム)Streetを選択します。
    2. [sort num or alpha?] (数字または英字でソート?)alphaを選択します。

タスクの結果

ソートされているように区切り付きファイルデータが設定されます。

区切り付きファイルのソート結果を表示

tLogRowコンポーネントへのリンクを使えば、ワークフローの結果を表示できます。tLogRowコンポーネントは、[Run] (実行)コンソール内にデータを表示します。

始める前に

手順

  1. [Designer] (デザイナー)tLogRowコンポーネントを追加します。
  2. tSortRowコンポーネントを右クリックします。
    1. [Row] (行) > [Main] (メイン)を選択します。
    2. tLogRowコンポーネントをクリックし、2つのコンポーネントをリンクします。