Excelファイルメタデータの一元管理

Talend Open Studio for Data Integration ユーザーガイド

EnrichVersion
5.6
EnrichProdName
Talend Open Studio for Data Integration
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

特定のExcelスプレッドシートファイルでデータの読み取りや書き込みを頻繁に行う必要がある場合、[Repository] (リポジトリ)にファイルの接続とデータ構造を一元化することで、簡単に再利用できます。これにより、ファイルを使用するたびに関連コンポーネントにメタデータの詳細を手動で定義する必要がなくなり、労力を節約することができます。

既存のExcelファイルまたはジョブに定義したExcelファイルプロパティ設定からExcelファイル接続を一元化することができます。

ExcelファイルからExcelファイル接続とそのスキーマを一元化するには、まず[Repository] (レポジトリ)ツリービューで[Metadata] (メタデータ)を展開します。次に[File Excel] (Excelファイル)を右クリックして、コンテキストメニューから[Create file Excel] (Excelファイルの作成)を選択し、ファイルメタデータセットアップウィザードを開きます。

ジョブで定義したファイル接続とスキーマを一元化するには、該当するコンポーネントの[Basic settings] (基本設定)ビュー([Property Type] (プロパティタイプ)は[Built-in] (組み込み)に設定)で アイコンをクリックし、ファイルメタデータセットアップウィザードを開きます。

ウィザードに従って以下のタスクを1つずつ完了します。

一般的なプロパティの定義

  1. ファイルメタデータセットアップウィザードでは、必須の[Name] (名前)フィールドを入力し、必要に応じて[Purpose] (目的)フィールドおよび[Description] (説明)フィールドを入力します。[Description] (説明)フィールドに入力した情報は、ファイル接続でマウスオーバーした時にツールヒントとして表示されます。

  2. 必要に応じて、[Version] (バージョン)フィールドと[Status] (ステータス)フィールドを設定します。リポジトリアイテムのバージョンとステータスは、[Project Settings] (プロジェクト設定)ダイアログボックスでも管理することができます。詳細は、バージョン管理およびステータス管理を参照してください。

  3. 必要に応じて、[Path] (パス)フィールドのとなりの[Select] (選択)ボタンをクリックし、[File Excel] (Excelファイル)ノードの下で、新規作成したファイル接続を格納するフォルダーを選択します。

  4. [Next] (次へ)をクリックしてファイル設定を続行します。

ファイルのロード

  1. [Browse...] (参照...)ボタンをクリックしてファイルを参照し、[File] (ファイル)フィールドに入力します。

    コンポーネントで定義済みのExcelファイル接続を保存する場合、既にファイルパスが[File] (ファイル)フィールドに挿入されているため、この手順はスキップします。

  2. アップロードするファイルがExcel 2007ファイルの場合は、[Read excel2007 file format(xlsx)] (Excel2007ファイル形式(xlsx)の読み込み)チェックボックスをオンにしていることを確認します。

  3. デフォルトでは、ユーザーモードが選択されています。大規模なxlsxファイルをアップロードした場合、[Generation mode] (生成モード)リストから[Less memory consumed for large excel(Event mode)] (大規模エクセルでのモリ消費を抑える(イベントモード))を選択し、メモリ不足エラーを防ぎます。

  4. [File viewer and sheets setting] (ファイルビューアおよびシート設定)エリアにファイルの内容が表示されるため、必要なシートを選択します。

    • [Please select sheet] (シートを選択してください)ドロップダウンリストで、表示するシートをクリックします。選択したシートの内容がプレビューテーブルに表示されます。

      デフォルトでは、ファイルプレビューテーブルにファイルの1番目のシートが表示されます。

    • [Set sheets parameters] (シートパラメーターの設定)リストでアップロードするシートのとなりのチェックボックスをオンにします。

      1つ以上のシートを選択した場合、結果のスキーマでは選択したシートのすべての構造が組み合わされます。

  5. [Next] (次へ)をクリックして、続行します。

ファイルの解析

ウィザードのこの手順では、ファイルのさまざまな設定を定義でき、適切なファイルスキーマを取得できます。

  1. Excelファイルに基づいてエンコーディング、数値の区切り文字の詳細を設定し、ヘッダーもしくはフッターの場合に省略する行を指定します。

  2. 必要に応じて、[First column] (最初のカラム)および[Last column] (最後のカラム)フィールドに整数を入力し、ファイルの読み込むカラムを正確に指定します。たとえば、適切な処理対象データがないため1番目のカラムをスキップする場合は、[First column] (最初のカラム)フィールドに"2"と入力して、ファイルの2列目をスキーマの1列目として設定します。

    Excelファイルのスキーマを取得するために、特に大きなファイルをアップロードした場合を含め、ファイルのすべての行を解析する必要はありません。解析する行数を制限するには、[Limit Of Rows] (行の制限)エリアで[Limit] (制限)チェックボックスをオンにし、希望する行数を設定または選択します。

  3. Excelファイルにヘッダー行が含まれる場合は、[Set heading row as column names] (先頭行をカラム名に設定)チェックボックスをオンにしてヘッダーを設定します。[Refresh] (更新)をクリックして、すべての変更を適用した結果をプレビューテーブルに表示します。

  4. [Next] (次へ)をクリックして、続行します。

エンドスキーマの確定

ウィザードの最後の手順で表示される、生成されたエンドスキーマは必要に応じてカスタマイズできます。

プログラムで誤って解釈される可能性のある文字は、中立の文字に置き換えられます。たとえば、アスタリスクはアンダースコアに置き換えられます。

  1. 必要に応じて、スキーマの名前(デフォルトはmetadata)を変更し、コメントを入力します。

    必要に応じてツールバーを使ってスキーマカラムを追加、削除、移動する、スキーマをXMLファイルにエクスポートする、スキーマ定義XMLファイルをインポートしてスキーマを置き換える、などスキーマをカスタマイズします。

  2. スキーマの基になるExcelファイルが変更されたら、[Guess] (推測)ボタンをクリックして、スキーマを再度生成します。スキーマをカスタマイズしている場合、[Guess](推測)をクリックすると変更が失われることに注意してください。

  3. [Finish] (終了)をクリックします。[Repository] (リポジトリ)ツリービューの該当する[File Excel] (Excelファイル)接続ノードの下に新規スキーマが表示されます。

これで、ファイル接続または任意のスキーマを[Repository] (リポジトリ)ツリービューでドラッグして、新規コンポーネントとしてデザインワークスペースにドロップするか、既存のコンポーネントにドロップしてメタデータを再利用できるようになりました。ジョブで一元管理するメタデータの使用方法の詳細は、ジョブで一元化されたメタデータを使用する方法およびリポジトリスキーマを設定する方法を参照してください。

既存のファイル接続を変更するには、[Repository] (リポジトリ)ツリービューで接続を右クリックし、[Edit file Excel] (Excelファイルの編集)を選択して、ファイルメタデータセットアップウィザードを開きます。

既存のファイル接続に新規スキーマを追加するには、[Repository] (リポジトリ)ツリービューで接続を右クリックし、コンテキストメニューから[Retrieve Schema] (スキーマ情報の取得)を選択します。

既存のファイルスキーマを編集するには、[Repository] (リポジトリ)ツリービューでスキーマを右クリックし、コンテキストメニューから[Edit Schema] (スキーマの編集)を選択します。