tFileInputExcelの標準プロパティ - 7.3

Excel

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > ファイルコンポーネント > Excel
データガバナンス > サードパーティーシステム > ファイルコンポーネント > Excel
データクオリティとプレパレーション > サードパーティーシステム > ファイルコンポーネント > Excel

これらのプロパティを使って、Standardジョブフレームワーク内で実行されているtFileInputExcelを設定します。

ファイルStandardtFileInputARFFコンポーネントはファミリーのコンポーネントです。

このフレームワーク内のコンポーネントは、すべてのTalend製品で使用できます。

基本設定

[Property type] (プロパティタイプ)

[Built-in] (組み込み)または[Repository] (リポジトリー)のいずれかで次の設定を行います。

 

[Built-In] (組み込み): プロパティデータは一元的に保存されません。

 

[Repository] (リポジトリー): プロパティを保存するリポジトリーファイルを選択します。次のフィールドは、取得したデータを使用して自動的に完了されます。

このアイコンをクリックすると、接続ウィザードが開き、コンポーネント[Basic settings] (基本設定)ビューに設定したExcelファイル接続パラメーターが保存されます。

ファイル接続パラメーターの設定と保存の詳細は、 Talend Studioユーザーガイドを参照してください。

[Read excel2007 file format (xlsx / xlsm)] (Excel 2007ファイル形式(xlsx / xlsm)で読み取り)

Excel 2007の.xlsxまたは.xlsmファイルを読み取るには、このチェックボックスをオンにします。

[File Name/Stream] (ファイル名/ストリーム)

[File name] (ファイル名): 処理するファイルまたは変数の名前。

[Stream] (ストリーム): 処理されるデータフロー。オートコンプリートリスト([Ctrl] + [Space])のINPUT_STREAM変数を使ってtFileInputExcelによってデータが収集されるように、データをフローに追加する必要があります。

ジョブで変数を定義して使う方法の詳細は、 Talend Studioユーザーガイドを参照してください。

警告: エラーを避けるために、このフィールドには(相対パスの代わりに)絶対パスを使用します。

Password (パスワード)

このフレームの右側にある3つのドットのボタンをクリックして、Excelファイルに設定したパスワードを二重引用符で囲みます。

このフィールドは、パスワードで保護されたExcel 2007(およびそれ以降のバージョン)ファイル用であり、 [Read excel2007 file format(xlsx)] (excel2007ファイル形式(xlsx)の読み取り)が選択されている場合に使えます。

このコンポーネントは、標準の暗号化とアジャイル暗号化をサポートしています。

[All sheets] (すべてのシート)

Excelファイルのすべてのシートを処理するには、このチェックボックスをオンにします。

[Sheet list] (シート一覧)

[+]ボタンをクリックして、処理するExcelシートのリストに必要な数の行を追加します。

[Sheet (name or position)] (シート(名前または位置)): 処理するExcelシートの名前または位置を入力します。

正規表現を使用する: 正規表現を使用して処理するシートをフィルタリングする場合は、このチェックボックスをオンにします。

[Header] (ヘッダー)

ファイルの先頭でスキップする行の数を入力します。

ダイナミックスキーマを使用する場合、ヘッダーフィールド値が設定されているかどうかに関係なく、入力データの最初の行が常にヘッダー行として扱われることにご注意ください。ダイナミックスキーマの詳細は、『 Talend Studio ユーザーガイド』を参照してください。

[Footer] (フッター)

ファイルの最後にスキップするレコード数。

[Limit] (制限)

処理される行の最大数。

[Affect each sheet(header&footer)] (各シートに影響(ヘッダー&フッター))

[Header] (ヘッダー)フィールドと[Footer] (フッター) フィールドで設定したパラメーターを、処理するすべてのExcelシートに適用する場合は、このチェックボックスをオンにします。
注: このオプションは、[Advanced settings] (詳細設定)ビューの[Generation mode] (生成モード)ドロップダウンリストから[Memory-consuming (User mode) [メモリ消費(ユーザーモード))を選択した場合にのみ使えます。

[Die on error] (エラー発生時に強制終了)

このチェックボックスをオンにすると、エラー発生時にジョブの実行が停止されます。エラーの発生した行をスキップし、エラーが発生していない行の処理を完了するには、このチェックボックスをオフにします。必要に応じてRow > Rejectリンクを使用してエラー発生時に行を収集できます。

[First column] (最初のカラム)[Last column] (最後のカラム)

[First column] (最初のカラム)フィールド [Last column] (最後のカラム)フィールドでそれぞれ最初と最後のカラムを設定することにより、処理するカラムの範囲を定義します。

Schema (スキーマ)およびEdit schema (スキーマを編集)

スキーマとは行の説明で、処理された後に次のコンポーネントに渡されるフィールドの数を定義するものです。スキーマは[Built-in] (組み込み)か、[Repository] (リポジトリー)にリモートで保存されます。

このコンポーネントはダイナミックスキーマ機能の利点を備えているので、ソースファイルから不明なカラムを取得したり、各カラムを個別にマッピングしなくてもソースからカラムを一括してコピーしたりできます。ダイナミックスキーマの詳細は、『 Talend Studio ユーザーガイド』を参照してください。

このダイナミックスキーマ機能は、テーブルの不明なカラムを取得する目的で設計されており、この目的に限り使用をお勧めします。テーブルの作成で使用することは勧められていません。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを使用できます。

  • [View schema] (スキーマの表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続を更新): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーのコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

 

[Built-in] (組み込み): このコンポーネントに対してのみ作成されたスキーマがローカルに保管されます。関連項目: 『 Talend Studioユーザーガイド』を参照してください。

 

[Repository] (リポジトリー): スキーマは既に存在し、リポジトリーに保管されているため、さまざまなプロジェクトやジョブフローチャートで再利用できます。関連項目: 『 Talend Studioユーザーガイド』を参照してください。

詳細設定

[Advanced separator] (高度な区切り記号)

このチェックボックスをオンにすると、データの区切り記号を変更できます。

すべてのカラムをトリム

このチェックボックスをオンにすると、先行ホワイトスペースおよび後続ホワイトスペースがすべてのカラムから削除されます。このチェックボックスをオフにすると、[Check column to trim] (トリミングするカラムの確認)テーブルが表示され、トリミングする特定のカラムを選択できます。

[Check columns to trim] (トリミングするカラムのチェック)

このテーブルは使用されているスキーマで自動入力されます。トリミングするカラムに対応するチェックボックスをオンにします。

[Convert date column to string] (日付カラムを文字列に変換)

[Basic settings] (基本設定)ビューで[Read excel2007 file format (xlsx) (Excel 2007ファイル形式(xlsx)を読み取る]が選択されている場合に使えます。

このチェックボックスをオンにすると、[Check need convert date column] (チェックが必要な変換日付カラム)が表示されます 。ここでは、指定された日付パターンに基づいて日付値を含む文字列カラムを解析できます。

[Column] (カラム): ソース.xlsxファイルのスキーマで使用可能なすべてのカラム。

[Convert] (変換): このチェックボックスをオンにすると、すべてのカラムを変換の対象として選択できます(すべてが文字列型の場合のみ)。変換する各カラムの横にある個別のチェックボックスをオンにすることもできます。

[Date pattern] (日付パターン): ここで日付形式を設定します。

[Encoding] (エンコーディング)

リストからエンコーディングを選択するか、[CUSTOM] (カスタム)を選択して、手動で定義します。このフィールドは、DBデータ処理で必須となります。

[Read real values for numbers] (数値の実際の値を読み取る)

このチェックボックスをオンにすると、数値が実際の値で読み取られます。[Basic settings] (基本設定)ビューで[Read excel2007 file format (xlsx)] (Excel 2007ファイル形式(xlsx)を読み取る)を選択すると、このチェックボックスは使えなくなります。

[Stop reading on encountering empty rows] (空の行に遭遇した時に読み取りを停止する)

このチェックボックスをオンにすると、検出された空行が無視されます。空の行がある場合は、この空の行に続く行も無視されます。[Basic settings] (基本設定)ビューで[Read excel2007 file format (xlsx)] (Excel 2007ファイル形式(xlsx)を読み取る)を選択すると、このチェックボックスは使えなくなります。

Generation mode (生成モード)

[Basic settings] (基本設定)ビューで[Read excel2007 file format (xlsx) (Excel 2007ファイル形式(xlsx)を読み取る]が選択されている場合に使えます。Excel 2007ファイルの読み取りに使うモードを選択します。

  • [Less memory consumed for large excel(Event mode)] (大きなExcelで消費されるメモリを少なくする(イベントモード)): 大きなファイルに使われます。これは、Excel 2007ファイルをフローとして読み取るためのメモリ節約モードです。このオプションは、大きなExcelファイルを読み取る時のメモリ消費量が多いためのメモリ不足エラーによるジョブの失敗を防ぐのに役立ちます。

    このモードを選択すると、パーセント記号%や通貨記号$などの形式記号でデータが抽出されます。さらに、インデックスでふりがなを使用できるように、[Include phonetic runs] (ふりがなを含む)チェックボックスがデフォルトでオンになっています。

  • [Memory-consuming (User mode)] (メモリを消費する(ユーザーモード)): 小さなファイルに使われます。多くのメモリが必要です。このモードを選択すると、フォーマット記号のない純粋なデータが抽出されます。

[Don't validate the cells] (セルを検証しない)

データを検証しないようにするには、このチェックボックスをオンにします。[Basic settings] (基本設定)ビューで[Read excel2007 file format (xlsx)] (Excel 2007ファイル形式(xlsx)を読み取る)を選択すると、このチェックボックスは使えなくなります。

[Ignore the warning] (警告を無視する)

Excelファイルのエラーを示すために生成されたすべての警告を無視するには、このチェックボックスをオンにします。[Basic settings] (基本設定)ビューで[Read excel2007 file format (xlsx)] (Excel 2007ファイル形式(xlsx)を読み取る)を選択すると、このチェックボックスは使えなくなります。

[tStatCatcher Statistics] (tStatCatcher統計情報)

このチェックボックスをオンにすると、ジョブレベルやコンポーネントレベルでジョブ処理メタデータが収集されます。

グローバル変数

[Global Variables] (グローバル変数)

NB_LINE: 処理された行の数。これはAfter変数で、整数を返します。

CURRENT_SHEET: 処理されているシートの名前。これはFlow変数で、文字列を返します。

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合にのみ機能します。

Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、『 Talend Studio ユーザーガイド』を参照してください。

使用方法

使用ルール

このコンポーネントを使ってExcelファイルを読み取り、ファイルで識別されたスキーマに応じてデータを個別に出力します。[Row] (行) > [Reject] (リジェクト)リンクを使って、定義されたタイプに対応しないデータをフィルタリングできます。この2つのリンクを使用する方法の例は、手順を参照してください。

制限事項

ライセンスの互換性の問題のため、このコンポーネントの使用に必要な1つ以上のJARが提供されていません。この特定のコンポーネントに不足しているJARをインストールするには、Component (コンポーネント)タブビューの[Install] (インストール)ボタンをクリックします。Studioの Integration パースペクティブの[Modules] (モジュール)タブでも、不足しているすべてのJARを簡単に見つけて追加できます。詳細は、外部モジュールのインストールを参照してください。外部モジュールをインストールする方法の詳細は、Talend Help Center (https://help.talend.com)を参照してください。