メイン コンテンツをスキップする 補完的コンテンツへスキップ

Talend Data Integration - インポート

Availability-note AWS

ブリッジの要件

このブリッジ:
  • ドライバーを<TDC_HOME>/data/download/MIMB/にダウンロードするためには、https://repo.maven.apache.org/maven2/ やその他のツールサイトへのインターネットアクセスが必要です。

ブリッジの仕様

ベンダー Talend
ツール名 Talend Data Integration
ツールバージョン 5.x〜8.x
ツールのWebサイト https://www.talend.com/products/data-integration/ (英語のみ)
サポートされている方法論 [データ統合] マルチモデル、データストア(物理データモデル、論理データモデル、ストアドプロシージャー式解析)、ETL (ソースとターゲットのデータストア、変換来歴、式解析)、グラフィカルレイアウト Eclipse Java API経由の
データプロファイリング
増分収集
マルチモデル収集
モデル選択のためのリモートリポジトリーの参照

仕様
ツール: Eclipse Java API経由のTalend / Talend Data Integrationバージョン5.x〜8.x
https://www.talend.com/products/data-integration/をご覧ください
メタデータ: [データ統合] マルチモデル、データストア(物理データモデル、論理データモデル、ストアドプロシージャー式解析)、ETL (ソースとターゲットのデータソース、変換来歴、式解析)、グラフィカルレイアウト
コンポーネント: Talendバージョン11.2.0

免責事項
このインポートブリッジでは、インターネットに接続して次のサードパーティライブラリーをダウンロードする必要があります:
- オープンソースのサードパーティライブラリーをダウンロードする場合はhttps://repo.maven.apache.org/maven2/など
- その他のサードパーティソフトウェア(データベース特定のJDBCドライバーなど)は該当するサイトへ

ダウンロードされたサードパーティライブラリーは、$HOME/data/download/MIMB/に格納されています。
HTTPSが失敗した場合、インポートブリッジはHTTPを試します。
- インターネットへのアクセスにプロキシを使用している場合は、JREでそのプロキシを設定する必要があります(Miscellaneousパラメーターで -j オプションをご覧ください)。
- インポートブリッジではインターネットにフルにアクセスできない場合は、インターネットアクセスがある別のサーバーから$HOME/data/download/MIMB/ディレクトリーをコピーします。$HOME/bin/MIMB.sh (または.bat) -dというコマンドを使えば、すべてのブリッジで使用される全サードパーティライブラリーを一度にダウンロードできます。

このインポートブリッジを実行すると、ライセンス規約の責任、およびダウンロードしたサードパーティソフトウェアライブラリーによって生じる潜在的なセキュリティの脆弱性を受け入れることになります。

概要
このインポートブリッジは、Talend データ統合プロジェクトディレクトリーからTalend Data Integration (DI)ジョブ、ジョブレット、および接続を解析し、ソースとターゲットのデータストア(例: データベーススキーマ、テーブル、カラム)のデータモデル、およびそのようなデータストア間にあるデータフロー来歴のデータ統合(DI/ETL/ELT)モデルを抽出します。

要件
該当なし

よくある質問
Q: tJavaRow内の手書きのJavaコードから来歴を取得するにはどうすればよいですか?
A: tJavaRowのようなカスタムコードコンポーネントのコメントパラメーターの下部に、次の構文でデータマッピング仕様を提供します:

*** lineage start ***
output_row.newColumn = input_row.newColumn;
output_row.newColumn1 = input_row.newColumn1;
*** lineage end ***

ユーザーは、算術演算と関数による1つまたは複数のステートメントを使用してデータ来歴の依存項目を指定できます。
以下の3つの例は、操作の異なる同じ依存項目を生成します。

output_row.newColumn = input_row.newColumn+input_row.newColumn1;

output_row.newColumn = input_row.newColumn;
output_row.newColumn = input_row.newColumn1;

output_row.newColumn = custom_function(input_row.newColumn, input_row.newColumn1);

ユーザーは、Java ? : 演算子を使用して制御来歴の依存項目を指定できます。

output_row.newColumn = (input_row.newColumn > 0) ? input_row.newColumn1 : 12;

Q: 接続がTalend Data Preparationにスティッチされるようにインポートするにはどうすればいいですか?
A: このブリッジはTalend Data Preparationからのバックアップを活用し、Talend Data Preparation内にあるものに正しくスティッチ(一致)する接続を生成します。
1. このバックアップを生成するためには、ブリッジパラメーターの下で[-backup]オプションを使ってData Preparationブリッジを実行します。
2. ステップ(1)で生成されたバックアップ入力フォルダーのパス名と共に、このブリッジのパラメーターで[talenddatapreparation.backup]オプションを指定します。

制限事項
現在判明している一般的な制限事項は、MIMB Known Limitationsか、バンドルされているDocumentation/ReadMe/MIMBKnownLimitations.htmlをご覧ください。

サポート
トラブルシューティングパッケージを次の項目と共に提供してください。
- デバッグログ(UIまたはconf/conf.propertiesでMIR_LOG_LEVEL=6を使って設定可能)
- 利用できる場合はメタデータバックアップ(技術的理由によりこの共通オプションが実装されていないブリッジがあるものの、Miscellaneousパラメーターで-backupオプションを使って設定可能)


ブリッジパラメーター

パラメーター名 説明 タイプ デフォルト 範囲
プロジェクトディレクトリー Talendプロジェクトがあるファイルディレクトリー。
プロセス、メタデータ、またはジョブレットのディレクトリーが必要です。
DIRECTORY     必須
プロジェクト項目 セミコロンで区切られたジョブまたは接続のような項目の名前。項目はTalendリポジトリー(ファイルシステム)内のパスによって識別されます。たとえば、フォルダーのfolderName内のジョブのjobNameはprocess/folderName/jobNameとして識別されます。

以下のタイプのアイテムとそのルートパスがサポートされています。
ジョブデザイン - プロセス
データベース接続 - メタデータ/接続
ファイル区切り - メタデータ/ファイル区切り
ファイル区切り - メタデータ/固定長ファイル

データ来歴を分析するトップレベルの実行可能ジョブのリストを指定します。
ジョブは別のジョブを実行できます。他のジョブからのみ実行されているジョブはリストに記載されません。得られた来歴にFalseりかつ重複する情報が含まれてしまう原因となります。

必要なジョブのみが含まれているフォルダーがある場合は、そのパスをリストに記載できます。実行可能なジョブが多数あり、すべてを格納しているフォルダーで参照したい場合に便利です。

ジョブとフォルダー名のサンプルリスト: 'process/jobName1; process/folder/jobName2; process/parentFolder/childFolder/'

十分にドキュメント化され、テーブル/カラムのコメント/ビジネス名を持つ接続がある場合は、メタデータをその他のツール(データモデリングなど)にフォワードエンジニアリングできます。

Microsoft Excelでマッピングをデザインする場合は、Talendで既に利用可能なソースとターゲットの接続をデザインに使用できます。データベース、ファイル、その他のタイプのソースとターゲットの接続を指定します。

接続のサンプルリスト: [metadata/connections/dbConnection1; metadata/connections/folder/dbConnection1; metadata/filePositional/file1]

ジョブが指定されると接続は無視されます。
REPOSITORY_SUBSET     必須
ジョブコンテキスト Talendジョブコンテキストを指定します。このパラメーターが空の場合は、[デフォルト]コンテキストが使用されます。
たとえばDEV/QAパラメーターセットのように、ジョブが複数のコンテキストを持つ場合があります。インポートを使用する間に、どのパラメーターセットを使用するかを指定できます。
STRING      
コンテキストファイルディレクトリー Talendのコンテキストフラットファイル(*.txt、*.prn、*.csv)を含むディレクトリーへのパスを提供できます。
ディレクトリー内のファイルは、インポートするすべてのジョブに適用される[グローバル]パラメーター値を定義します。
Talendデータ統合はジョブをフォルダーで整理します。特定のジョブに[ローカル]値を指定する必要がある場合は、ディレクトリーの下にジョブのフォルダー階層を作成し、ジョブを表すリーフフォルダー内にジョブの特定のコンテキストファイルを置きます。
ファイルは、パラメーターを[=]または[;] (セミコロン)または[ ] (ホワイトスペース)または[:] (コロン)または[,] (コンマ)で区切られたキー/値のペアとして定義します。
例:
parameter1=somestring
parameter2=1000
注: ブリッジはパラメーターの値の前後にあるホワイトスペースをトリミングしません。
デフォルトでは、これは[プロジェクトディレクトリー]の下にある[data]フォルダーです。
DIRECTORY      
Miscellaneous はじめに
ダッシュで始まるMiscellaneousオプションを指定し、必要であればその後にパラメーターを追加できます。例:
- connection.cast MyDatabase1="MICROSOFT SQL SERVER"
該当する場合は複数回使用できるオプションもあります。例:
- connection.rename NewConnection1=OldConnection1 -connection.rename NewConnection2=OldConnection2;
オプションのリストは長い文字列になるため、${MODEL_BRIDGE_HOME}\data\MIMB\parametersにあり拡張子が.txtであるファイルからロードすることもできます。その場合、オプションはすべて、このパラメーターの唯一の値としてそのファイル内で定義されることが必要です。例:
ETL/Miscellaneous.txt

JAVA環境のオプション
-java.memory <Javaメモリの最大サイズ> (以前の-m)

64ビットJREではデフォルトで1G、またはconf/conf.properties内の設定に従います。例:
-java.memory 8G
-java.memory 8000M

-java.parameters <Javaランタイム環境コマンドラインオプション> (以前の-j)


-java.parameters -Dname=value -Xms1G
のように、-java.parametersの後ろのテキストはすべてそのままJREに渡されるため、このオプションはMiscellaneousパラメーター内の最後に来る必要があります。インターネットへのアクセスにプロキシを使用している場合は、必要なサードパーティのソフトウェアライブラリーをダウンロードできるよう、次のオプションを設定する必要があります(このオプションはhttps://repo.maven.apache.org/maven2/にアクセスするため、そして例外的にいくつかの他のツールサイトにアクセスするために不可欠です)。
注: プロキシは、(会社の)外部トラフィックをHTTPSで暗号化しながら、HTTPでプロキシにアクセスできる内部トラフィックを信頼しているものがほとんどです。この場合、HTTPSリクエストはHTTPでプロキシに到達し、プロキシはそれをHTTPSで暗号化します。
-java.parameters -java.parameters -Dhttp.proxyHost=127.0.0.1 -Dhttp.proxyPort=3128 -Dhttp.proxyUser=user -Dhttp.proxyPassword=pass

モデルインポートのオプション
-model.name <モデル名>

モデル名をオーバーライドをオーバーライドします。例:
-model.name "My Model Name"

-prescript <スクリプト名>

このオプションによって、ブリッジの実行前にスクリプトを実行できるようになります。
スクリプトはbinディレクトリー(またはconf/conf.propertiesのM_SCRIPT_PATHで指定)にあり、拡張子が.batか.shであることが必要です。
スクリプトのパスに親ディレクトリーの記号( .. )を含めることはできません。
スクリプトは、成功した場合は終了コードである0を、失敗した場合は別の値を返します。
例:
-prescript "script.bat arg1 arg2"

-postscript <スクリプト名>

このオプションによって、ブリッジが正しく実行された後にスクリプトを実行できるようになります。
スクリプトはbinディレクトリー(またはconf/conf.propertiesのM_SCRIPT_PATHで指定)にあり、拡張子が.batか.shであることが必要です。
スクリプトのパスに親ディレクトリーの記号( .. )を含めることはできません。
スクリプトは、成功した場合は終了コードである0を、失敗した場合は別の値を返します。
例:
-postscript "script.bat arg1 arg2"

-cache.clear

インポート前にキャッシュをクリアするため、増分収集せずにフルインポートを実行します。

モデルが変更されず、-cache.clearパラメーターが使われていない場合(増分収集)、新しいバージョンは作成されません。
モデルが変更されず、-cache.clearパラメーターが設定されている場合(増分ではなくフルソースインポート)、新しいバージョンが作成されます。

-backup <directory>

このオプションによってブリッジ入力メタデータを保存すれば、将来のトラブルシューティングで活用できます。指定された<directory>は空であることが必要です。

このオプションの主な用途は、データストアインポートブリッジ(特にJDBCベースのデータベースインポートブリッジ)です。

なお、このオプションは次のようなブリッジでは動作しません。
- ファイルベースのインポートブリッジ(入力ファイルで代用可能なため)
- DI/BIリポジトリーインポートブリッジ(ツールのリポジトリーネイティブバックアップで代用可能なため)
- APIベース(COMベースなど)による一部のインポートブリッジ(技術的な理由のため)

データ接続オプション
使用するソースとターゲットのデータストアを参照するよう、通常はETL/DIツールとBIツールのインポートブリッジによってデータ接続が生成されます。これらのデータ接続はメタデータ管理ツールによって実際のデータストア(データベースやファイルシステムなど)への接続(メタデータスティッチング)に使われ、完全なエンドツーエンドのデータフローの来歴とインパクト分析が行われます。各データ接続の名前はインポートモデルごとに一意です。DI/BIデザインツールで使われているデータ接続名を可能な限り使用します。そうでない場合は、データベース/スキーマ名、ファイルシステムのパス、Uniform Resource Identifier (URI)など、短くても意味のある接続名が生成されます。次のオプションを使えば、接続を操作できます。これらのオプションによって、レガシーオプションである-c、-cd、-csが置き換えられます。

-connection.cast ConnectionName=ConnectionType

SQL解析のためにジェネリックデータベース接続(ODBCやJDBCなど)を正確なデータベースタイプ(ORACLEなど)にキャストします。例:
-connection.cast "My Database"="MICROSOFT SQL SERVER"
サポートされているデータストア接続タイプのリストは次のとおりです。
ACCESS
APACHE CASSANDRA
DB2/UDB
DENODO
GOOGLE BIGQUERY
HIVE
MYSQL
NETEZZA
ORACLE
POSTGRESQL
PRESTO
REDSHIFT
SALESFORCE
SAP HANA
SNOWFLAKE
MICROSOFT SQL AZURE
MICROSOFT SQL SERVER
SYBASE SQL SERVER
SYBASE AS ENTERPRISE
TERADATA
VECTORWISE
HP VERTICA

-connection.rename OldConnection=NewConnection

既存の接続を新しい名前に変更します。例:
-connection.rename OldConnectionName=NewConnectionName
既存の複数のデータベース接続の名前を変更し、新しい1つのデータベース接続に統合できます。例:
-connection.rename MySchema1=MyDatabase -connection.rename MySchema2=MyDatabase

-connection.split oldConnection.Schema1=newConnection

データベース接続を1つまたは複数のデータベース接続に分割します。
1つのデータベース接続をスキーマごとの1つの接続に分割できます。例:
-connection.split MyDatabase
すべてのデータベース接続をスキーマごとの1つの接続に分割できます。例:
-connection.split *
データベースにスキーマ名を追加することで、データベース接続を明示的に分割し、新しいデータベース接続を作成できます。例:
-connection.split MyDatabase.schema1=MySchema1

-connection.map SourcePath=DestinationPath

ソースパスをデスティネーションパスにマッピングします。これは、異なるパスが同じオブジェクト(ディレクトリーまたはファイル)をポイントしている場合にファイルシステム接続にとって便利です。
Hadoopでは、あるプロセスがHDFSの完全パスで指定されたCSVファイルに書き込む一方、別のプロセスが、デフォルトのファイル名と拡張子を持つ相対パスで指定されている同じファイルによって実装されたHiveテーブル(外部)から読み取ります。例:
-connection.map /user1/folder=hdfs://host:8020/users/user1/folder/file.csv
Linuxでは、/users/johnや/users/paulといった複数のシンボリックリンクによって、/dataのような特定のディレクトリー(またはファイル)が参照されます。例:
-connection.map /data=/users/John -connection.map /data=/users/paul
Windowsでは、M:やN:といった複数のネットワークドライブによって、C:\dataのような特定のディレクトリーが参照されます。例:
-connection.map C:\data=M:\ -connection.map C:\data=N:\

-connection.casesensitive ConnectionName

検出されたデータストアのタイプがこの設定(Microsoft SQL ServerやMySqlなど)をサポートしている場合は、指定された接続内のオブジェクト識別子に対し、大文字と小文字を区別しないデフォルトのマッチングルールがオーバーライドされます。例:
-connection.casesensitive "My Database"

-connection.level AggregationLevel

外部接続の集計レベルを指定します。例: -connection.level catalog
サポートされている値のリスト:
server
catalog
schema (デフォルト)

ETLのオプション
これらのオプションは、以下の目的ですべてのETL/DIツールとスクリプティングインポートブリッジで利用できます:
- SQL解析をすべて処理する
- デザインモデルとランタイム変数からランタイムモデルをビルドする
- ランタイムサマリー来歴を計算する

-etl.summary.add.ultimate (以前の-ppus)

最終的なランタイム来歴サマリーを追加します(非常に大きなモデルが生成される可能性があります)。

-etl.summary.only.ultimate (以前の-ppsp)

最終的なランタイム来歴サマリーのみ生成します(非常に大きなモデルが生成される可能性があります)。

-etl.connections.add.internal.design (以前の-pppd)

内部ETLデザインデータコネクター(ETL変換に必要)を追加します。

-etl.connections.remove.input (以前の-ri)

生成されるモデルのサイズ縮小のため、入力(ソース)データ接続をすべて削除します。

-etl.transformations.enable.xml

このオプションによって、DI/ETLインポートブリッジ(Informatica PowerCenter、Informatica Developer、Microsoft SSIS、IBM DataStage、Talend Data Integration など)でのXML変換の解析とサポートが有効になります。
Informaticaの場合、そのようなXML変換は次のPowerCenterの機能に相当します。
https://docs.informatica.com/data-integration/powercenter/10-5/xml-guide/midstream-xml-transformations.html
https://docs.informatica.com/data-integration/powercenter/10-5/xml-guide/xml-source-qualifier-transformation.html
ただし、このオプションはインポートの速度を著しく低下させる可能性がありますのでご注意ください。

TALEND DATA INTEGRATIONのオプション
-context.file.delimiter <コンテキストファイル区切り>

コンテキストファイルディレクトリーのブリッジパラメーターで使用されます。コンテキストファイルは、ジョブメタデータ内で[parameter name]=[value]という形式で定義されたパラメーターの上書きに使用されます。デフォルトの区切り記号は = です。このデフォルト区切りはどの記号によっても上書きできます。例:
-context.file.delimiter :

-runtime.lineage <ランタイム来歴ログフォルダー>

ランタイム来歴ログフォルダー(Talend Data Integrationによって生成済み)を指定して、tDBRowのような特定のジョブ変換コンポーネントによりダイナミックにロードされる、外部で定義されたSQL式をインポートします。このオプションの構文には、Talend DIの[プロジェクト設定]で指定された[出力パス]と[プロジェクト名]を含める必要があります。
例:
-runtime.linage <Output path>/<project name>


-runtime.lineage.components <ランタイム来歴ログを必要とするコンポーネントのリスト>

オプションでジョブ名のプレフィックス(<job name>.<component type>)が付いた<components type>のセミコロンで区切られたリストを提供し、外部ランタイム来歴ログを必要とする変換コンポーネントのリストを指定します。例:
Job1.tDBRow;tDBInput;tDBOutput
この場合、tDBInputコンポーネントとtDBOutputコンポーネントのすべての使用、およびtDBRowコンポーネントのジョブのみの使用のため、外部ランタイム来歴ログが考慮されます。

-talenddatapreparation.backup <Talend Data Preparationバックアップ入力フォルダー>

tDataprepRunの使用時に、Talend Data Preparationのバックアップを指定します。
- バックアップはData Preparationブリッジの[-backup]オプションによって作成される必要があります。
- Talend Data Preparationブリッジによって生成された入力フォルダーへのファイルパスであることが必要です。

-internal.parameter.overwrite <内部パラメーター名>=<値>

入力が内部パラメーターに割り当てられている時に、接続コンポーネント(tOracleInput、tファイルOutputDelimitedなど)に関連する内部パラメーターの値を上書きできます。このオプションは、接続、スキーマ、操作という3種類の内部パラメーターの上書きが可能です。
ブリッジが接続情報または操作の内部パラメーターのインポートに失敗した場合、このオプションを使用すれば、ブリッジが複雑なケースを動的に理解できるようになります。内部パラメーター名は、コンポーネントのネイティブIDと$で区切られ、$$ 記号で囲まれたパラメーター名。例:
$$tOracleInput_1$Connection$=NewConnectionName or $$tファイルOutputDelimited_1$Connection$$=c:\new\path\for\file.txt
ネイティブIDは、Talend Studio (__UNIQUE_NAME__)または変換のネイティブIDでインポートされたモデル内にあります。

-parameters.output.path <パス>

パラメーター設定を容易にするパラメーターファイルのテンプレートを生成します
STRING      

 

ブリッジのマッピング

マッピング情報は利用できません

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。