メイン コンテンツをスキップする 補完的コンテンツへスキップ

Apache Kafkaファイルシステム(APIおよびスキーマレジストリー) - インポート

Availability-note AWS

ブリッジの要件

このブリッジ:
  • ドライバーを<TDC_HOME>/data/download/MIMB/にダウンロードするためには、https://repo.maven.apache.org/maven2/ やその他のツールサイトへのインターネットアクセスが必要です。

ブリッジの仕様

ベンダー Apache
ツール名 Kafka ファイルシステム
ツールバージョン Kafka 2.x
ツールのWebサイト http://kafka.apache.org/ (英語のみ)
サポートされている方法論 [ファイルシステム] マルチモデル、Java API経由のデータストア(NoSQL / 階層、物理データモデル)
データプロファイリング
増分収集
マルチモデル収集
モデル選択のためのリモートリポジトリーの参照

仕様
ツール: Java API経由のApache / Kafka ファイルシステムバージョンKafka 2.x
http://kafka.apache.org/をご覧ください。
メタデータ: [ファイルシステム] マルチモデル、データストア(NoSQL / 階層、物理データモデル)
コンポーネント: ApacheKafkaバージョン11.2.0

免責事項
このインポートブリッジでは、インターネットに接続して次のサードパーティライブラリーをダウンロードする必要があります。
- オープンソースのサードパーティライブラリーのダウンロードはhttps://repo.maven.apache.org/maven2/などへ
- その他のサードパーティソフトウェア(データベース特定のJDBCドライバーなど)は該当するサイトへ

ダウンロードされたサードパーティライブラリーは、$HOME/data/download/MIMB/に格納されています。
HTTPSが失敗した場合、インポートブリッジはHTTPを試します。
- インターネットへのアクセスにプロキシを使用している場合は、JREでそのプロキシを設定する必要があります(Miscellaneousパラメーターで -j オプションをご覧ください)。
- インポートブリッジではインターネットにフルにアクセスできない場合は、インターネットアクセスがある別のサーバーから$HOME/data/download/MIMB/ディレクトリーをコピーします。$HOME/bin/MIMB.sh (または.bat) -dというコマンドを使えば、すべてのブリッジで使用される全サードパーティライブラリーを一度にダウンロードできます。

このインポートブリッジを実行すると、ライセンス規約の責任、およびダウンロードしたサードパーティソフトウェアライブラリーによって生じる潜在的なセキュリティの脆弱性を受け入れることになります。

概要
Kafkaの主なユースケースは、メッセージングキューから本格的なイベントストリーミングプラットフォームまでの高性能データパイプラインです。このような場合、トピックはすべて、(Confluent) Kafkaレジストリーに記述されたメタデータを持つAvroファイルで構成されます。
"Schema Registry URL"パラメーターを指定すると、このインポートブリッジはそのトピックのメタデータをKafkaレジストリーから自動的に取得します。

よくある質問
Q: 以下を使ってKafkaに接続する時:
"PLAIN authentication"
[JAAS設定パス]を指定し、[Kafkaブローカーのプリンシパル名]パラメーターを空のままにしておきます。

[KERBEROS認証]
両方のパラメーターの値を指定します。

[認証なし]
両方のパラメーターを空のままにしておきます。

詳細な例は、各パラメーターのドキュメンテーションをご覧ください。

Q: インポート時に発生する"Exception:No entry found for connection 2"という例外を修正する方法は?
A: ブリッジを実行するマシンが、Kafka DataNodeの名前解決で適切に設定されていません。ブリッジがKafka APIを呼び出してメッセージデータがある場所をNameNodeに求めると、NameNodeはDataNodeマシンの(IPではなく)ホスト名を返します。ただし、この場合はマシンのホスト名解決に問題があるため、ホスト名をIPに変換できない可能性があります。この問題を解決するためには、システム設定ファイルである"hosts"にDataNodeマシンのホスト名にエントリーを追加します。

制限事項
現在判明している一般的な制限事項は、MIMB Known Limitationsか、バンドルされているDocumentation/ReadMe/MIMBKnownLimitations.htmlをご覧ください。
WindowsシステムでKafkaクラスター(サーバー)バージョン1.1.xとインポートブリッジ(クライアント)の両方を実行すると、タイムアウトエラーでインポートに失敗することがあります。Kafkaバージョン2.0.xでこの問題が解決しました。

サポートされているファイル
データ定義 / スキーマ / メタデータファイルの形式(データなし):
- 通常はメインフレームからの固定幅ファイル(以下の詳細を参照)
- 通常はメインフレームからのCOBOL COPYBOOKファイル(以下の詳細を参照)
- W3C XML XSD (XMLスキーマの定義)

テキストデータのファイル形式(データサンプリングドリブンメタデータの発見):
- CSVなどの区切り付き(フラット)ファイル (以下の詳細を参照)
- Open Office Excel XML .XSLX (以下の詳細を参照)
- W3C XML (XML XSDから定義されていない)
- JSON (JavaScript Object Notation) (以下の詳細を参照)

バイナリデータファイルの形式(スキーマの定義をヘッダーまたはフッターとして含む):
- Apache Avro (以下の詳細を参照)
- Apache Parquet (以下の詳細を参照)
- Apache ORC (以下の詳細を参照)

上記形式の圧縮バージョンもサポートしています:
- ZIP (アーカイブ形式ではなく圧縮形式として)
- BZIP
- GZIP
- LZ4
- Snappy (HadoopネイティブSnappy形式ではなく、標準のSnappy形式として)

区切り付きファイル
このブリッジは区切り付きファイル(別名フラットファイル)タイプのデータファイルからメタデータを検出(リバースエンジニアリング)します。
この区切り付きファイルの検出は、ファイル拡張子(.CSVや.PSVなど)ではなくファイルコンテンツのサンプリングに基づいて行われます。

ブリッジはヘッダー行を検出し、それを使ってフィールド名を作成します。検出できない場合はジェネリックのフィールド名が作成されます。

ブリッジは、デフォルトで含まれている次のフィールドセパレーターを自動的に検出できるよう、最大100行までサンプリングします。
, (コンマ)、; (セミコロン)、: (コロン)、\t (タブ)、| (パイプ)、0x1 (Ctrl + A)、BS (\u0008)
また、自動検出の過程でさらに多くのセパレーター(二重文字など)が追加されることもあります。

サンプリング中にブリッジはファイルデータ型(DATE、NUMBER、STRINGなど)の検出も行います。

固定幅ファイル
このブリッジは固定幅ファイルタイプのデータファイルにメタデータを作成します。
このメタデータは、データファイル(customers.dat、または拡張子がない単なるcustomersなど)のサンプリングによって自動的に検出(リバースエンジニアリング)されることはありません。
したがってこのブリッジは、拡張子が.fixed_width_file_definitionである「固定幅ファイル定義」ファイルをインポートします。
たとえばcustomers.dat.fixed_width_file_definitionという形式のファイルであれば、名前にファイルカスタマーが含まれ、内部に定義済みフィールドを持つメタデータが作成されます。
これは固定幅ファイルに対するRDBMS DDLに相当します。このように長い拡張子を付けることで、このデータ定義ファイルは、その拡張子が含まれている各ファイルシステムのディレクトリー内で実際のデータファイルと共存できるようになります。

「固定幅ファイル定義」ファイル形式は次のように定義されます:
- フォーマットファイルは次のヘッダーで始まる必要があります:
カラム名、オフセット、幅、データ型、コメント
- オフセットはすべて一意で、0以上であることが必要です。
a,0
b,4
- オフセットが存在するカラムと存在しないカラムがある場合、ファイル形式は無効です。
a,0
b,
c,4
- 一部のカラムにオフセットは存在しないものの幅はある場合、アプリケーションはそのようなカラムが順序指定されているものと想定し、幅に基づいてオフセットを計算します。
a,,4 -> a,1,4
b,,25 -> b,5,25
- オフセットが存在する場合、アプリケーションは幅を無視します。これは幅がオフセットから計算されるためです。
a,1,4
b,5,25
- タイプとコメントはドキュメンテーションとしてのみ使用されます。
a,1,4,int
b,5,25,char[25],identifier

このブリッジは次のデータ型を検出します: 整数、浮動小数点、文字列、日付、ブール値

COBOL COPYBOOKファイル
このブリッジはCOBOL COPYBOOKファイル(データ定義を含む)のみインポートするため、実際のCOBOLデータファイルからメタデータを検出(リバースエンジニアリング)することはありません。
このようなCOBOL COPYBOOKファイルの検出は、ファイル拡張子(.CPYなど)ではなくファイルコンテンツのサンプリングに基づいて行われます。

このブリッジは、真にフラットでバイト位置が定義されたレコード構造が反映される[物理階層モデル]を作成します。これはDI/ETLプロセスへのスティッチングに便利です。したがって、物理モデルにはフラットレコードの定義に必要な物理エレメントがすべて存在します。これは、すべてのエレメントが含まれている1つのテーブルです。適切なブリッジパラメーターが設定されている場合はOCCURSエレメントに複数のカラムが含まれます。

現在、このブリッジはCOPY動詞をサポートしておらず、COPYステートメントが始まる行と位置で解析エラーをレポートします。CopyステートメントでCopybookをインポートするためには、含まれている配置済みセクションと共に拡張Copybookファイルを作成(COPY動詞を置換)します。大半のCOBOLコンパイラーには、COPYステートメントとREPLACEステートメントを拡張して前処理されたCopybookのみを出力するオプションがあります。

よくある質問:
Q: デフォルトの開始カラムが「6」でデフォルトの終了カラムが「72」なのはなぜですか?
A: ブリッジパーサーは1ではなく0からカラムのカウントを開始します。そのため、デフォルトでは標準の最初の6カラムを行番号用に、次のカラムをコメントインジケーター用に残し、(80のうち)最後の8カラムを追加の行コメント情報用に残します。

EXCEL (XLSX)ファイル
このブリッジは、Excel XML形式(XLSX)タイプのデータファイルからメタデータを検出(リバースエンジニアリング)します。
このExcelファイルの検出は.XLSXというファイル拡張子に基づいて行われます。

ブリッジはヘッダー行を検出し、それを使ってフィールド名を作成します。検出できない場合はジェネリックのフィールド名が作成されます。

ブリッジは1000行までサンプリングし、DATE、NUMBER、STRINGといったファイルのデータ型を検出します。

Excelファイルに複数のシートがある場合、各シートは同じシート名のファイルやテーブルと相当する項目としてインポートされます。

このブリッジは、マシンのローカルファイルシステムを使ってファイルを読み取り、文字セットエンコーディングファイルの用途を指定できるようにします。

このブリッジはExcelのCSVの側面をインポートするだけであり、ExcelのBI/分析の側面(ピボットテーブルやチャートなど)はサポートしません。

W3C XMLファイル
このW3C XMLインポートブリッジは、他のファイルインポートブリッジ(CSV、XLSX、Json、Avro、Parquetなど)と連動して、すべてのデータレイクやファイルクローラーインポートブリッジ(ファイルシステム、Amazon S3、Hadoop HDFSなど)によって使用されます。

このXMLインポートの目的は、XMLがXMLスキーマ(XSDまたはDTD)によって正式に定義されなかった場合に、そのコンテンツからモデルやスキーマをリバースエンジニアリングすることにあります。
そのようなXMLファイルは、データレイクにアップロードされたIoTデバイスでよく見られるものです。

ただしそのようなXMLファイルは、(特にXMLテキスト宣言、正しい形式で解析されたエンティティ、エンティティの文字エンコーディングに関して)W3Cに完全準拠するものと想定されています。
詳細はW3C標準を参照してください:
https://www.w3.org/TR/xml/#sec-TextDecl

警告: その他すべての必要に対しては、次のようなXMLベースの専用のインポートブリッジを使用する必要があります:
- その他の標準W3C XMLインポートブリッジ(DTD、XSD、WSDL、OWL/RDLなど)
- ツール固有のXMLインポートブリッジ(Erwin Data Modeler XML、Informatica PowerCenter XMLなど)

JSONファイル
このブリッジは、Java APIを使ってJSONファイルからメタデータをインポートします。
このブリッジはストリーミングパーサーを使ってJSONファイル全体をロードします。そのため、大型のリモートのJSONファイルの場合は時間がかかることがありますが、サイズの制限はありません。
このブリッジはメタデータ(JSON階層ストラクチャー)を抽出し、次の標準JSONデータ型を検出します。
定義元: https://www.json.org/
- 文字列 {"stringSample" : "some text", "stringDateSample" : "Thu Apr 06 2017 09:41:51 GMT+0300 (FLE Standard Time)", "expStringSample" : "2.99792458e8"}
- 数字 {"expNumberSample": 2.99792458E8, "numberSample": 3, "floatSample": 3.141592653589793}
- 配列 {"arraySample": [1,2,3]}
- True {"booleanSample": true}
- False {"booleanSample": false}
- Null {"nullSample": null}

また、次の実装固有のデータ型がサポートされています。
MongoDB拡張機能:
- 識別子 {"_id": {"$oid": "50a9c951300493f64fbffdb6"}}
- 日付 {"dateExample" : { "$date" : "2014-01-01T05:00:00.000Z"}}
- POSIX日付 {"isoDateExample" : { "$date" : 1491461103897 }}
- タイムスタンプ {"timestampExample" : { "$timestamp" : { "t" : 1412180887, "i" : 1 } }}
- 数字 {"numberLongExample": {"$numberLong": "7494814965"}}

CouchDB拡張機能:
- 識別子 {"_id":"someId","_rev":"1232343467"}

APACHE AVRO FILES
このブリッジはJava APIを使ってAvroファイルからメタデータをインポートします。
このブリッジはデータドリブンメタデータの発見は行いませんが、Avroファイルのヘッダー(上部)でスキーマ定義を読み取ります。

このブリッジは、次の標準的なAvroデータ型を検出します。
https://avro.apache.org/docs/current/spec.html#schema_primitive

null - 値なし
boolean - バイナリ値
int - 32ビット符号付き整数
long - 64ビット符号付き整数
float - 単精度(32ビット) IEEE 754浮動小数点数
double - 倍精度(64ビット) IEEE 754浮動小数点数
bytes - 8ビット符号なしバイト型のシーケンス
string - Unicode文字のシーケンス

APACHE PARQUETファイル
このブリッジは、Java APIを使ってParquetファイルからメタデータをインポートします。
このブリッジはデータドリブンメタデータの発見は行いませんが、Parquetファイルのフッター(下部)でスキーマ定義を読み取ります。そのためこのブリッジは、最後にスキーマ定義に到達できるようParquetファイル全体をロードする必要があります。

Parquetファイルが圧縮されていない場合、ブリッジがデータ部分をフッターまで自動的にスキップするので、ファイルサイズの制限はありません(ただし大型のParquetファイルでは時間がかかることがあります)。ただし、Parquetファイルが圧縮されている場合、ブリッジはまずファイル全体をダウンロードして解凍する必要があります。従ってそのような場合はデフォルトで10MBのファイルサイズ制限がありますが(それ以上のファイルは無視されます)、この制限値はMiscellaneousパラメーターで増やすことができます。

このブリッジは、次の標準的なParquetデータ型を検出します。
定義元: https://parquet.apache.org/documentation/latest

BOOLEAN: 1ビットブール値
INT32: 32ビット符号付き整数
INT64: 64ビット符号付き整数
INT96: 96ビット符号付き整数
FLOAT: IEEE 32ビット浮動小数点値
DOUBLE: IEEE 64ビット浮動小数点値
BYTE_ARRAY: 任意的に長いバイト配列

APACHE ORCファイル
このブリッジは、Java APIを使ってORCファイルからメタデータをインポートします。
このブリッジはデータドリブンメタデータの発見は行いませんが、ORCファイルのヘッダー(上部)でスキーマ定義を読み取ります。

このブリッジは、次の標準のORCデータ型を検出します。
定義元: https://orc.apache.org/docs/types.html

整数: boolean (1ビット)、tinyint (8ビット)、smallint (16ビット)、int (32ビット)、bigint (64ビット)
浮動小数点: float、double
文字列型: string、char、varchar
バイナリblob: binary
日時: timestamp、ローカルタイムゾーン付きtimestamp、zone
複合型: struct、list、map、union

詳細
詳しい例については、各パラメーターのツールチップをご覧ください。


ブリッジパラメーター

パラメーター名 説明 タイプ デフォルト スコープ
Schema Registry URL スキーマの検索に使用できるスキーマレジストリーインスタンスのURLのコンマ区切りリスト。
詳細は、https://docs.confluent.io/current/schema-registry/connect.html#configuration-optionsをご覧ください。

メタデータのみインポートする必要がある場合は、Schema Registry URLを指定します。Schema Registry URLが指定されると、ブリッジは(Kafkaデータサーバーを介さずに)レジストリーからトピックとそのスキーマに関するメタデータをインポートします。
STRING   http://localhost:8081  
トピック トピック名('topic1, topic2'など)のリスト。
リストが空の場合はすべてのトピックを利用できます。
トピック名をワイルドカードパターンとして指定できます:
'topic?'

'*topic*'

'topic_?,*topic*'

メタデータのみインポートしたい場合は、Topicsパラメーターを指定し、その他のKafkaデータ接続とサンプリング設定パラメーターはすべて空のままにしておきます。
REPOSITORY_SUBSET      
Bootstrapサーバー Kafkaクラスターへの初期接続の確立、および利用可能なサーバーとトピックの検索に使用する'host:port' ペアのリスト。例:
'host1:port1, host2:port2'

このリストには利用可能なサーバーをすべて含める必要はありませんが、サーバーを少なくとも1つ含めることが必要です。
サーバーがダウンした場合に備えて複数のサーバーを含めておくことをお勧めします。
このリストの最初のエントリーがクラスター名として使われます。
STRING   localhost:9092  
Number of sample messages トピックからサンプリングする最大メッセージ数。これらのメッセージは、トピック形式の詳細(フィールド名やデータ型など)の識別に使われます。 STRING   1000  
SSLプロトコルを使って接続 KafkaがTLS/SSLを使ってKafkaのネットワークトラフィックを暗号化する場合は、このパラメータをTrueに設定します。

KafkaはSSLを使ってサーバーとクライアント間の接続を暗号化します
BOOLEAN
False
True
False  
Truststoreファイル トラストストアファイルのロケーション。
空の場合、インポートブリッジは'java.home'\lib\security\{'jssecacerts'|'cacerts'}の下を検索します
ファイル *.*    
トラストストアのパスワード トラストストアのパスワード。 パスワード      
Keystoreファイル キーストアファイルのロケーション。 ファイル *.*    
キーストアのパスワード キーストアのパスワード。 パスワード      
キーのパスワード キーのパスワード。 パスワード      
JAAS設定パス ブローカークラスターの作成時にブローカーに定義したKerberosプリンシパルの最初の部分を入力します。たとえばkafka/kafka1.hostname.com@EXAMPLE.COMというプリンシパルであれば、このフィールドで必要となるのはプレフィックスのkafkaのみです。

この値は次のKafkaプロパティの下に入力されます: sasl.kerberos.service.name=value
ファイル *.*    
Kafka brokers principal name ブローカークラスターの作成時にブローカーに定義したKerberosプリンシパルの最初の部分を入力します。たとえばkafka/kafka1.hostname.com@EXAMPLE.COMというプリンシパルであれば、このフィールドで必要となるのはプレフィックスのkafkaのみです。
この値は次のKafkaプロパティの下に入力されます: sasl.kerberos.service.name=value
STRING      
Kinitコマンドパス Kerberosは、デフォルトパスを使ってKinitプログラムを実行します。このパスを変更した場合は、ここにカスタムアクセスパスを入力します。

Kafkaプロパティ値 -
sasl.kerberos.kinit.cmd=value
STRING      
Kerberos configuration path Kerberosは、たとえばKerberos 5の設定ファイルであるkrb5.conf (Windowsの場合はkrb5.ini)へのデフォルトのパスを使用します。このパラメーターをオフにすると、必要な設定情報を検索するため、Kerberosによって一定の方法論が適用されます。
この方法論の詳細は、Kerberos要件にある"Locating the krb5.conf Configuration file"というセクションをご覧ください。

この値は、JVM -
'-Djava.security.krb5.conf=value'に送られます。
ファイル *.*    
Miscellaneous はじめに
ダッシュで始まるMiscellaneousオプションを指定し、必要であればその後にパラメーターを追加できます。例:
- connection.cast MyDatabase1="MICROSOFT SQL SERVER"
該当する場合は複数回使用できるオプションもあります。例:
- connection.rename NewConnection1=OldConnection1 -connection.rename NewConnection2=OldConnection2;
オプションのリストは長い文字列になるため、${MODEL_BRIDGE_HOME}\data\MIMB\parametersにあり拡張子が.txtであるファイルからロードすることもできます。その場合、オプションはすべて、このパラメーターの唯一の値としてそのファイル内で定義されることが必要です。例:
ETL/Miscellaneous.txt

JAVA環境のオプション
-java.memory <Javaメモリの最大サイズ> (以前の-m)

64ビットJREではデフォルトで1G、またはconf/conf.properties内の設定に従います。例:
-java.memory 8G
-java.memory 8000M

-java.parameters <Javaランタイム環境コマンドラインオプション> (以前の-j)


-java.parameters -Dname=value -Xms1G
のように、-java.parametersの後ろのテキストはすべてそのままJREに渡されるため、このオプションはMiscellaneousパラメーター内の最後に来る必要があります。インターネットへのアクセスにプロキシを使用している場合は、必要なサードパーティのソフトウェアライブラリーをダウンロードできるよう、次のオプションを設定する必要があります(このオプションはhttps://repo.maven.apache.org/maven2/にアクセスするため、そして例外的にいくつかの他のツールサイトにアクセスするために不可欠です)。
注: プロキシは、(会社の)外部トラフィックをHTTPSで暗号化しながら、HTTPでプロキシにアクセスできる内部トラフィックを信頼しているものがほとんどです。この場合、HTTPSリクエストはHTTPでプロキシに到達し、プロキシはそれをHTTPSで暗号化します。
-java.parameters -java.parameters -Dhttp.proxyHost=127.0.0.1 -Dhttp.proxyPort=3128 -Dhttp.proxyUser=user -Dhttp.proxyPassword=pass

モデルインポートのオプション
-model.name <モデル名>

モデル名をオーバーライドをオーバーライドします。例:
-model.name "My Model Name"

-prescript <スクリプト名>

このオプションによって、ブリッジの実行前にスクリプトを実行できるようになります。
スクリプトはbinディレクトリー(またはconf/conf.propertiesのM_SCRIPT_PATHで指定)にあり、拡張子が.batか.shであることが必要です。
スクリプトのパスに親ディレクトリーの記号( .. )を含めることはできません。
スクリプトは、成功した場合は終了コードである0を、失敗した場合は別の値を返します。
例:
-prescript "script.bat arg1 arg2"

-postscript <スクリプト名>

このオプションによって、ブリッジが正しく実行された後にスクリプトを実行できるようになります。
スクリプトはbinディレクトリー(またはconf/conf.propertiesのM_SCRIPT_PATHで指定)にあり、拡張子が.batか.shであることが必要です。
スクリプトのパスに親ディレクトリーの記号( .. )を含めることはできません。
スクリプトは、成功した場合は終了コードである0を、失敗した場合は別の値を返します。
例:
-postscript "script.bat arg1 arg2"

-cache.clear

インポート前にキャッシュをクリアするため、増分収集せずにフルインポートを実行します。

モデルが変更されず、-cache.clearパラメーターが使われていない場合(増分収集)、新しいバージョンは作成されません。
モデルが変更されず、-cache.clearパラメーターが設定されている場合(増分ではなくフルソースインポート)、新しいバージョンが作成されます。

-backup <directory>

このオプションによってブリッジ入力メタデータを保存すれば、将来のトラブルシューティングで活用できます。指定された<directory>は空であることが必要です。

このオプションの主な用途は、データストアインポートブリッジ(特にJDBCベースのデータベースインポートブリッジ)です。

なお、このオプションは次のようなブリッジでは動作しません。
- ファイルベースのインポートブリッジ(入力ファイルで代用可能なため)
- DI/BIリポジトリーインポートブリッジ(ツールのリポジトリーネイティブバックアップで代用可能なため)
- APIベース(COMベースなど)による一部のインポートブリッジ(技術的な理由のため)

データ接続オプション
使用するソースとターゲットのデータストアを参照するよう、通常はETL/DIツールとBIツールのインポートブリッジによってデータ接続が生成されます。これらのデータ接続はメタデータ管理ツールによって実際のデータストア(データベースやファイルシステムなど)への接続(メタデータスティッチング)に使われ、完全なエンドツーエンドのデータフローの来歴とインパクト分析が行われます。各データ接続の名前はインポートモデルごとに一意です。DI/BIデザインツールで使われているデータ接続名を可能な限り使用します。そうでない場合は、データベース/スキーマ名、ファイルシステムのパス、Uniform Resource Identifier (URI)など、短くても意味のある接続名が生成されます。次のオプションを使えば、接続を操作できます。これらのオプションによって、レガシーオプションである-c、-cd、-csが置き換えられます。

-connection.cast ConnectionName=ConnectionType

SQL解析のためにジェネリックデータベース接続(ODBCやJDBCなど)を正確なデータベースタイプ(ORACLEなど)にキャストします。例:
-connection.cast "My Database"="MICROSOFT SQL SERVER"
サポートされているデータストア接続タイプのリストは次のとおりです。
ACCESS
APACHE CASSANDRA
DB2/UDB
DENODO
GOOGLE BIGQUERY
HIVE
MYSQL
NETEZZA
ORACLE
POSTGRESQL
PRESTO
REDSHIFT
SALESFORCE
SAP HANA
SNOWFLAKE
MICROSOFT SQL AZURE
MICROSOFT SQL SERVER
SYBASE SQL SERVER
SYBASE AS ENTERPRISE
TERADATA
VECTORWISE
HP VERTICA

-connection.rename OldConnection=NewConnection

既存の接続を新しい名前に変更します。例:
-connection.rename OldConnectionName=NewConnectionName
既存の複数のデータベース接続の名前を変更し、新しい1つのデータベース接続に統合できます。例:
-connection.rename MySchema1=MyDatabase -connection.rename MySchema2=MyDatabase

-connection.split oldConnection.Schema1=newConnection

データベース接続を1つまたは複数のデータベース接続に分割します。
1つのデータベース接続をスキーマごとの1つの接続に分割できます。例:
-connection.split MyDatabase
すべてのデータベース接続をスキーマごとの1つの接続に分割できます。例:
-connection.split *
データベースにスキーマ名を追加することで、データベース接続を明示的に分割し、新しいデータベース接続を作成できます。例:
-connection.split MyDatabase.schema1=MySchema1

-connection.map SourcePath=DestinationPath

ソースパスをデスティネーションパスにマッピングします。これは、異なるパスが同じオブジェクト(ディレクトリーまたはファイル)をポイントしている場合にファイルシステム接続にとって便利です。
Hadoopでは、あるプロセスがHDFSの完全パスで指定されたCSVファイルに書き込む一方、別のプロセスが、デフォルトのファイル名と拡張子を持つ相対パスで指定されている同じファイルによって実装されたHiveテーブル(外部)から読み取ります。例:
-connection.map /user1/folder=hdfs://host:8020/users/user1/folder/file.csv
Linuxでは、/users/johnや/users/paulといった複数のシンボリックリンクによって、/dataのような特定のディレクトリー(またはファイル)が参照されます。例:
-connection.map /data=/users/John -connection.map /data=/users/paul
Windowsでは、M:やN:といった複数のネットワークドライブによって、C:\dataのような特定のディレクトリーが参照されます。例:
-connection.map C:\data=M:\ -connection.map C:\data=N:\

-connection.casesensitive ConnectionName

検出されたデータストアのタイプがこの設定(Microsoft SQL ServerやMySqlなど)をサポートしている場合は、指定された接続内のオブジェクト識別子に対し、大文字と小文字を区別しないデフォルトのマッチングルールがオーバーライドされます。例:
-connection.casesensitive "My Database"

-connection.level AggregationLevel

外部接続の集計レベルを指定します。例: -connection.level catalog
サポートされている値のリスト:
server
catalog
schema (デフォルト)

KAFKA APIのオプション

-kafka.api.バージョン

指定されると、Kafkaサーバーからのインポートデータサンプルを実行するためにこのAPIバージョンが使われます。指定されない場合、ブリッジは適切なKafka APIバージョンを自動的に検出しようとします。検出が失敗した場合は、デフォルトのバージョンである2.2.0が使われます。

-consumer.group

このコンシューマーが属するコンシューマープロセスのグループを一意識別するための文字列。同じグループIDを設定することで、複数のプロセスがどのコンシューマーも同じコンシューマーグループに属していることが示されます。
この値はKafkaのgroup.IDプロパティに渡されます。

インポート方法

-import.from.data

スキーマレジストリーを参照しないトピック、および一部のスキーマレジストリーを参照するトピックをホストするKafkaサーバーを利用する場合は、この方法を使い、Apache Kafkaに実装されたデータレイクをインポートブリッジに強制的にクロールさせます。その結果、これには、データストラクチャー(CSVテーブル、JSON階層、Avro、Parquetなど)やデータ型(整数、日付、文字列など)のデータサンプリングドリブンメタデータの発見が含まれます。ただしKafkaの場合、ファイルはパーティションではなくトピックで構成されています。

このインポート方法を使うためには、[Bootstrapサーバー]パラメーターを指定する必要があります。
STRING      

 

ブリッジのマッピング

マッピング情報は利用できません

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。