これらのプロパティは、Standardジョブフレームワークで実行されるtHiveCreateTableを構成するために使用されます。
Standard tHiveCreateTableコンポーネントは、ビッグデータおよびデータベースファミリーのコンポーネントです。
このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。
基本設定
- このコンポーネントをQubole on AWSと併用する場合:
[API Token] (APIトークン) [API Token] (APIトークン)フィールドの横の[...]ボタンをクリックして、使用するQuboleユーザーアカウントに生成された認証トークンを入力します。このトークンの入手方法については、QuboleのドキュメンテーションでQuboleアカウントの管理を参照してください。
このトークンで、Quboleへのアクセスに使用するユーザーアカウントを指定できます。ジョブは、Quboleでこのユーザーアカウントに付与された権限を自動的に使用します。
[Cluster label] (クラスターラベル) [Cluster label] (クラスターラベル)チェックボックスをオンにして、使用するQuboleクラスターの名前を入力します。このチェックボックスをオフのままにしておくと、デフォルトのクラスターが使用されます。
デフォルトのクラスターに関する詳細が必要な場合は、Quboleサービスの管理者にお問い合わせください。デフォルトQuboleクラスターの設定に関する情報については、この記事をQuboleのドキュメンテーションもご参照ください。
[Change API endpoint] (APIエンドポイントの変更) [Change API endpoint] (APIエンドポイントの変更)チェックボックスをオンにして、使用するリージョンを選択します。このチェックボックスをオフのままにしておくと、デフォルトのリージョンが使用されます。
QDS-on-AWSでサポートされているQuboleエンドポイントについては、さまざまなクラウドプロバイダーでサポートされているQuboleエンドポイントを参照してください。
-
このコンポーネントをGoogle Dataprocと併用する場合:
[Project identifier] (プロジェクト識別子)
Google Cloud PlatformプロジェクトのIDを入力します。
プロジェクトIDがわからない場合は、Google Cloud Platformサービスの[Manage Resources]ページで確認してください。
[Cluster identifier] (クラスター識別子)
使用するDataprocクラスターのIDを入力します。
[Region] (リージョン) 使用するGoogle Cloudリージョンをこのドロップダウンリストで選択します。
[Google Storage staging bucket] (Googleストレージステージングバケット) Talendジョブでは、依存jarファイルが実行されることを想定しているため、ジョブが実行時にこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするGoogle Storageディレクトリーを指定します。
入力するディレクトリーの末尾はスラッシュ(/)にする必要があります。ディレクトリーがない場合は即座に作成されますが、使用するバケットはあらかじめ作成しておく必要があります。
データベース
このフィールドにデータベースの名前を入力します。
[Provide Google Credentials in file] (Googleクレデンシャルをファイルで指定)
Google Cloud SDKがインストールされていて、Google Cloud Platformへのアクセスにユーザーアカウントの認証情報を使用することが許可されている特定のマシンからジョブを起動する場合は、このチェックボックスをオフにします。この状況では多くの場合、このマシンはお使いのローカルマシンです。
ジョブサーバーなど、リモートマシンからジョブを起動する場合は、このチェックボックスを選択し、[Path to Google Credentials file] (Googleクレデンシャルファイルパス)フィールドが表示されたら、このJSONファイルを保存するジョブサーバーマシン内のディレクトリーを入力します。また、[....]ボタンをクリックし、ポップアップダイアログボックスでJSONファイルを参照することもできます。
Googleクレデンシャルファイルの詳細については、Google Cloud Platformの管理者に問い合わせるか、Google Cloud Platform Auth Guideを参照してください。
-
このコンポーネントをHDInsightと併用する場合:
WebHCatの設定
使用するMicrosoft HD Insightクラスターのアドレスと認証情報を入力します。たとえば、アドレスはyour_hdinsight_cluster_name.azurehdinsight.netとなり、Azureアカウントの認証情報は次のようになります: ychen。Studioはこのサービスを使ってジョブをHD Insightクラスターに送信します。
[Job result folder] (ジョブ結果保存フォルダー)フィールドに、使用するAzure Storageでのジョブの実行結果を保存するロケーションを入力します。
ジョブステータスポーリングの設定
[Poll interval when retrieving Job status (in ms)] (ジョブステータスを取得する時のポーリング間隔(ミリ秒))フィールドで、StudioがジョブのステータスをSparkに要求する時間間隔(ミリ秒)を入力します。たとえば、このステータスは[Pending] (保留中)または[Running] (実行中)になります。
[Maximum number of consecutive statuses missing] (見つからないステータスの最大連続回数)フィールドには、ステータスの応答がない場合にスタジオがステータス取得のために再試行する最大回数を入力します。
HDInsightの設定
使用するMicrosoft HD Insightクラスターのアドレスと認証情報を入力します。たとえば、アドレスはyour_hdinsight_cluster_name.azurehdinsight.netとなり、Azureアカウントの認証情報は次のようになります: ychen。Studioはこのサービスを使ってジョブをHD Insightクラスターに送信します。
[Job result folder] (ジョブ結果保存フォルダー)フィールドに、使用するAzure Storageでのジョブの実行結果を保存するロケーションを入力します。
[Windows Azure Storage configuration] (Windows Azure Storageの設定)
使用するAzure StorageアカウントかADLS Gen2アカウントのアドレスと認証情報を入力します。この設定では、ビジネスデータを読み書きする場所は定義せず、ジョブをデプロイする場所のみ定義します。
[Container] (コンテナー)フィールドに、使用するコンテナーの名前を入力します。利用可能なコンテナーは、使用するAzure StorageアカウントのBlobブレードで確認できます。
[Deployment Blob] (デプロイメントBlob)フィールドに、このAzure Storageアカウントで現在のジョブとその依存ライブラリーを保存する場所を入力します。
[Hostname] (ホスト名)フィールドに、https://部分を含まないAzureストレージアカウントのプライマリーBlobサービスエンドポイントを入力します。このエンドポイントは、このストレージアカウントの[Properties] (プロパティ)ブレードにあります。
[Username] (ユーザー名)フィールドに、使用するAzureストレージアカウントの名前を入力します。
[Password] (パスワード)フィールドに、使用するAzureストレージアカウントのアクセスキーを入力します。このキーは、このストレージアカウントの[Access keys] (アクセスキー)ブレードにあります。
データベース
このフィールドにデータベースの名前を入力します。
-
その他のディストリビューションを使用する場合:
[Connection mode] (接続モード)
リストから接続モードを選択します。オプションは、使用しているディストリビューションによって異なります。
[Hive server] (Hiveサーバー)
このコンポーネントを使用しているジョブに Hive上のクエリーを実行させるために使用するHiveサーバーを選択します。
この[Hive server] (Hiveサーバー)リストは、HortonWorks Data Platform V1.2.0 (Bimota)など、使用するHadoopディストリビューションがHiveServer2をサポートしている場合にのみ使用できます。これにより、HiveServer (Hive 1)よりも複数クライアントの同時接続に対するサポートに優れているサーバー、HiveServer2 (Hive 2)を選択できます。
HiveServer2の詳細は、https://cwiki.apache.org/confluence/display/Hive/Setting+Up+HiveServer2を参照してください。
[Host] (ホスト)
データベースサーバーのIPアドレス。
[Port] (ポート)
DBサーバーのリスニングポート番号。
[Database] (データベース)
このフィールドにデータベースの名前を入力します。
注:[Connection mode] (接続モード) リストで[Embedded] (埋め込み)を選択した場合、このフィールドは使用できません。
[Username] (ユーザー名)と[Password] (パスワード)
DBユーザー認証データ。
パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、[OK] をクリックして設定を保存します。
[Use Kerberos authentication] (Kerberos認証の使用)
Kerberosセキュリティを実行しているHiveメタストアにアクセスする場合は、このチェックボックスを選択し、表示されたフィールドに、関連するパラメーターを入力します。-
このクラスターが5.0.0バージョン以上のMapRクラスターである場合、セキュリティ対応MapRへの接続に記載の説明に従って、MapRチケット認証設定を追加または代替として設定できます。
この設定により、ジョブで定義されたユーザー名用の新しいMapRセキュリティチケットが実行ごとに生成されます。同じユーザー名に対して発行された既存のチケットを再使用する必要がある場合は、[Force MapR ticket authentication] ()チェックボックスと[Use Kerberos authentication] ()チェックボックスをオフにすると、そのチケットを即座に自動的に見つけることができます。
次のパラメーターの値は、使用するHiveシステムのhive-site.xmlファイル内にあります。-
[Hive principal] (Hiveプリンシパル)はhive.metastore.kerberos.principalの値を使用します。これはHiveメタストアのサービスプリンシパルです。
-
[HiveServer2 local user principal] (HiveServer2ローカルユーザープリンシパル)は、hive.server2.authentication.kerberos.principalの値を使用します。
-
[HiveServer2 local user keytab] (HiveServer2ローカルユーザーkeytab)は、hive.server2.authentication.kerberos.keytabの値を使用します。
-
[Metastore URL] (メタストアURL)は、javax.jdo.option.ConnectionURLの値を使用します。これは、HiveメタストアへのJDBC接続文字列です。
-
[Driver class] (ドライバークラス)は、javax.jdo.option.ConnectionDriverNameの値を使用します。これは、JDBC接続のドライバーの名前です。
-
[Username] (ユーザー名)は、javax.jdo.option.ConnectionUserNameの値を使用します。ユーザー名とパスワードのパラメーターは、Hiveメタストアへの接続用のユーザー認証情報になります。
-
[Password] (パスワード)は、javax.jdo.option.ConnectionPasswordの値を使用します。
このチェックボックスは、接続しているHadoopのディストリビューションによっては、表示されないこともあります。
[Use a keytab to authenticate] (Keytabを認証に使用) [Use a keytab to authenticate] (Keytabを認証に使用)チェックボックスを選択して、所定のkeytabファイルを使ってKerberos対応のシステムにログインします。keytabファイルには、Kerberosのプリンシパルと暗号化されたキーのペアが含まれています。使用するプリンシパルを[Principal] (プリンシパル)フィールドに入力し、keytabファイルへのアクセスパスを[Keytab] フィールドに入力します。このkeytabファイルは、ジョブが実際に実行されているマシン、たとえば、Talend Jobserverに保存する必要があります。
keytabが有効なジョブは、プリンシパルに任命されたユーザーでなくても実行できますが、使用するkeytabファイルの読み取り権限が必要です。たとえば、user1というユーザー名でジョブを実行し、使用するプリンシパルがguestの場合、user1に使用するkeytabファイルの読み取り権限があることを確認してください。
[Use SSL connection] (SSL接続の使用)
SSLまたはTLS暗号化接続を有効にする場合は、このチェックボックスを選択します。
次に、表示されたフィールドに認証情報を入力します。-
[Trust store path] (信頼ストアのパス)フィールドにパスを入力するか、または使用するTrustStoreファイルに移動します。デフォルトでは、サポートされるTrustStore型は、JKSおよびPKCS 12です。
-
パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、[OK] をクリックして設定を保存します。
この機能は、以下のディストリビューションの[Standalone] (スタンドアロン)モードのHiveServer2でのみ利用できます。-
Hortonworksデータプラットフォーム2.0 +
-
Cloudera CDH4 +
-
Pivotal HD 2.0 +
-
Amazon EMR 4.0.0 +
[Set Resource Manager] (リソースマネージャーの設定)
このチェックボックスをオンにして、表示されるフィールドにディストリビューションのResourceManagerのロケーションを入力します。たとえば、tal-qa114.talend.lan: 8050のようにします。
その後、使用するHadoopクラスターの構成に応じて以下のパラメーターを引き続き設定できます (パラメーターのチェックボックスをオフのままにしておくと、実行時に、使用するHadoopクラスター内のこのパラメーターに関する設定は無視されます):-
[Set resourcemanager scheduler address] (リソースマネージャースケジューラーアドレスの設定)チェックボックスをオンにして、表示されたフィールドにスケジューラーアドレスを入力します。
-
[Set jobhistory address] (ジョブ履歴アドレスの設定)チェックボックスを選択して、使用するHadoopクラスターのJobHistoryサーバーの場所を入力します。これにより、現在のジョブのメトリックス情報がそのJobHistoryサーバーに保存されます。
-
[Set staging directory] (ステージングディレクトリーの設定)チェックボックスを選択して、実行プログラムで作成される一時ファイル用のHadoopクラスターで定義されたこのディレクトリーを入力します。一般的には、このディレクトリーはディストリビューションのyarn-site.xmlやmapred-site.xmlなどの設定ファイル内にあるyarn.app.mapreduce.am.staging-dirプロパティの下にあります。
-
[Advanced settings] (詳細設定)ビューの[Set memory] (メモリの設定)チェックボックスを選択して、適切なメモリ容量をYARNのMapとReduceの計算およびApplicationMasterに割り当てます。
-
[Set Hadoop user] (Hadoopユーザーの設定)チェックボックスをオンにして、ジョブを実行するユーザー名を入力します。Hadoop内のファイルまたはディレクトリーには読み取りまたは書き込みの適切な権限を持つ特定のオーナーがあるため、このフィールドを使用して、処理するファイルまたはディレクトリーにアクセスする適切な権限を持つユーザー名の下でジョブを直接実行できます。
-
[Use datanode hostname] (データノードホスト名を使用)チェックボックスをオンにして、これらのホスト名によるデータノードへのアクセスをジョブに許可します。これは、実際にはdfs.client.use.datanode.hostnameプロパティをtrueに設定しています。S3Nファイルシステムに接続する場合、このチェックボックスを選択する必要があります。
Hadoop Map/Reduceフレームワークの詳細は、http://hadoop.apache.orgで、ApacheのHadoopに関するドキュメンテーションにあるMap/Reduceのチュートリアルを参照してください。
[Set NameNode URI] (ネームノードURIの設定)
このチェックボックスをオンにして、表示されるフィールドに、HadoopシステムのマスターノードであるHadoop NameNodeのURIを入力します。たとえば、NameNodeとしてmasternodeという名前のマシンを選択した場合、その場所はhdfs://masternode:portnumberになります。 WebHDFSを使用している場合、ロケーションはwebhdfs://masternode:portnumberとなります。WebHDFS with SSLはまだサポートされていません。
Hadoop Map/Reduceフレームワークの詳細は、http://hadoop.apache.orgで、ApacheのHadoopに関するドキュメンテーションにあるMap/Reduceのチュートリアルを参照してください。
Sparkカタログ
使用するSpark実装値を選択します。- In-memory: 外部メタストアではないHiveメタストアにHive Thriftメタストアを設定する場合は、この値を選択します。
- Hive: 使用するクラスターの外に存在する外部HiveメタストアにHive Thriftメタストアを設定する場合は、この値を選択します。
-
その他のプロパティ:
[Property type] (プロパティタイプ) |
[Built-in] (組み込み)または[Repository] (リポジトリー)のいずれかで次の設定を行います。 |
|
[Built-in] (組み込み): プロパティデータは一元的に保管されません。 |
|
[Repository] (リポジトリー): プロパティが保管されるリポジトリーファイルを選択します。後続フィールドは、取得されたデータを使用して自動的に入力されます。 |
[Use an existing connection] (既存の接続を使用する) |
定義済みの接続の詳細を再利用するには、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)で該当する接続コンポーネントをクリックします。 注: ジョブに親ジョブと子ジョブが含まれている時は、2つのレベルの間の既存の接続を共有する必要がな場合(たとえば、親ジョブで作成した接続を子ジョブと共有するなど)には、以下を実行する必要があります。
ジョブレベルをまたがってデータベース接続を共有する方法の例は、『 Talend Studio ユーザーガイド』を参照してください。 |
[Distribution] (ディストリビューション) |
使用するクラスターはドロップダウンリストから選択します。リストのオプションは使用するコンポーネントによって異なります。これらのオプションの中でも、以下のオプションを使用するには特定の設定が必要です。
|
[Hive version] (Hiveのバージョン) |
使用しているHadoopのディストリビューションのバージョンを選択します。使用可能なオプションは、使用しているコンポーネントによって異なります。 |
Schema (スキーマ)およびEdit schema (スキーマの編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 スキーマを変更するには[Edit schema] (スキーマの編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを使用できます。
|
|
Built-in (組み込み): そのコンポーネントのみのスキーマを作成して、ローカルに保存します。 |
|
Repository (リポジトリー): スキーマは作成済みで、リポジトリーに保管されており、さまざまなプロジェクトやジョブデザインで再利用できます。 再使用するスキーマに整数またはファンクションのデフォルト値が指定されている場合は、これらのデフォルト値を引用符で囲まないように注意してください。引用符で囲まれている場合は手動で削除します。 詳細は、Talend Studioユーザーガイドでテーブルスキーマに関連する説明を参照してください。 |
[Table Name] (テーブル名) |
作成するテーブルの名前。 |
テーブルの操作 |
テーブルを作成するためのアクションを選択します。 |
Format (形式) |
作成するテーブル専用のデータ形式を選択します。 使用可能なデータ形式は、使用しているHadoopディストリビューションのバージョンによって異なります。 使用するファイル形式が[PARQUET]である場合は、特定のPARQUET jarファイルを見つけてStudioにインストールするように指示するプロンプトが表示される可能性があります。
|
Inputformat classとOutputformat class |
これらのフィールドは、[Format] (フォーマット)リストで[INPUTFORMAT and OUTPUTFORMAT] (入力形式と出力形式)を選択した場合にのみ表示されます。 これらのフィールドでは、[Format] (フォーマット)リストで使用できないデータフォーマットに使用するjarファイルの名前を入力できます。 |
[Storage Class] (ストレージクラス) |
非ネイティブテーブル(Hive以外のシステムCassandraやMongoDBなどで保存および管理されるHiveテーブル)の作成に使用するストレージハンドラーの名前を入力します。 このフィールドは [Format] (フォーマット)リストで[STORAGE] (ストレージ)が選択されている場合にのみ使用できます。 ストレージハンドラーの詳細については、https://cwiki.apache.org/confluence/display/Hive/StorageHandlersを参照してください。 |
パーティションの設定 |
作成するテーブルにパーティションカラムを追加するには、このチェックボックスをオンにします。選択したら、追加する必要のあるパーティションカラムのスキーマを定義する必要があります。 |
[Set file location] (ファイルロケーションの設定) |
デフォルト以外のディレクトリにHiveテーブルを作成する場合は、このチェックボックスを選択して、テーブルのコンテンツを保持するために使用するディレクトリをHDFSに入力します。 これは通常、[Advanced settings] (詳細設定)タブの[Create an external table] (外部テーブルを作成する)チェックボックスを選択して外部Hiveテーブルを作成する必要がある場合に役立ちます。 |
[Use S3 endpoint] (S3エンドポイントを使用) |
[Set file location] (ファイルの場所を設定する)チェックボックスを選択して、外部Hiveテーブルを作成すると、[Use S3 endpoint] (S3エンドポイントを使用)チェックボックスが表示されます。 この[Use S3 endpoint] (S3エンドポイントを使用)チェックボックスを選択したら、表示されたフィールドに次のパラメーターを入力する必要があります。
S3で作成されたHiveテーブルは実際には外部テーブルであるため、この[Use S3 endpoint] (S3エンドポイントを使用)チェックボックスは、[Create an external table] (外部テーブルの作成)が選択された状態で使用する必要があります。 |
詳細設定
[Like table] (テーブルのように) |
このチェックボックスを選択し、コピーするHiveテーブルの名前を入力します。これにより、データをコピーせずに既存のテーブルの定義をコピーできます。 Likeパラメーターの詳細については、Hiveのデータ定義言語に関するApacheの情報を参照してください。 |
外部テーブルの作成 |
このチェックボックスを選択すると、作成するテーブルが外部Hiveテーブルになります。この種のHiveテーブルは、データがHDFSにある場合、生データをそのまま残します。 通常、ファイルシステムに存在する共有データにアクセスするには、外部テーブルの方が適しています。 Hiveのテーブルの詳細は、Hiveに関するApacheのドキュメンテーションを参照してください。 |
[Table comment] (テーブルコメント) |
作成するテーブルに使用する説明を入力します。 |
[As select] (選択として) |
このチェックボックスを |
clustered_byまたはskewed_byステートメントの設定 |
|
[SerDe properties] (SerDeプロパティ) |
SerDe行形式を使用している場合は、カスタムSerDeプロパティを追加して、StudioのHadoopエンジンで使用されるデフォルトのプロパティを上書きできます。 |
[Table properties] (テーブルのプロパティ) |
StudioのHadoopエンジンで使用されるデフォルトのプロパティをオーバーライドするカスタムHiveテーブルプロパティを追加します。 |
[Temporary path] (一時パス) |
クエリー |
[Hadoop properties] (Hadoopプロパティ) |
Talend Studio では、Hadoopディストリビューションの処理を実行するエンジンに、デフォルト設定を使用しています。特定の場合にカスタム設定を使用する必要がある場合は、カスタマイズするプロパティをこのテーブルで設定します。設定後、カスタマイズしたプロパティによってこれらのデフォルトのプロパティがランタイム時に上書きされます。
Hadoop、およびHDFSやHiveなどのその関連システムで必要なプロパティの詳細については、使用しているHadoopディストリビューションのドキュメントを参照するか、http://hadoop.apache.org/docsに掲載されているApacheのHadoopのドキュメントを参照し、必要なバージョンのドキュメントを選択してください。以下のリンクでは、一部のプロパティについて実例を紹介しています。
|
[Hive properties] (Hiveプロパティ) |
Talend Studio では、Hiveデータベースの処理を実行するエンジンに、デフォルト設定を使用しています。特定の場合にカスタム設定を使用する必要がある場合は、カスタマイズするプロパティをこのテーブルで設定します。設定後、カスタマイズしたプロパティによってこれらのデフォルトのプロパティがランタイム時に上書きされます。Hive専用のプロパティの詳細は、https://cwiki.apache.org/confluence/display/Hive/AdminManual+Configurationを参照してください。
|
[Mapred job map memory mb] (MapredジョブMapメモリmb)および[Mapred job reduce memory mb] (MapredジョブReduceメモリmb) |
[Set memory] (メモリのセット)チェックボックスをオンにしてHadoopシステムでの計算実行で適切なメモリ割り当てをセットし、マッピングを調整して計算を減らすことができます。 このような場合は、必要な値を[Mapred job map memory mb] (MapredジョブのMapメモリMB)フィールドと[Mapred job reduce memory mb] (MapredジョブのReduceメモリMB)フィールドにそれぞれ入力してください。デフォルトでは、いずれのフィールドも通常は計算の実行に適切な1000に設定されています。 設定するメモリパラメーターは[Map (in Mb)]、[Reduce (in Mb)]、[ApplicationMaster (in Mb)]です。これらのフィールドは、MapとReduceの計算、およびYARNのApplicationMasterに動的にメモリを割り当てることができます。 |
[Path separator in server] (サーバーのパス区切り) |
サーバーのパス区切り記号のデフォルト値はそのままにしておきます。区切り記号をコロン(:)以外のHadoopディストリビューションのホストマシンで使用されているPATH変数またはその他の単語に変更している場合は除きます。その場合、値はホストで使用しているものに変更する必要があります。 |
Set application name |
Select this check box to avoid duplicates when you run your query on MapReduce or on Tez. On MapReduce, the |
[tStatCatcher Statistics] (tStatCatcher統計) |
このチェックボックスをオンにすると、コンポーネントレベルでログデータを収集できます。 |
Global Variables
[Global Variables] (グローバル変数) |
QUERY: 処理されているクエリーステートメント。これはFlow変数で、文字列を返します。 ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合にのみ機能します。 Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。 フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。 変数の詳細については、『 Talend Studio ユーザーガイド』を参照してください。 |
使用方法
使用ルール |
このコンポーネントはスタンドアロンとして機能します。 Hiveデータベースへの接続に使用しているStudioisがWindowsマシンにインストールされている場合は、このStudioがインストールされているディスクのルートにtmpというフォルダーを手動で作成する必要があります。 |
[Row format] (行形式) |
[Set Delimited row format] (区切り行形式を設定する) |
[Set SerDe row format] (SerDe行フォーマットを設定する) |
|
[Die on error] (エラー発生時に強制終了) |
|
[Dynamic settings] (ダイナミック設定) |
[+]ボタンをクリックしてテーブルに行を追加し、[Code] (コード)フィールドにコンテキスト変数を入力して、ジョブ内で計画した複数の接続からデータベース接続をダイナミックに選択します。この機能は、データ構造が同じでデータベースが異なるデータベーステーブルにアクセスする必要がある場合、特に、Talend Studioを介さずにジョブをデプロイおよび実行する必要がある時など、ジョブの設定を変更できない環境で作業している場合に役立ちます。 [Dynamic settings] (動的設定)テーブルは、[Basic settings] (基本設定)ビューで[Use an existing connection] (既存の接続を使用)チェックボックスが選択されている場合にのみ使用できます。ダイナミックパラメーターを定義すると、[Basic settings] (基本設定)ビューの[Component List] (コンポーネントリスト)ボックスは使用できなくなります。 動的パラメーターの使用サンプルは、コンテキストベースの動的接続によるデータベースからのデータの読み取りおよび動的に読み込まれた接続パラメーターを使用した異なるMySQLデータベースからのデータの読み取りを参照してください。[Dynamic settings] (動的設定)とコンテキスト変数については、『Talend Studioユーザーガイド』を参照してください。 |
前提条件 |
Talend Studio との操作を確実に行うには、Hadoopディストリビューションを適切にインストールする必要があります。以下のリストに、MapR関連の情報などを示します。
Hadoopディストリビューションのインストール方法の詳細は、使用しているHadoopディストリビューションに対応するマニュアルを参照してください。 |