ビッグデータ: 新しい機能 - 8.0

Talend Data Fabricリリースノート

Version
8.0
Language
日本語 (日本)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Content
インストールとアップグレード
リリースノート

機能

説明

Spark Universalのサポート [Local] (ローカル)モードと[Yarn cluster] (Yarnクラスター)モードのどちらかで、Spark 2.4.xまたはSpark 3.0.xでSpark Universalを使って、Sparkジョブを実行できるようになりました。

Spark Universalとは、[Yarn cluster] (Yarnクラスター)でクラスターへの接続の確立に必要な情報が含まれるHadoop設定JARファイルのみを使って、特定のSparkバージョンの利用できるすべてのビッグデータディストリビューションとTalend Studioの間の互換性があるようにするメカニズムです。

Spark Universalによって、さまざまなSparkモード、ディストリビューション、環境のいずれかの間のスイッチが有効化されるため、俊敏性が向上します。

ジョブの[Spark configuration] (Spark設定)ビューと[Repository] (リポジトリー)ツリービューからの[Hadoop Cluster Connection] (Hadoopクラスター接続)のどちらかでSpark Universal接続を設定できます:
Spark Universal 3.1.xでKubernetesのサポート [Kubernetes]モードで、Spark 3.1.xでSpark Universalを使って、Sparkジョブを実行できるようになりました。
KubernetesとのSpark Universal接続は、ジョブの[Spark configuration] (Spark設定)ビューと[Repository] (リポジトリー)ツリービューからの[Hadoop Cluster Connection] (Hadoopクラスター接続)のいずれかで設定できます:
Spark Batchコンポーネントでのダイナミックスキーマのサポート Sparkジョブで、以下のコンポーネントを使って、ダイナミックスキーマを使えるようになりました:
  • tDeltaLakeInput
  • tDeltaLakeOutput
  • tFileInputParquet
  • tFileOutputParquet
  • tJDBCInput
  • tJDBCOutput
  • tLogRow
  • tSqlRow
新しいディストリビューションのサポート

7.3月次リリースで配信済み

Sparkジョブでは次のディストリビューションを使用できます。
  • Spark 2.4を使ったMicrosoft HD Insight (7.3 R2020-06月次リリースで配信済み)
  • Spark 2.4を使ったCDP Private Cloud Base 7.1 (7.3 R2020-06月次リリースで配信済み)
  • Spark 3.0を使ったDatabricks 7.3 LTS (7.3 R2021-02月次リリースで配信済み)
  • CDP Public Cloud Data Hub (7.3 R2021-03月次リリースで配信済み)
  • Spark 3.0を使ったAWS EMR 6.2 (7.3 R2021-05月次リリースで配信済み)
  • Spark 3.0を使ったAzure Synapse (7.3 R2021-08月次リリースで配信済み)
SparkジョブにおけるローカルモードのSpark 3.0のサポート

7.3 R2021-02月次リリースで配信済み

Talend StudioでのSparkジョブの実行で、ローカルモードのSpark 3.0がサポートされるようになりました。
注: ただし次のエレメントの場合、ローカルモードのSpark 3.0はサポートされていません。
  • ADLS Gen2
  • tCassandraInputとtCassandraOutput
  • tElasticSearchInputとtElasticSearchOutput
AWSでのCDP Public Cloud Data Hubに関するKnoxのサポート

7.3 R2021-06月次リリースで配信済み

AWSでのCDP Public Cloud Data HubインスタンスをCDP 7.1以降のYARNクラスターとHDFSモードで使用する場合、Sparkジョブの[Spark configuraiton] (Spark設定)ビュー、または[Repository] (リポジトリー)ツリービューの[Hadoop Cluster Connection] (Hadoopクラスター接続)メタデータウィザードで、Knoxを使って認証できるようになりました。Knoxでは、SSOのみを使って単一認証を提供できます。
Cloudera CDP 7.1.xでのHive Warehouse Connectorのサポート

7.3 R2021-10月次リリースで配信済み

Hive Warehouse Connectorを使って、以下の新しいコンポーネントが含まれているSpark BatchジョブでHiveトランザクション管理対象テーブルから/にデータを取得するか、データを書き込むことができるようになりました:

  • tHiveWarehouseConfiguration: 同じジョブでHiveへのHive Warehouse Connectorの接続設定を再利用できます。
  • tHiveWarehouseInput: Hiveからデータを抽出し、Hive Warehouse Connectorを使って、後続するコンポーネントにデータを送信します。
  • tHiveWarehouseOutput: 特定のHiveデータベースに接続して、Hive Warehouse Connectorを使って、受信したデータを特定のHiveテーブルまたはHDFS内のディレクトリーに書き込みます。

Talend Studioでは、Hive Warehouse Connectorによって、データに対してより最適なトランザクション制御が可能となるHiveトランザクション管理対象テーブルがサポートされています。