ビッグデータ: 新しい機能 - 7.3

Talend Data Fabricリリースノート

EnrichVersion
7.3
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
リリースノート

Sparkジョブデザイナーの強化点

機能

説明

ADLS Gen2 Azure Data Lake Storage Generation2が、以下のビッグデータプラットフォームでサポートされるようになりました。
  • Databricks V5.5 LTS
  • Cloudera CDH V6.1
  • Hortonworks Data Platform V3.1
Snowflake Spark Batch用のSnowflakeコンポーネントは正式にサポートされています。テクニカルプレビュー状態ではなくなりました。
ネイティブデータセット
Spark Batchジョブでは、ネイティブSparkデータセットに対するサポートの対象コンポーネントが増え、パフォーマンスが本来的に向上しています。このパフォーマンス向上を活用するには、Spark V2.0以降と以下のコンポーネントを併用している必要があります。
  • tFileInputParquetとtFileOutputParquet
  • tFileInputDelimitedとtFileOutputDelimited
  • tFileInputFullRow
  • tFileInputPositionalとtFileInputRegex
  • tSortRow、tExtractDelimitedFields、tExtractPositionalFields、tExtractRegexFields、tExtractXMLField、tExtractJSONFields、tNormalize、tReplace、tReplicate、tSample、tUnite、tSchemaComplianceCheck
以下のコンポーネントは、SparkデータセットをサポートするためにSpark V2.1以降を必要とします。
  • tAggregateRow
  • Talend Studio V7.2以来データセットをサポートしてきたtMap機能に加えて、tMapの左外部結合
Delta Lake コンポーネントtDeltaLakeInputとtDeltaLakeOutputは、テクニカルプレビュー状態ではなくなりました。
Apache Spark V2.4 この新しいAparch Sparkバージョンは、Spark BatchジョブとSpark Streamingジョブで対応するビッグデータプラットフォームが増えました。現在Spark V2.4をサポートしているプラットフォームは、以下のとおりです。
  • Cloudera CDH6.1.1
  • Databricks V5.5
  • Google Cloud Dataproc V1.4
ジョブステータス Databricksでは、StudioがSparkクラスターにジョブステータスを尋ねる頻度をユーザーが設定できるようになっています。
tS3Configuration Amazon EMRでは、S3 バケットポリシーを適用できるようになりました。
tAggregateRow Spark Batch ジョブには、カウント(重複を除く)関数とサンプル標準偏差アルゴリズム関数が追加されました。
新しいドライバーバージョン
関連するコンポーネントに以下のドライバーバージョンに対するサポートが追加されました。
  • Redshift JDBCドライバーV1.23.7.106
  • MySQLドライバーV8.0.18
  • Teradata JDBCドライバーV16.20.00.13
  • JDBCコンポーネントのMariaDB JDBCドライバーV2.5.3
  • Snowflake JDBCドライバーV3.11.x

利用できる新コンポーネント

tAzureAdlsGen2InputとtAzureAdlsGen2Outputというコンポーネントが新たに追加されました。

ビッグデータプラットフォームに対するサポート

機能

説明

Databricks
  • Databricks V5.5 LTSはSparkジョブでサポートされるようになりました。
  • Azure Databricksの一時クラスターに対するサポートが追加されました。
Hortonworksデータプラットフォーム
  • Hortonworks Data Platform V3.1がサポートされています。
  • Hortonworks Data Platform V3.xシリーズがダイナミックディストリビューション間で正規に使えるようになりました。テクニカルプレビュー状態ではなくなりました。

Google Cloud Dataproc

  • Google Cloud Dataproc V1.4がサポートされています。
  • 標準ジョブでは、すべてのリージョンがtGoogleDataprocManageによってサポートされています。
カスタムHadoop設定 [Repository] (リポジトリー)でClouderaまたはHortonworksへの接続を定義する時に、使用するHadoop環境の接続パラメーターを提供するためにカスタムJARファイルを指定できるようになりました。

その他のコンポーネント

機能

説明

Kafka Kafka V2.2.1が以下で正規にサポートされるようになりました。
  • Cloudera CDH V6.1
  • Hortonworks Data Platform V3.1
  • 標準ジョブのKafkaコンポーネント
Google BigQuery
  • tBigQueryBulkExecでは、サービスアカウントまたはそのOAuth 2.0の認証情報を使ってテーブルを削除できるようになりました。
  • BigQueryのコンポーネントがGoogle CloudクライアントAPI 1.25.10をサポートするようになりました。
Couchbase
  • tCouchbaseOutputで、パラメーターを使うN1QLクエリーを実行できるようになりました。
  • JSON以外のドキュメントがサポートされています。

CXF

CXF V3.3.4が以下のコンポーネントでサポートされるようになりました。

  • tDBFSConnection、tDBFSGet、tDBFSPut
  • tHCatalogInput、tHCatalogLoad、tHCatalogOperation、tHCatalogOutput

MongoDB

MongoDB V4.2.xに対するサポートが標準ジョブのMongoDBコンポーネントに追加されました。