特定のHiveデータベースに接続し、受け取ったデータを特定のHiveテーブルまたはHDFSのディレクトリーに書き込みます。
HiveではSparkから外部テーブルにアクセスできますが、ACIDトランザクションはサポートされていません。
Hive側でACIDが有効になっている場合、Sparkジョブはテーブルを削除またはアップデートできず、データが圧縮されない限り、このジョブはHiveテーブルから集計データを正しく読み取ることができません。これは、Sparkバグ追跡システムで説明されている既知の制限https://issues.apache.org/jira/browse/SPARK-15348です。
デフォルトで、このコンポーネントはTalend Studioと共には出荷されていません。機能マネージャーを使ってインストールする必要があります。 詳細は、機能マネージャーを使って機能をインストールをご覧ください。
Talendがサポートしているテクノロジーの詳細は、Talendコンポーネントをご覧ください。
使用しているTalend製品に応じて、このコンポーネントは次のジョブのフレームワークの1つ、一部、またはすべてで使用できます。
-
Spark Batch:Apache Spark BatchのtHiveOutputプロパティをご覧ください。
このフレームワーク内のコンポーネントは、ビッグデータ対応のサブスクリプションTalend 製品すべて、およびTalend Data Fabricで利用できます。
-
Spark Streaming:Apache Spark StreamingのtHiveOutputプロパティをご覧ください。
このコンポーネントは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで利用できます。