Spark Batchジョブを使ってCloudera Kuduでデータの読み書きを行う - Cloud - 8.0

Kudu

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > DBコンポーネント > Kudu
データガバナンス > サードパーティーシステム > DBコンポーネント > Kudu
データクオリティとプレパレーション > サードパーティーシステム > DBコンポーネント > Kudu
Last publication date
2024-02-28

このシナリオでは、Kuduコンポーネントを使ってSpark Batchジョブを作成し、データを分割してKuduテーブルに書き込んでから、Kuduからデータの一部を読み取ります。

このシナリオは、サブスクリプションベースのビッグデータ対応のTalend製品にのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。

読み取られたサンプルデータは次のとおりです。
01;ychen;30
02;john;40
03;yoko;20
04;tom;60
05;martin;50

このデータには、一部の人名、これらの人に割り当てられたID番号、および年齢が含まれています。

このカラムはプライマリキーカラムであり、このシナリオでは年齢が範囲のパーティショニングに使われるため、年齢の区別が意図的に行われます。

サンプルデータはあくまでも例示用です。

前提条件:
  • 使うSparkクラスターとCloudera Kuduデータベースが正しくインストールされ、実行されていることを確認します。

  • Talendジョブが実行されているクライアントマシンが、使用するHadoopクラスターのノードのホスト名を認識できることを確認します。そのためには、そのHadoopクラスターのサービスに使用するIPアドレス/ホスト名のマッピングエントリーをクライアントマシンのhostsファイルに追加します。

    たとえば、Hadoopネームノードサーバーのホスト名がtalend-cdh550.weave.localで、IPアドレスが192.168.x.xの場合、マッピングエントリーは192.168.x.x talend-cdh550.weave.localとなります。

  • 使用するクラスターがkerberosで保護されている場合は、Talendジョブが実行されているコンピュータにkerberosが正しくインストールされ、設定されていることをご確認ください。使用するkerberosモードに応じて、そのマシンでkerberos kinitチケットまたはキータブを利用できるようにしておく必要があります。

    詳細は、Talend Help Centerで、ビッグデータによってTalend StudioでKerberosを使用する方法を検索してください。

推奨事項:
  • [Repository] (リポジトリー)[Hadoop cluster] (Hadoopクラスター)ノードからHadoop接続メタデータを定義します。この方法では、この接続を別のジョブで再利用できるだけでなく、ジョブでこの接続を使用する際に、Hadoopクラスターへの接続が適切に設定されていて、正しく機能していることを確認することもできます。

    再利用可能なHadoop接続の設定方法は、Hadoop接続メタデータの一元管理をご覧ください。