手順
-
tSqoopMergeをダブルクリックして、[Component] (コンポーネント)ビューを開きます。
- [Mode] (モード)エリアで、[Use Java API] (Java APIの使用)を選択します。
-
[Version] (バージョン)エリアで、使用するHadoopディストリビューションとそのバージョンを選択します。リストに対応するディストリビューションが見つからない場合は、[Custom] (カスタム)を選択し、Talend Studioで公式にはサポートされていないHadoopディストリビューションに接続します。
この[Custom] (カスタム)オプションを使用する手順の例は、カスタムHadoopディストリビューションに接続をご覧ください。
- [NameNode URI] (名前ノードURI)フィールドに、使用するディストリビューションのマスターノード、NameNodeの場所を入力します。たとえば、hdfs://talend-cdh4-namenode:8020のようにします。 WebHDFSを使用している場合、ロケーションはwebhdfs://masternode:portnumberとなります。WebHDFS with SSLはまだサポートされていません。
- [Resource Manager] (リソースマネージャー)フィールドに、ディストリビューションの場所を入力します。
-
使用するディストリビューションにkerberos認証が必要な場合は、[Use Kerberos authentication] (Kerberos認証を使用)チェックボックスをオンにして、認証の詳細を入力します。それ以外の場合は、このチェックボックスを解除したままにしておきます。
ログインにKerberosのkeytabファイルが必要な場合は、[Use a keytab to authenticate] (認証にkeytabを使用)チェックボックスをオンにします。keytabファイルには、Kerberosのプリンシパルと暗号化されたキーのペアが含まれています。使用するプリンシパルを[Principal] (プリンシパル)フィールドに入力し、keytabファイルへのアクセスパスを[Keytab] フィールドに入力します。このキータブファイルは、ジョブが実際に実行されているマシン(Talend JobServerなど)に保存する必要があります。
keytabが有効なジョブは、プリンシパルに任命されたユーザーでなくても実行できますが、使用するkeytabファイルの読み取り権限が必要です。たとえばuser1というユーザー名でジョブを実行し、使用するプリンシパルがguestの場合、user1に使用するキータブファイルの読み取り権限があることをご確認ください。
- [Old data directory] (古いデータディレクトリー)および[New data directory] (新しいデータディレクトリー)フィールドに、パスを入力するか、または新旧のデータセットが保管されているHDFSのディレクトリーをそれぞれ参照します。
- [Target directory] (ターゲットディレクトリー)フィールドにパスを入力するか、マージ結果を保存するフォルダーを参照します。
- [Merge key] (マージキー)フィールドに、マージのキーとして使用するカラムを入力します。このシナリオでは、カラムはidになります。
- ソースデータベーステーブルの接続パラメーターを表示するには、[Need to generate the JAR file] (JARファイルの生成が必要)を選択します。
- [Connection] (接続)フィールドに、ソーステーブルが保管されているMySQLデータベースのURIを入力します。たとえば、 jdbc:mysql://10.42.10.13/mysqlのようにします。
- [Table Name] (テーブル名)フィールドに、ソーステーブルの名前を入力します。このシナリオでは、sqoopmergeになります。
- [Username] (ユーザー名)および[Password] (パスワード)に、認証情報を入力します。
-
[Driver JAR] (ドライバーJAR)テーブルの下で、[+]ボタンをクリックして1行を追加し、この行で[...]ボタンをクリックしてドロップダウンリストを表示し、そのリストから使用するjarファイルを選択します。このシナリオでは、mysql-connector-java-5.1.30-bin.jarになります。
[...]ボタンが表示されない場合、この行のどこかをクリックすると表示されます。
- ソーステーブルのフィールド区切りがコンマ(,)でない場合でも、[Advanced settings] (詳細設定)タブの[Additional Arguments] (追加引数)テーブルで区切りを指定する必要があります。使用する引数は、[Use Java API] (Java APIの使用)モードの場合はcodegen.output.delimiters.field、[Use Commandline] (コマンドライン)の場合は--fields-terminated-byになります。