エンジン依存項目のDatabricksへのコピー - Cloud

Talend Cloud Management Console for Pipelinesユーザーガイド

EnrichVersion
Cloud
EnrichProdName
Talend Cloud
EnrichPlatform
Talend Management Console
task
デプロイメント > スケジューリング > タスクのスケジューリング
デプロイメント > デプロイ中 > タスクの実行
管理と監視 > プロジェクトの管理
管理と監視 > ユーザーの管理

始める前に

  • ローカルネットワーク、または仮想プライベートクラウドにRemote Engine Gen2がインストールされていること。
  • Databricksのコマンドラインインターフェイス(CLI)がインストールされていること。
    ヒント: databricksコマンドが見つからない場合は、.local/bin/databricksフォルダーを検索してください。

手順

  1. 次のファイルをlivyコンテナーからhostディレクトリーにコピーします。
    docker cp <livy_container_name>:/opt/talend/connectors <hostDirectory>
    docker cp <livy_container_name>:/opt/datastreams-deps <hostDirectory>

    <livy_container_name>には自分のlivyコンテナーの名前が、<hostDirectory>は自分のhostディレクトリーの名前が入ります。

  2. 次のファイルをhostディレクトリーからDatabricksにコピーします。
    databricks fs (or alias dbfs) cp -r <hostDirectory>/connectors dbfs:/tpd-staging/connectors
    databricks fs (or alias dbfs) cp -r <hostDirectory>/datastreams-deps dbfs:/tpd-staging/datastreams-deps

    <hostDirectory>には自分のhostディレクトリーの名前が入ります。

  3. stateファイルを生成します。
    find <hostDirectory>/connectors/ -type f | sed 's/connectors\///g' | awk '{print "connectors;" $0}' > ./.state
               
    find <hostDirectory>/datastreams-deps/ -type f | egrep -v '.*.xml' | sed 's/datastreams-deps\///g' | awk '{print "datastreams-deps;" $0}' >> ./.state

    <hostDirectory>には自分のhostディレクトリーの名前が入ります。

  4. stateファイルをDatabricksステージングディレクトリー(DBFS)にコピーします。
    databricks fs cp ./.state dbfs:/tpd-staging/
    注: Databricksは既にdatabricks fsからdbfsにエイリアス化しています。databricks fsdbfsは同等です。