Talend Cloud Data InventoryでのTalend Cloud Data Preparation - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

R2020-05 Cloudリリースでは、Talend Cloud Data InventoryTalend Cloud Pipeline DesignerTalend Cloud Data Preparation向けにデータセットの共通インベントリーが導入され、Talend Cloudアプリケーションの間で操作が統一されました。

共通のアーキテクチャーのおかげで、スタンドアロンのTalend Cloud Data Inventoryアプリケーションをサブスクライブしていなくても、Talend Cloud Data Preparationを使う際に新機能や改善点を利用できるようになります。

こうした追加機能には新しい概念も導入されているため、Talend Cloud Data Preparationの利用に影響します。最も注目すべき変更は次のとおりです。

  • 再利用可能な接続という新しい概念

    たとえば、SalesforceやAmazon S3などに保管するリモートデータセットを作成するには、通常、[Add dataset] (データセットの追加)ボタンを使い、プラットフォームを選択し、接続情報を入力するという処理を毎回行います。今後は、この接続情報を一度だけ設定し、再利用可能な[Connection] (接続)として保存すれば、新しいデータセットの作成にいつでも再利用できます。データストアへの接続は、新しい[Connections] (接続)タブにリスト表示されます。

  • 拡張されたネイティブ接続

    まったく新しい範囲の接続タイプが、アプリケーション内でネイティブに利用できるようになりました。データベース、ファイルシステム、分散システム、プラットフォームなどからのデータセットでプレパレーションを作成します。接続可能なソースの完全なリストは、サポートされているコネクターのリストを参照してください。

    ただし、Talend Cloud Data Preparationは階層フォーマットをサポートせず、ストリーミングをサポートしません。

  • [Direct upload for local files] (ローカルファイルの直接アップロード)

    [Datasets] (データセット)ページで、新しい[Drop a file or browse] (ファイルをドロップするか参照)ボタンの利用により、ローカルファイルのインポートがすばやく簡単に行えるようになりました。ファイルをデータセットページにドラッグ&ドロップするか、エクスプローラーを使って参照します。開いたフォームにデータセットの設定を指定します。パラメーターを自動検出するだけでも結構です。

  • データセットリスト内の新しいインジケーター

    データセットのリストを開く時に、新しいインジケーターが含まれている新しいカラムがあることがわかります。

    • まず、データセット全体にわたる空のレコード、有効なレコード、無効なレコードの再区分を詳細に示すクオリティバーです。正確なパーセンテージとレコード数にアクセスするには、各カラーの上にマウスを置きます。
    • また、アプリケーションには、品質その他の個人的な基準に基づいて評価スコアをデータセットに適用できる新しい機能があります。データセットリストに表示される評価スコアは、データセットにアクセスできるすべてのユーザーが適用したスコアの平均です。
    • 最後に、盾のアイコンで表されるトラストスコアは、データセットの品質と完全さの総合的なスコアが一目でわかるようにしたものです。品質自体、または評価スコアや証明書の存在など、いくつかのインジケーターが集計されています。
  • 共有がより柔軟に

    新しい共有ダイアログでは、接続、データセット、プレパレーションのフォルダーを他のユーザーと共有する時に、ロールを他のユーザーに割り当てることができます。ビューアー、エディター、所有者のロールにはすべて、共有オブジェクトに対して実行できるアクションに関するさまざまなレベルの権限が用意されています。共同作業者に特定のロールを割り当てるには、共有ダイアログを開き、オブジェクトを共有するユーザーまたはグループを選択し、[Add as...] (名前を付けて追加...)をクリックします。

    誰かに割り当てたロールはいつでも更新できます。また、特定の共有オブジェクトのコントリビューターリストから自身を削除することもできます。

  • プレパレーションの作成

    プレパレーションの作成プロセスに関する重要な変更があります。オンザフライでインポートされたデータセットに基づいてプレパレーションを追加することはできなくなりました。[Add preparation] (プレパレーションの追加)ボタンを使う場合、プレパレーションの作成は、既存のデータセットの1つに基づいて行う必要があります。

    ただし、プレパレーションを簡単に作成する別の方法が導入されました。データセットのリストから直接、マウスをデータセットに重ね、Talend Cloud Data Preparationアイコンを選択します。[Add] (追加)をクリックしてデータのクレンジングを直ちに開始します。

  • データセットの来歴と宛先

    マウスをデータセットに重ねた時に表示されるTalend Cloud Data Preparationボタンには、プレパレーション作成のショートカットとしてのロールに加えて、別の有用な目的があります。特定のデータセットでこのアイコンをクリックすると、そこから作成されたすべてのプレパレーションがその作成者と共に表示され、データがどう使われているかをより的確に把握できます。

  • データセットの削除

    今回のリリースでネイティブ接続と機能が拡張されるため、ライブデータセットの作成と使用はできなくなります。既存のライブデータセットはすべて使えなくなりました。

  • 行のヘッダー化

    この機能は今後、プレパレーションの機能パネルで利用できなくなります。代わりに、データセットのどの行をヘッダーとして使うかを、インポート時にデータセットプロパティ内で選択できます。

  • 複数のワークシートがあるExcelファイル

    複数のシートが含まれたExcelファイルをアップロードする時に、デフォルトでインポートされるのは最初のシートのみですが、インポートするシートをデータセット作成フォームで選択できます。ただし、その種のファイルでは[Auto-detect] (自動検出)機能はサポートされていません。