Talend Cloud Data Inventory上のTalend Cloud Data Preparation - Cloud

Talend Cloud Data Preparationユーザーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
Last publication date
2024-04-16

Talend Cloud Data InventoryTalend Cloud Pipeline DesignerTalend Cloud Data Preparationのデータセットインベントリーが共通化されたことで、Talend Cloudプリケーション全体で統一されたエクスペリエンスが実現します。

スタンドアロンのTalend Cloud Data Inventoryアプリケーションをサブスクライブしていない場合でも、共通のアーキテクチャーにより、ハイブリッド版やオンプレミス版と比較してTalend Cloud Data Preparationの使用時に一部の新機能や改善点を利用できるようになります。

こうした追加ファンクションには新しい概念も導入されているため、Talend Cloud Data Preparationの利用に影響します。最も注目すべき変更は次のとおりです。

  • 再利用可能な接続という新しい概念

    たとえば、SalesforceやAmazon S3などに保管するリモートデータセットを作成するには、通常、[Add dataset] (データセットを追加)ボタンを使い、プラットフォームを選択し、接続情報を入力するという処理を毎回行います。今後は、この接続情報を一度だけ設定し、再利用可能な[Connection] (接続)として保存すれば、新しいデータセットの作成にいつでも再利用できます。データストアへの接続は、新しい[Connections] (接続)タブにリスト表示されます。

    [接続]タブが開かれている状態。
  • 拡張されたネイティブ接続

    まったく新しい範囲の接続タイプが、アプリケーション内でネイティブに利用できるようになりました。データベース、ファイルシステム、分散システム、プラットフォームなどからのデータセットでプレパレーションを作成します。接続可能なソースの完全なリストは、サポートされているコネクターのリストを参照してください。

    ただし、Talend Cloud Data Preparationは階層フォーマットをサポートせず、ストリーミングをサポートしません。

  • ローカルファイルの直接アップロード

    [Datasets] (データセット)ページで、新しい[Drop a file or browse] (ファイルをドロップするか参照)ボタンの利用により、ローカルファイルのインポートがすばやく簡単に行えるようになりました。ファイルをデータセットページにドラッグ&ドロップするか、エクスプローラーを使って参照します。開いたフォームにデータセットの設定を指定します。パラメーターを自動検出するだけでも結構です。

    [ファイルをどこかにドロップ]ボタンを示した図。
  • データセットリスト内の新しいインジケーター

    データセットリストを開く時に、新しいインジケーターが含まれている新しいカラムがあることがわかります。

    データセットリストに新しいインジケーターが表示されている状態。
    • まず、データセット全体にわたる空のレコード、有効なレコード、無効なレコードの配分を詳細に示すクオリティバーです。各色の上にマウスを置けば、正確なパーセンテージとレコード数が表示されます。
    • また、アプリケーションには、品質その他の個人的な基準に基づいて評価スコアをデータセットに適用できる新しいファンクションがあります。データセットリストに表示される評価スコアは、データセットにアクセスできるすべてのユーザーが適用したスコアの平均です。
    • 最後に、盾のアイコンで表されるトラストスコアは、データセットの品質と完全さの総合的なスコアが一目でわかるようにしたものです。品質自体、または評価スコアや証明書の存在など、いくつかのインジケーターが集計されています。
  • 共有がより柔軟に

    新しい共有ダイアログでは、接続、データセット、プレパレーションのフォルダーを他のユーザーと共有する時に、ロールを他のユーザーに割り当てることができます。ビューアー、エディター、所有者のロールにはすべて、共有オブジェクトに対して実行できるアクションに関するさまざまなレベルの権限が用意されています。共同作業者に特定のロールを割り当てるには、共有ダイアログを開き、オブジェクトを共有するユーザーまたはグループを選択し、[Add as...] (追加先...)をクリックします。

    誰かに割り当てたロールはいつでもアップデートできます。また、特定の共有オブジェクトのコントリビューターリストから自身を削除することもできます。

    [追加先...]ドロップダウンリストが開かれている状態。
  • プレパレーションを作成

    [Add dataset] (データセットを追加)ボタンを使えば、プレパレーションの作成時にデータセットも作成できます。

    データセットが1つ選択されている状態。

    ただし、プレパレーションを簡単に作成する別の方法が導入されました。データセットのリストから直接、マウスをデータセットに置いてTalend Cloud Data Preparationアイコンを選択します。[Add] (追加)をクリックしてデータのクレンジングを直ちに開始します。

    Talend Cloud Data Preparationアイコンが選択されている状態。
  • データセットの来歴とデスティネーション

    マウスをデータセットに重ねた時に表示されるTalend Cloud Data Preparationボタンには、プレパレーション作成のショートカットとしてのロールに加えて、別の有用な目的があります。特定のデータセットでこのアイコンをクリックすると、そこから作成されたすべてのプレパレーションがその作成者と共に表示され、データがどう使われているかをより的確に把握できます。

    Talend Cloud Data Preparationアイコンが選択されている状態。
  • データセットを削除

    今回のリリースでネイティブ接続とファンクションが拡張されるため、ライブデータセットの作成と使用はできなくなります。既存のライブデータセットはどれも使えなくなりました。

  • 行のヘッダー化

    このファンクションは今後、プレパレーションのファンクションパネルで利用できなくなります。代わりに、データセットのどの行をヘッダーとして使うかを、インポート時にデータセットプロパティ内で選択できます。

  • 複数のワークシートがあるExcelファイル

    複数のシートが含まれているExcelファイルをアップロードする場合、デフォルトでインポートされるのは最初のシートのみですが、データセット作成フォームでインポートするそのシートを選択できます。ただし、その種のファイルでは[Auto-detect] (自動検出)ファンクションはサポートされていません。