メイン コンテンツをスキップする 補完的コンテンツへスキップ

Talend Cloud Data Preparationの問題を修正

Availability-noteBeta
あなたは財務部門のデータアナリストで、アクセス権を持つcustomers_billing_datasetデータセットのクオリティが低いことを調査する任務を与えられています。 これからデータそのものを確認し、新しいプレパレーションを作成します。

手順

  1. [Dataset] (データセット)リストでcustomers_billing_datasetをクリックし、データセットの詳細ビューを開きます。
    Talend Trust Score™の図を見ると、ここ数日減少傾向にあることから、データベースに追加された最新のデータにエラーが含まれていることがわかります。これは、[Data quality] (データクオリティ)タイルに無効値や空白値が一定の割合で表示されていることで確認できます。
    チャートやクオリティインジケーターを伴うcustomers_billing_datasetの詳細ビュー。
  2. データそのものを確認するためには、左メニューで[Sample] (サンプル)アイコンをクリックします。
    データがグリッドビューで表示されます。特定のカラムで有効値と無効値が一致していないことがすぐにわかります。最も顕著なのはBilling_Countryカラムで、複数のカラムに分割されているはずの住所が完全な形で含まれてしまっています。
    データセットのサンプルビューで、データ内の修正すべきエラーが示されている状態。
  3. このデータセットで新しいプレパレーションを開始し、これらのエラーを修正するためには、画面右上の[Preparations] (プレパレーション) > [Add] (追加)ボタンをクリックします。
    マウスが[Add preparation] (プレパレーションを追加)ボタンをポイントしている状態。

    Talend Cloud Data Preparationが開き、データサンプルで変換操作を適用できるようになります。

  4. 次のファンクションを適用し、請求情報を修正します。
    1. Billing_Countryカラムに[Split the text in parts] (テキストを複数の部分に分割)を適用し、区切り文字として,を使って4つの部分に分割します。
    2. Billing_Country_Split_2カラム、Billing_Country_Split_3カラム、Billing_Country_Split_4カラムに[Remove trailing and leading characters] (終了文字と先頭文字を削除)を適用して空白を削除します。
    3. Billing_Country_Split_1カラムに[Delete the rows that match] (値に一致した行を削除)を適用し、(FR)|(US)|(GB)という正規表現をとして使用します。
    完全な住所のデータが新しいカラムに分割されました。また、それが正しい形式であることを確証できるよう、クリーニングも行われました。これによって最初にエラーが含まれていた行だけが残り、請求情報は国、州、市、番地それぞれの専用カラムへと適切に分割されました。

タスクの結果

ソースデータセットのアップデートに使用できる、よりクリーンなデータがプレパレーションに表示されるようになります。
データクオリティとフォーマッティングが改善されたデータセットのサンプルビュー。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。