例に基づいてデータを自動的に形式設定 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

スマート入力関数では、専用の関数を持たないデータ型をフォーマットしたり、同じ関数で連続する変換を簡単に実行したりするための便利なソリューションを提供します。

注: この関数はSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。

機械学習アルゴリズムを使用して、この関数を使用すると、事前に定義したいくつかの例に基づいて、パターンを定義し、自動的にカラム全体に変換を適用することができます。

現在、スマート入力関数がサポートしている変換タイプは次のとおりです。

  • Substring
  • 定数(数字、文字、特殊文字)の追加
  • 大文字と小文字の区別
  • 国、米国の郵便番号と州、電子メール、URL、日付のセマンティック変換

関数を動作させるには、適用する変換の例を少なくとも2つ入力する必要があります。その後、あと3つまで例を追加できます。入力する例が多いほど、関数によってより正確にパターンが識別されます。

関数で生成された変換プログラムがソースカラムからのデータの一部に適用されなければ、ターゲットカラムでは変更されないままとなります。

[dates] (日付)[phone numbers] (電話番号)などのデータ型には、その形式を簡単に変更するために使える専用の関数があります。たとえば、[full names] (氏名)[social security numbers] (社会保障番号)[state codes] (州コード)はそうではありません。次のシナリオでは、スマート入力関数を使ってそのような場合にデータの形式を設定する方法を説明します。