機能のリスト - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

以下の表は、Talend Cloud Data Preparationで使用できるすべての機能とその効果をまとめたものです。

Math機能を除き、データが無効と見なされた場合、またはデータ型が選択した機能と互換性がない場合に以下のリストの機能を適用すると、[Create new column] (新しいカラムの作成)チェックボックスの選択にかかわらず入力値が返されます。

Math機能の場合、空の値は無視されます。値が無効な場合に機能が適用されると結果は空になります。

注:

以下の機能は一致アルゴリズムに依存しており、アジア系文字はサポートされていません。

  • 標準値(ファジーマッチング)
  • 類似テキストを検索してグループ化

行に適用できる機能

名前 カテゴリー 説明
[Delete row] (行を削除) data cleansing (データクレンジング) この行を削除
[Make as header] (ヘッダーとしてマーク) data cleansing (データクレンジング) この行のセルはカラム名になり、行は削除されます。

カラムに適用できる機能

名前 カテゴリー 説明
[Negate value] (値を反転) ブール値 このカラムのセルのブール値を反転します。
[Change data type] (データ型を変更) column metadata (カラムのメタデータ) このカラムのタイプ(数値、テキスト、日付など)を変更します。
[Change semantic domain] (セマンティックドメインを変更) column metadata (カラムのメタデータ) このカラムのセマンティックドメイン(市区町村、郵便番号、姓など)を変更します。
[Create new column] (カラムを新規作成) column metadata (カラムのメタデータ)
注: シーケンスモードで使用する場合、この機能はSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。
[Delete Column] (カラムを削除) column metadata (カラムのメタデータ) 選択したカラムを削除します。
[Duplicate column] (カラムを複製) column metadata (カラムのメタデータ) このカラムの正確なコピーを作成します。
[Rename Column] (カラム名を変更) column metadata (カラムのメタデータ) このカラムの名前を変更します。
[Concatenate columns] (カラムを連結) columns (カラム) 2つ以上のカラムの内容を新しいカラムにマージします。
[Concatenate with] (連結) columns (カラム) このカラムの内容を別のカラムの内容と結合して新しいカラムに表示します。
[Reorder columns] (カラムの順序を変更) columns (カラム) カラムの順序を変更します。
カラムの交換 columns (カラム) 他のカラムと値を交換します。
[Convert country names and codes] (国名とコードを変換) conversions (変換) 国名をISO-3166国コード(alpha-2、alpha-3、または数値)に、またはその逆に変換します。この機能では、英語、フランス語、日本語の名前とコードがサポートされています。
[Convert distance] (距離を変換) conversions (変換) 距離の単位を別の単位に変換します。
[Convert duration] (期間を変換) conversions (変換) 期間の単位を別の単位に変換します。
[Convert temperature] (温度を変換) conversions (変換) 温度の単位を変換します
[Clear on matching value] (値に一致したセルを消去) data cleansing (データクレンジング) 値に一致したセルを消去します。
[Clear the cells with invalid values] (無効な値のセルを消去) data cleansing (データクレンジング) 無効と認識された値を含んだセルを消去します。
[Coalesce columns] (カラムを融合) data cleansing (データクレンジング) 選択したカラム中の各行にNULLでない最初の値を取得します。
[Delete empty rows] (空の行を削除) data cleansing (データクレンジング) 各カラムのセルが空である行を削除します。
[Delete the rows that match] (値に一致した行を削除) data cleansing (データクレンジング) このカラムのセルに特定の値がある行を削除します。
[Delete the rows with empty cell] (空のセルを含む行を削除) data cleansing (データクレンジング) 空のセルを含む行を削除します。
[Delete the rows with invalid cell] (無効なセルを含む行を削除) data cleansing (データクレンジング) 無効なセルを含む行を削除します。
[Delete the rows with negative values] (負の値の行を削除) data cleansing (データクレンジング) このカラムの負の値のある行が削除されます。
[Fill cells with value] (空のセルに値を入力) data cleansing (データクレンジング) 指定した値をこのカラムのセルに入力します。
[Fill empty cells from above] (空のセルに上の内容を入力) data cleansing (データクレンジング) 空ではない直前のセルから値をコピーします。一連の空のセルがある場合、選択された値がこれらのすべてのセルに入力されます。
注: この機能はSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。
[Fill empty cells with text] (空のセルにテキストを入力) data cleansing (データクレンジング) 指定した値をこのカラムの空のセルに入力します。
[Fill empty cells with value] (空のセルに値を入力) data cleansing (データクレンジング) 指定した値をこのカラムのセルに入力します。
標準値(ファジーマッチング) data cleansing (データクレンジング) 無効な値を辞書の最も類似した正しい値に置換します。
注: この機能はアジア言語の文字をサポートしていません。
[Hash data] (データをハッシュ化) data masking (データマスキング) SHA-256アルゴリズムを使用してカラムのコンテンツをハッシュ化します。
[Mask data (obfuscation)] (データをマスク: 難読化) data masking (データマスキング) カラムのドメイン情報に従ってデータをマスク(匿名化)します。
[Lookup] (ルックアップ) データブレンディング 別のデータセットのカラムからこのデータセットにブレンドします。
[Calculate time until] (指定日時までの経過時間を計算) dates (日付) 目的の単位(年、月、日、時、分、秒)の日付からの経過時間を計算します。
Calculate timestamp to date (現在までのタイムスタンプの計算) dates (日付) タイムスタンプ(UNIX時間である01/01/1970から経過した時間)がある場合、その日付で新しいカラムを作成します。
[Change date format] (日付形式を変更) dates (日付) 日付カラムで使用する日付形式を変更します。
[Compare dates] (日付を比較) dates (日付) このカラムを別のカラムまたは定数と比較します。
[Convert dates] (日付を変換) dates (日付) 日付の歴を別の歴に変換します。
[Extract date parts] (日付部分を抽出) dates (日付) 年、月、四半期、日、時、分、秒などのカラムを作成します。
[Modify Dates] (日付を変更) dates (日付) 時間単位の量を加算または減算します。
[Deduplicate rows with identical values] (同じ値を持つ重複行を除外) deduplication (重複除外) 部分的または全体的に重複する行を削除し、カラムの最初の行を保持します。
注: この機能はSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。
[Delete these filtered rows] (フィルタリング済みの行を削除) filtered (フィルタリング済み) 現在のフィルターに一致した行のみを削除します。
[Keep these filtered rows] (フィルタリング済みの行を維持) filtered (フィルタリング済み) 現在のフィルターに一致した行のみを維持します。
[Add、multiply、substract、divide] (加算、乗算、減算、除算) math (計算) 別のカラムや固定値でこのカラムに対し、加算( + )、乗算( x )、減算( - )、除算( / )のいずれかを実行します。
[Base 10 Logarithm] (10を底とする対数) math (計算) カラムから基数10の対数を計算します。
[Calculate absolute value] (絶対値を計算) math (計算) このカラムのすべての数値の絶対値を計算します。
[Cosine] (コサイン) math (計算) カラムからコサインを計算します。
[Exponential] (べき乗) math (計算) カラム番号の指数
[Max] (最大) math (計算) 別のカラムまたは定数で最大化します。
[Max of columns] (カラムの最大値) math (計算) 2つ以上のカラムのレコードの最大値を表示します。
[Mean of columns] (カラムの平均値) math (計算) 2つ以上のカラムのレコードの平均値を計算します。
[Median of columns] (カラムの中央値) math (計算) 2つ以上のカラムのレコードの中央値を計算します。
[Min] (最小) math (計算) 別のカラムまたは定数で最小化します。
[Min of columns] (カラムの最小値) math (計算) 2つ以上のカラムのレコード間の最小値を表示します。
[Modulo] (余り) math (計算) 除算演算の剰余を計算します。
[Multiply columns] (カラムの乗算) math (計算) 2つ以上のカラムの値を乗算し、結果を新しいカラムに表示します。
[Natural logarithm] (自然対数) math (計算) カラムから自然対数を計算します。
[Negate] (反転) math (数学) カラム番号を負の値に反転
[Power] (べき乗) math (計算) 別のカラムや定数でべき乗します。
[Sine] (サイン) math (計算) カラムからサインを計算します。
[Square root] (平方根) math (計算) カラム番号の平方根を計算します。
[Sum columns] (カラムの合計) math (計算) 2つ以上のカラムのレコードの合計を計算し、結果を新しいカラムに表示します。
[Tangent] (タンジェント) math (計算) カラムからタンジェントを計算します。
[Compare numbers] (数値を比較) numbers (数値) このカラムを別のカラムまたは定数と比較します。
[Format numbers] (数値をフォーマット化) numbers (数値) 数値(小数点、整数、指数)を特定の形式やパターンでフォーマット化することを許可します。
[Generate sequence] (シーケンスを生成) numbers (数値) 選択したステップでカラムに正または負の整数のシーケンスを作成します。
注: この機能はSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。
[Remove fractional part] (端数部分を削除) numbers (数値) 値をゼロに近づけるように丸めます。(3.74 -> 3、-3.74 -> -3)
[Remove negative values] (負の値を削除) numbers (数値) 負の整数または10進数の値を空の値に置換します。
[Round value using ceil mode] (シールモードを使って値を丸める) numbers (数値) 設定した精度に応じて値を最も近い数に丸めます。([Precision] (精度)0に設定されている場合は3.14 -> 4になり、[Precision] (精度)1に設定されている場合は3.14 -> 3.2になります。)
[Round value using down mode] (切り捨てモードを使って値を丸める) numbers (数値) 値をゼロに近づけるように丸めます。([Precision] (精度)0に設定されている場合は3.74 -> 3、-3.74 -> -3となります。)
[Round value using floor mode] (フロアモードを使って値を丸める) numbers (数値) 設定した精度に応じて値を最も近い数に切り捨てます。([Precision] (精度)0に設定されている場合は3.74 -> 3になり、[Precision] (精度)1に設定されている場合は3.74 -> 3.7となります。)
[Round value using halfUp mode] (四捨五入モードを使って値を丸める) numbers (数値) 設定した精度に応じて、値を最も近い数に四捨五入します。([Precision] (精度)0に設定されている場合は3.14 -> 3、3.74 -> 4となります。)
[Extract phone number information] (電話番号情報を抽出) phones (電話) 電話タイプ、国、通信事業者名などの追加情報を電話番号から抽出します。各フィールドが新しいカラムに抽出されます。
[Format phone number] (電話番号をフォーマット化) phones (電話) 電話番号を標準形式にフォーマット化します。
[Extract email Parts] (電子メールの要素を抽出) split (分割) 電子メールからローカルとドメインの部分を抽出します。
[Extract full name parts] (フルネームの部分を抽出) split (分割) フルネームから情報(タイトル、ファーストネーム、ニックネーム、ミドルネーム、ラストネームなど)を抽出します。
[Extract number] (数値を抽出) split (分割) 入力データから数値を抽出します。
[Extract values by regex] (正規表現で値を抽出) split (分割) 正規表現グループを基に文字列トークンを抽出します。
[Extract values by semantic type] (セマンティックタイプで値を抽出) split (分割) 定義済み、またはカスタムのセマンティックタイプに合わせて、区切られたカラムにあるさまざまな情報を抽出します。
[Extract URL Parts] (URL部分を抽出) split (分割) 区切られたカラムのURLからプロトコル、ホスト、ポート、クエリーなどを抽出します。
[Split the text in parts] (テキストを複数の部分に分割) split (分割) 区切り記号からカラムを分割します。
[Calculate length] (長さを計算) strings (文字列) 値(23562 -> 5)から桁数を抽出します。
[Change to lower case] (小文字に変換) strings (文字列) このカラムのセルテキストをすべて小文字に変換します。
[Change to title case] (単語の先頭文字を大文字に変更) strings (文字列) このカラムのテキストコンテンツをタイトル表記に変換します。(例: "this is an example" -> "This Is an Example")
[Change to upper case] (大文字に変換) strings (文字列) このカラムのセルテキストをすべて大文字に変換します。
[Contains text] (テキストを含める) strings (文字列) セルに指定の値が含まれているかどうか確認します。
[Extract a value by index] (テキストの一部を抽出) strings (文字列) テキストの一部(部分文字列)を抽出して新しいカラムを作成します。
[Magic fill] (スマート入力) strings (文字列) 例を参考にパターンを定義し、カラム全体に変換を適用できます。
注: この機能はSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。
[Match similar text] (類似のテキストに一致) strings (文字列) 値が指定の値のレーベンシュタイン距離以下かどうかについて、trueまたはfalseの値を持つ新しいカラムを作成します。
[Matches pattern] (パターンに一致) strings (文字列) 値が指定のパターンに一致するかどうかについて、trueまたはfalseの値を持つ新しいカラムを作成します。
[Remove consecutive characters] (連続する文字を削除) strings (文字列) 連続して繰り返される文字を削除します。
[Remove part of the text] (テキストの一部を削除) strings (文字列) このカラムのセルから指定のテキストを削除します。
[Remove trailing and leading characters] (後続文字および先行文字を削除) strings (文字列) 末尾と先頭の空白、または特定の文字を削除(トリム)します。
[Search and replace] (検索して置換) strings (文字列) 特定の値を含んでいるセル、またはセルの部分を置換します。
[Add extra characters] (余分な文字を追加) strings advanced (文字列詳細) 予測されるサイズに一致するよう、元の値の左または右に余分な文字を追加(パディング)します。
[Convert character width] (文字幅を変換) strings advanced (文字列詳細) 文字幅を半角または全角に変換したり、文字列を正規化したりします。
[Find and group similar text] (類似テキストを検索してグループ化) strings advanced (文字列詳細) 類似の値をすべて正しい値に置換し(ファジーマッチングをまとめ)ます。
注: この機能はアジア言語の文字をサポートしていません。
[Generate unique identifier (UUID)] (ユニークな識別子(UUID)を生成) strings advanced (文字列詳細) カラムの各行にユニークな識別子を生成します。
[Remove all non alpha numeric characters] (数字以外の文字をすべて削除) strings advanced (文字列詳細) 0~9、Aa~Zz、アクセント記号付き文字以外の文字をすべて削除することで、予期しない文字を含む値を消去します。空白文字は保持されます。

たとえば、 T=+Âl**€en#d$ 20%1,7TÂlend 2017になります。

[Remove all non numeric characters] (数字以外の文字をすべて削除) strings advanced (文字列詳細) 0~9以外の文字をすべて削除することで数値を消去します。小数点記号と空白文字は保持されます。

たとえば、 T=+Âl**€en#d$ 20%1,7201,7になります。

[Simplify text (remove case, accent, etc.)] (テキストを簡素化(大文字/小文字の区別、アクセントなどを排除)) strings advanced (文字列詳細) 小文字にし、アクセントを削除し、NFKDを利用して正規化し、組み合わせた文字は分割し、文字列全体を短くしてカラムの内容を簡略化します。

たとえば、Françoisfrancoisのようになります。

テーブル全体に適用できる機能

名前 カテゴリー 説明
[Delete empty columns] (空のカラムを削除) data cleansing (データクレンジング) 値が空のカラムをすべて削除します。
[Delete empty rows] (空の行を削除) data cleansing (データクレンジング) 各カラムのセルが空である行を削除します。
[Change date format] (日付形式を変更) dates (日付) 日付カラムで使用する日付形式を変更します。
[Remove duplicate rows] (重複行を削除) deduplication (重複除外) 完全に重複する行をすべて削除して1行だけ保持します。
注: この機能はSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。
[Format numbers] (数値をフォーマット化) numbers (数値) 数値(小数点、整数、指数)を特定の形式やパターンでフォーマット化することを許可します。
[Format phone number] (電話番号をフォーマット化) phones (電話) 電話番号を標準形式にフォーマット化します。
[Remove trailing and leading characters] (後続文字および先行文字を削除) strings (文字列) 末尾と先頭の空白、または特定の文字を削除(トリム)します。
[Search and replace] (検索して置換) strings (文字列) 特定の値を含んでいるセル、またはセルの部分を置換します。