ファンクションのリスト - 2.8

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
2.8
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation
この表に、Talend Data Preparationで使用可能なすべてのファンクションとその効果を一覧にします。

行に適用できるファンクション

名前

カテゴリー

説明

行の削除

データクレンジング

この行を削除

ヘッダーとしてマーク

データクレンジング

この行のセルはカラム名になり、行は削除されます

カラムに適用できるファンクション

名前

カテゴリー

説明

負の値

ブール値

このカラムのセルのブール値を反転

データ型の変更

カラムのメタデータ

このカラムのタイプを変更(数値、テキスト、日付など)

セマンティックドメインの変更

カラムのメタデータ

このカラムのセマンティックドメイン(市区町村、郵便番号、姓など)を変更

新しいカラムの作成

カラムのメタデータ

カラムをコピーするか、新しいカラムを作成

カラムの削除

カラムのメタデータ

選択したカラムを削除

カラムの複製

カラムのメタデータ

このカラムの正確なコピーを作成

カラム名の変更

カラムのメタデータ

このカラムの名前を変更

次と連結:

カラム

このカラムの内容を別のカラムの内容と結合して新しいカラムに表示

カラムの順序変更

カラム

カラムの順序を変更

カラムの交換

カラム

他のカラムと値を交換

国名とコードの変換

変換

国名をISO-3166国コード(alpha-2、alpha-3、または数値)に、またはその逆に変換します。

距離の変換

変換

距離の単位を別の単位に変換

期間の変換

変換

期間の単位を別の単位に変換

温度の変換

変換

温度測定単位を変換

値に一致したセルを消去

データクレンジング

値に一致したセルを消去

無効な値のセルを消去

データクレンジング

無効と認識された値を含んだセルを消去

空の行を削除

データクレンジング

各カラムのセルが空の行を削除

値に一致した行を削除

データクレンジング

このカラムのセルに特定の値がある行を削除

空のセルを含む行を削除

データクレンジング

空のセルを含む行を削除

無効なセルを含む行を削除

データクレンジング

無効なセルを含む行を削除

負の値の行を削除

データクレンジング

このカラムの負の値のある行が削除されます

セルに値を入力

データクレンジング

指定した値をこのカラムのセルに入力

空のセルに直前の内容を入力

データクレンジング

空ではない直前のセルから値をコピー。一連の空のセルがある場合、選択された値がこれらのすべてのセルに入力されます。

空のセルにテキストを入力

データクレンジング

指定した値をこのカラムの空のセルに入力

空のセルに値を入力

データクレンジング

指定した値をこのカラムのセルに入力

値の標準化 (ファジーマッチング)

データクレンジング

無効な値を辞書の最も類似した正しい値に置換

データをハッシュする

データマスキング

SHA-256アルゴリズムを使用してカラムのコンテンツをハッシュします。

データのマスク(難読化)

データマスキング

カラムのドメイン情報に従ってデータをマスク(匿名化)

ルックアップ

データブレンディング

別のデータセットのカラムからこのデータセットにブレンド

指定日時までの経過時間を計算

日付

目的の単位(年、月、日、時、分、秒)の日付からの経過時間を計算

現在までのタイムスタンプの計算

日付

タイムスタンプ(UNIX時間から経過した時間、つまり、01/01/1970)がある場合、その日付で新しいカラムを作成

日付形式の変更

日付

日付カラムで使用する日付形式を変更

日付の比較

日付

このカラムを別のカラムまたは定数と比較

日付の変換

日付

日付の歴を別の歴に変換

日付部分の抽出

日付

年、月、四半期、日、時、分、秒などのカラムを作成

日付の変更

日付

時間単位量を足し算するか引き算

重複行の削除

重複除外

完全に重複しているすべての行を削除し、1つだけを保持

フィルター処理された行を削除

フィルター

現在のフィルターに一致した行のみを削除

フィルター処理された行を維持

フィルター

現在のフィルターに一致した行のみを維持

加算、乗算、減算、または除算

計算

別のカラムまたは固定値でこのカラムに対して操作/計算、つまり、加算/総計(+)、乗算(x)、減算(-)、または除算(/)を実行

10を底とする対数

計算

カラムから10を底とする対数を計算

絶対値の計算

計算

このカラムのすべての数値の絶対値を計算します。

コサイン

計算

カラムからコサインを計算

指数

計算

カラム番号の指数

最大

計算

別のカラムまたは定数で最大化

最小

計算

別のカラムまたは定数で最小化

余り

計算

除算演算の剰余を計算

自然対数

計算

カラムから自然対数を計算

反転

計算

カラム番号を負の値に反転

べき乗

計算

別のカラムまたは定数でべき乗

サイン

計算

カラムからサインを計算

平方根

計算

カラム番号の平方根

タンジェント

計算

カラムからタンジェントを計算

数値の比較

数値

このカラムを別のカラムまたは定数と比較

数値のフォーマット

数値

数値(小数点、整数、および指数)を特定の形式またはパターンでフォーマットすることを許可

シーケンスの生成

数値

選択したステップでカラムに正または負の整数のシーケンスを作成

端数部分を削除

数値

値をゼロに丸めます。(3.74 -> 3)および(-3.74 -> -3)

負の値を削除

数値

負の整数または10進数の値を空の値に置換

シールモードを使って値を丸める

数値

設定した精度に応じて、値を最も近い数に丸めます。[Precision] (精度)0に設定した場合は(3.14 -> 4になり、[Precision] (精度)1に設定した場合は3.14 -> 3.2になります)

切り捨てモードを使って値を丸める

数値

値をゼロに丸めます。([Precision] (精度)0に設定した場合は3.74 -> 3および -3.74 -> -3になります)

フロアモードを使って値を丸める

数値

設定した精度に応じて、値を最も近い数に切り捨てます。[Precision] (精度)0に設定した場合は(3.74 -> 3になり、[Precision] (精度)1に設定した場合は3.74 -> 3.7になります)

四捨五入モードを使って値を丸める

数値

設定した精度に応じて、値を最も近い数に四捨五入します。([Precision] (精度)0に設定した場合は3.14 -> 3および 3.74 -> 4になります)

電話番号情報の抽出

電話

電話タイプ、国、または通信事業者名などの追加情報を電話番号から抽出します。各フィールドが新しいカラムに抽出されます。

電話番号のフォーマット

電話

電話番号を標準形式にフォーマット

電子メールの要素を抽出

分割

電子メールからローカルとドメインの部分を抽出

数値の抽出

分割

入力データから数値を抽出

文字列部分の抽出

分割

RegExグループを基に文字列トークンを抽出

URLの要素を抽出

分割

分離したカラムのURLからプロトコル、ホスト、ポート、クエリーなどを抽出

テキストを複数の部分に分割

分割

区切りからカラムを分割

文字列長の計算

文字列

値から桁数を抽出(23562 -> 5)

小文字に変換

文字列

このカラムのセルテキストすべてを小文字に変換

単語の先頭文字を大文字に変更

文字列

このカラムのテキストコンテンツの先頭文字を大文字に変換("data prep" -> "Data Prep")

大文字に変換

文字列

このカラムのセルテキストすべてを大文字に変換(大文字化)

テキストを含む

文字列

セルに指定の値が含まれているかどうかを確認

テキストの一部を抽出

文字列

テキストの一部(部分文字列)を抽出して新しいカラムを作成

類似のテキストに一致

文字列

値が指定の値のレーベンシュタイン距離以下かどうかについて、<i>true</i>または<i>false</i>の値を持つ新しいカラムを作成

パターンに一致

文字列

値が指定のパターンに一致するかどうかについて、<i>true</i>または<i>false</i>の値を持つ新しいカラムを作成

連続する文字の削除

文字列

連続して繰り返される文字を削除

テキストの一部を削除

文字列

このカラムのセルから指定のテキストを削除

終了文字と先頭文字の削除

文字列

終了の空白と先頭の空白または他の指定の文字を削除(トリム)

検索と置換

文字列

特定の値を含んだセルまたはセルの部分を置換

文字の追加

文字列詳細

予測されるサイズに一致するように、元の値の左または右に文字(パディング)を追加

類似テキストの検索およびグループ化

文字列詳細

類似の値をすべて正しい値に置換(ファジーマッチングをまとめる)

ユニークな識別子(UUID)の生成

文字列詳細

カラムの各行にユニークな識別子を生成

数字以外の文字をすべて削除

文字列詳細

0~9、Aa~Zz、アクセント記号付き文字以外のすべての文字を削除することで、予期しない文字を含む値を削除。空白文字は保持されます。

たとえば、 T=+Âl**€en#d$ 20%1,7TÂlend 2017になります。

数字以外の文字をすべて削除

文字列詳細

0~9以外のすべての文字を削除することで数値を削除。小数点記号と空白文字は保持されます。

たとえば、 T=+Âl**€en#d$ 20%1,7201,7になります。

テキストの簡素化(大文字/小文字の区別、アクセントなどを排除)

文字列詳細

小文字にし、アクセントを削除し、NFKDを利用して正規化し、組み合わせた文字は分割し、文字列全体を短くしてカラムの内容を簡略化します。

たとえば、Françoisfrancoisのようにします。

テーブル全体に適用できるファンクション

名前

カテゴリー

説明

空のカラムを削除

データクレンジング

値が空のカラムをすべて削除

空の行を削除

データクレンジング

各カラムのセルが空の行を削除

重複行の削除

重複除外

完全に重複しているすべての行を削除し、1つだけを保持

電話番号のフォーマット

電話

電話番号を標準形式にフォーマット

終了文字と先頭文字の削除

文字列

終了の空白と先頭の空白または他の指定の文字を削除(トリム)