ファンクションのリスト - 8.0

Talend Data Preparationユーザーガイド

Version
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
Last publication date
2024-03-26

以下の表は、Talend Data Preparationで使用できるすべてのファンクションとその効果をまとめたものです。

Math関数を除き、データが無効と見なされた場合、またはデータ型が選択したファンクションと互換性がない場合に以下のリストのファンクションを適用すると、[Create new column] (新しいカラムを作成)チェックボックスの選択にかかわらず入力値が返されます。

Math関数の場合、空の値は無視されます。値が無効な場合にファンクションが適用されると結果は空になります。

注:

以下のファンクションは一致アルゴリズムに依存しており、アジア系文字はサポートされていません。

  • [Standardize value (fuzzy matching)] (標準値(ファジーマッチング))
  • [Find and group similar text] (類似テキストを検索してグルーピング)

行に適用できるファンクション

名前 カテゴリー 説明
[Delete row] (行を削除) data cleansing この行を削除
[Make as header] (ヘッダーとして作成) data cleansing この行のセルはカラム名になり、行は削除されます。

カラムに適用できるファンクション

名前 カテゴリー 説明
[Negate value] (値を反転) ブール値 このカラムのセルのブール値を反転します。
[Change data type] (データ型を変更) column metadata このカラムのタイプ(数値、テキスト、日付など)を変更します。
[Change semantic domain] (セマンティックドメインを変更) column metadata このカラムのセマンティックドメイン(市区町村、郵便番号、ラストネームなど)を変更します。
[Create new column] (新しいカラムを作成) column metadata カラムをコピーするか新しいカラムを作成します。
注: シーケンスモードで使用する場合、この機能はSparkジョブおよびS3のエクスポートとは互換性がありません。
カラムを削除 column metadata 選択したカラムを削除します。
[Duplicate column] (カラムを複製) column metadata このカラムの正確なコピーを作成します。
[Rename Column] (カラム名を変更) column metadata このカラムの名前を変更します。
[Concatenate columns] (カラムを連結) columns 2つ以上のカラムの内容を新しいカラムにマージします。
[Concatenate with] (連結) columns このカラムの内容を別のカラムの内容と結合して新しいカラムに表示します。
[Reorder columns] (カラムの順序を変更) columns カラムの順序を変更します。
[Swap columns] (カラムを交換) columns 他のカラムと値を交換します。
[Convert country names and codes] (国名とコードを変換) conversions 国名をISO-3166国コード(alpha-2、alpha-3、または数値)に、またはその逆に変換します。このファンクションでは、英語、フランス語、日本語の名前とコードがサポートされています。
[Convert distance] (距離を変換) conversions 距離の単位を別の単位に変換します。
[Convert duration] (期間を変換) conversions 期間の単位を別の単位に変換します。
[Convert temperature] (温度を変換) conversions 温度の単位を変換します
[Clear on matching value] (値に一致したセルを消去) data cleansing 値に一致したセルを消去します。
[Clear the cells with invalid values] (無効な値のセルを消去) data cleansing 無効と認識された値を含んだセルを消去します。
[Coalesce columns] (カラムを融合) data cleansing 選択したカラム中の各行にNULLでない最初の値を取得します。
[Delete empty rows] (空の行を削除) data cleansing 各カラムのセルが空である行を削除します。
[Delete the rows that match] (値に一致した行を削除) data cleansing このカラムのセルに特定の値がある行を削除します。
[Delete the rows with empty cell] (空のセルを含む行を削除) data cleansing 空のセルを含む行を削除します。
[Delete the rows with invalid cell] (無効なセルを含む行を削除) data cleansing 無効なセルを含む行を削除します。
[Delete the rows with negative values] (負の値の行を削除) data cleansing このカラムの負の値のある行が削除されます。
[Fill cells with value] (セルに値を入力) data cleansing 指定した値をこのカラムのセルに入力します。
[Fill empty cells from above] (空のセルに上の内容を入力) data cleansing 空ではない直前のセルから値をコピーします。一連の空のセルがある場合、選択された値がこれらのすべてのセルに入力されます。
注: この機能はSparkジョブおよびS3のエクスポートとは互換性がありません。
[Fill empty cells with text] (空のセルにテキストを入力) data cleansing 指定した値をこのカラムの空のセルに入力します。
[Fill empty cells with value] (空のセルに値を入力) data cleansing 指定した値をこのカラムのセルに入力します。
[Standardize value (fuzzy matching)] (標準値(ファジーマッチング)) data cleansing 無効な値をディクショナリーの最も類似した正しい値に置換します。
注: このファンクションはアジア系文字をサポートしていません。
[Hash data] (データをハッシュ化) data masking SHA-256アルゴリズムを使用してカラムのコンテンツをハッシュ化します。
[Mask data (obfuscation)] (データをマスキング: 難読化) data masking カラムのドメイン情報に従ってデータをマスキング(匿名化)します。
[Lookup] (ルックアップ) data blending 別のデータセットのカラムからこのデータセットにブレンドします。
[Calculate time since] (経過時間を計算) dates 目的の単位(年、月、日、時、分、秒)の日付からの経過時間を計算します。
[Calculate timestamp to date] (現在までのタイムスタンプを計算) dates タイムスタンプ(UNIX時間である01/01/1970から経過した時間)がある場合、その日付で新しいカラムを作成します。
[Change date format] (日付形式を変更) dates 日付カラムで使用する日付形式を変更します。
[Compare dates] (日付を比較) dates このカラムを別のカラムまたは定数と比較します。
[Convert dates] (日付を変換) dates 日付の歴を別の歴に変換します。
[Extract date parts] (日付部分を抽出) dates 年、月、四半期、日、時、分、秒などのカラムを作成します。
[Modify Dates] (日付を変更) dates 時間単位の量を加算または減算します。
[Deduplicate rows with identical values] (同じ値を持つ重複行を除外) deduplication 部分的または全体的に重複する行を削除し、カラムの最初の行を保持します。
注: この機能はSparkジョブおよびS3のエクスポートとは互換性がありません。
[Delete these filtered rows] (フィルタリング済みの行を削除) filtered 現在のフィルターに一致した行のみを削除します。
[Keep these filtered rows] (フィルタリング済みの行を維持) filtered 現在のフィルターに一致した行のみを維持します。
[Add、multiply、substract、divide] (加算、乗算、減算、除算) math 別のカラムや固定値でこのカラムに対し、加算( + )、乗算( x )、減算( - )、除算( / )のいずれかを実行します。
[Base 10 Logarithm] (10を底とする対数) math カラムから基数10の対数を計算します。
[Calculate absolute value] (絶対値を計算) math このカラムのすべての数値の絶対値を計算します。
[Cosine] (コサイン) math カラムからコサインを計算します。
[Exponential] (べき乗) math カラム番号の指数
[Max] (最大) math 別のカラムまたは定数で最大化します。
[Max of columns] (カラムの最大値) math 2つ以上のカラムのレコードの最大値を表示します。
[Mean of columns] (カラムの平均値) math 2つ以上のカラムのレコードの平均値を計算します。
[Median of columns] (カラムの中央値) math 2つ以上のカラムのレコードの中央値を計算します。
[Min] (最小) math 別のカラムまたは定数で最小化します。
[Min of columns] (カラムの最小値) math 2つ以上のカラムのレコード間の最小値を表示します。
[Modulo] (余り) math 除算演算の剰余を計算します。
[Multiply columns] (カラムの乗算) math 2つ以上のカラムの値を乗算し、結果を新しいカラムに表示します。
[Natural logarithm] (自然対数) math カラムから自然対数を計算します。
[Negate] (反転) math カラム番号を負の値に反転
[Power] (べき乗) math 別のカラムや定数でべき乗します。
[Sine] (サイン) math カラムからサインを計算します。
[Square root] (平方根) math カラム番号の平方根を計算します。
[Sum columns] (カラムの合計) math 2つ以上のカラムのレコードの合計を計算し、結果を新しいカラムに表示します。
[Tangent] (タンジェント) math カラムからタンジェントを計算します。
[Compare numbers] (数値を比較) numbers このカラムを別のカラムまたは定数と比較します。
[Format numbers] (数値をフォーマット) numbers 数値(小数点、整数、指数)を特定の形式やパターンでフォーマットすることを許可します。
[Generate sequence] (シーケンスを生成) numbers 選択したステップでカラムに正または負の整数のシーケンスを作成します。
注: この機能はSparkジョブおよびS3のエクスポートとは互換性がありません。
[Remove fractional part] (端数部分を削除) numbers 値をゼロに近付けるように丸めます。(3.74 -> 3、-3.74 -> -3)
[Remove negative values] (負の値を削除) numbers 負の整数または10進数の値を空の値に置換します。
[Round value using ceil mode] (シールモードを使って値を丸める) numbers 設定した精度に応じて値を最も近い数に丸めます。([Precision] (精度)0に設定されている場合は3.14 -> 4になり、[Precision] (精度)1に設定されている場合は3.14 -> 3.2になります。)
[Round value using down mode] (切り捨てモードを使って値を丸める) numbers 値をゼロに近付けるように丸めます。([Precision] (精度)0に設定されている場合は3.74 -> 3、-3.74 -> -3となります。)
[Round value using floor mode] (フロアモードを使って値を丸める) numbers 設定した精度に応じて値を最も近い数に切り捨てます。([Precision] (精度)0に設定されている場合は3.74 -> 3になり、[Precision] (精度)1に設定されている場合は3.74 -> 3.7となります。)
[Round value using halfUp mode] (四捨五入モードを使って値を丸める) numbers 設定した精度に応じて、値を最も近い数に四捨五入します。([Precision] (精度)0に設定されている場合は3.14 -> 3、3.74 -> 4となります。)
[Extract phone number information] (電話番号情報を抽出) phones 電話タイプ、国、通信事業者名などの追加情報を電話番号から抽出します。各フィールドが新しいカラムに抽出されます。
[Format phone number] (電話番号をフォーマット) phones 電話番号を標準形式にフォーマットします。
[Extract email Parts] (メールのエレメントを抽出) split メールからローカルとドメインの部分を抽出します。
[Extract full name parts] (フルネームの部分を抽出) split フルネームから情報(タイトル、ファーストネーム、ニックネーム、ミドルネーム、ラストネームなど)を抽出します。
[Extract number] (数値を抽出) split 入力データから数値を抽出します。
[Extract values by regex] (正規表現で値を抽出) split 正規表現グループを基に文字列トークンを抽出します。
[Extract values by semantic type] (セマンティックタイプで値を抽出) split 定義済み、またはカスタムのセマンティックタイプに合わせて、区切られたカラムにあるさまざまな情報を抽出します。
[Extract URL Parts] (URL部分を抽出) split 区切られたカラムのURLからプロトコル、ホスト、ポート、クエリーなどを抽出します。
[Split the text in parts] (テキストを複数の部分に分割) split 区切りからカラムを分割します。
[Calculate length] (長さを計算) strings 値(23562 -> 5)から桁数を抽出します。
[Change to lower case] (小文字に変換) strings このカラムのセルテキストをすべて小文字に変換します。
[Change to title case] (単語の先頭文字を大文字に変更) strings このカラムのテキストコンテンツをタイトル表記に変換します。(例: "this is an example" -> "This Is an Example")
[Change to upper case] (大文字に変換) strings このカラムのセルテキストをすべて大文字に変換します。
[Contains text] (テキストを含める) strings セルに指定の値が含まれているかどうか確認します。
[Extract a value by index] (インデックスで値を抽出) strings テキストの一部(部分文字列)を抽出して新しいカラムを作成します。
[Magic fill] (スマート入力) strings 例を参考にパターンを定義し、カラム全体に変換を適用できます。
注: この機能はSparkジョブおよびS3のエクスポートとは互換性がありません。
[Match similar text] (類似のテキストに一致) strings 値が指定の値のレーベンシュタイン距離以下かどうかに応じて、trueまたはfalseの値を持つ新しいカラムを作成します。
[Matches pattern] (パターンに一致) strings 値が特定のパターンに一致するかどうかに応じて、trueまたはfalseの値を持つ新しいカラムを作成します。
[Remove consecutive characters] (連続する文字を削除) strings 連続して繰り返される文字を削除します。
[Remove part of the text] (テキストの一部を削除) strings このカラムのセルから指定のテキストを削除します。
[Remove trailing and leading characters] (後続文字および先行文字を削除) strings 末尾と先頭の空白、または特定の文字を削除(トリム)します。
[Search and replace] (検索して置換) strings 特定の値を含んでいるセル、またはセルの部分を置換します。
[Add extra characters] (余分な文字を追加) strings advanced 予測されるサイズに一致するよう、元の値の左または右に余分な文字を追加(パディング)します。
[Convert character width] (文字幅を変換) strings advanced 文字幅を半角または全角に変換したり、文字列を正規化したりします。
[Find and group similar text] (類似テキストを検索してグルーピング) strings advanced 類似の値を正しい値にすべて置換し(ファジーマッチングをまとめ)ます。
注: このファンクションはアジア系文字をサポートしていません。
[Generate unique identifier (UUID)] (ユニークな識別子(UUID)を生成) strings advanced カラムの各行にユニークな識別子を生成します。
[Remove all non alpha numeric characters] (数字以外の文字をすべて削除) strings advanced 0~9、Aa~Zz、アクセント記号付き文字以外の文字をすべて削除することで、予期しない文字を含む値を消去します。空白文字は保持されます。

たとえば、 T=+Âl**€en#d$ 20%1,7TÂlend 2017になります。

[Remove all non numeric characters] (数字以外の文字をすべて削除) strings advanced 0~9以外の文字をすべて削除することで数値を消去します。小数点記号と空白文字は保持されます。

たとえば、 T=+Âl**€en#d$ 20%1,7201,7になります。

[Simplify text (remove case, accent, etc.)] (テキストを簡素化(大文字/小文字の区別やアクセントなどを排除)) strings advanced 小文字にし、アクセントを削除し、NFKDを利用して正規化し、組み合わせた文字は分割し、文字列全体を短くしてカラムの内容を簡略化します。

たとえば、Françoisfrancoisのようになります。

テーブル全体に適用できるファンクション

名前 カテゴリー 説明
[Delete empty columns] (空のカラムを削除) data cleansing 値が空のカラムをすべて削除します。
[Delete empty rows] (空の行を削除) data cleansing 各カラムのセルが空である行を削除します。
[Change date format] (日付形式を変更) dates 日付カラムで使用する日付形式を変更します。
[Remove duplicate rows] (重複行を削除) deduplication 完全に重複している行を1つだけ残し、後はすべて削除します。
注: この機能はSparkジョブおよびS3のエクスポートとは互換性がありません。
[Format numbers] (数値をフォーマット) numbers 数値(小数点、整数、指数)を特定の形式やパターンでフォーマットすることを許可します。
[Format phone number] (電話番号をフォーマット) phones 電話番号を標準形式にフォーマットします。
[Remove trailing and leading characters] (後続文字および先行文字を削除) strings 末尾と先頭の空白、または特定の文字を削除(トリム)します。
[Search and replace] (検索して置換) strings 特定の値を含んでいるセル、またはセルの部分を置換します。