Data Preparation: 新しい機能 - 7.2

Talend Big Data製品リリースノート

EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Release Notes
インストールとアップグレード
機能 説明
スマート入力 この機能を使用すると、いくつかの例に基づいてパターンを定義し、機械学習アルゴリズムを通じてカラム全体に変換を適用できます。スマート入力では、あらゆるデータ型数多くのフォーマットを利用できます。
名前の一部を抽出 機械学習モデルの活用により、フルネームをタイトル、ファーストネーム、ミドルネーム、ラストネーム、サフィックスなどに分割できるようになりました。これにより、データセットのクレンジングと標準化の効率が高まります。
Extract parts of a field based on semantic definitions (セマンティックタイプの定義に基づいてフィールドの部分を抽出) セマンティックタイプの定義を活用し、1つのセルに含まれているさまざまなタイプの情報を個別のカラムに抽出できるようになりました。これにより、データセットのクレンジングと標準化の効率が高まります。
Repeatable masking and compound semantic types masking (繰り返し可能なマスキングと複合セマンティックタイプのマスキング) データマスキングが改善され、シードを処理し、繰り返し可能なマスキングが行えるようになりました。すなわち、同一のソース値は常にマスキングされた同じ値として出力されます。

また、セマンティックマスキングが複合セマンティックタイプにも実行できるようになり、データのプライバシーが強化されました。

オートコンプリート セマンティックタイプが辞書に基づいているカラムのセルの編集が、オートコンプリートの追加によってさらに簡単になりました。提案された値のリストから選ぶことで、自分のデータが自分のセマンティックタイプ基準に基づいていることを保証できます。
重複除去 テーブル全体に適用できる既存の重複除去機能に加え、1つまたは複数のカラムの値に基づく重複除去の操作が可能となりました。これによって、削除したい行をさらにコントロールできるようになります。