トレーニングデータを暗号化 - Cloud - 8.0

Machine Learning

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント

手順

  1. [tFileInputDelimited]の右に[tModelEncoder]コンポーネントを追加します。
  2. [Main] (メイン)を使って、[tFileInputDelimited][tModelEncoder]に接続します。
  3. [tModelEncoder]をダブルクリックして、[Component] (コンポーネント)ビューを選択します。
  4. [Schema] (スキーマ)の右にある[Sync columns] (カラムを同期)をクリックします。
  5. 省略記号をクリックして、[Edit Schema] (スキーマを編集)します。
  6. VectorというタイプのMyFeaturesDoubleというタイプのMyLabelsという2つの新しいカラムを出力に追加します。
  7. [OK]をクリックします。
  8. [Component] (コンポーネント)ビューの[Basic settings] (基本設定)タブにある緑色の矢印をクリックして、新しい変換を追加します。
  9. [Transformation] (変換)の下で、RFormula (Spark 1.5+)を選択します。
  10. 次のコードを[Parameters] (パラメーター)フィールドに追加します。
    featuresCol=MyFeatures;labelCol=MyLabels;formula=conversion ~ age + jobtype + maritalstatus + educationlevel + indefault + hasmortgage + haspersonalloan + numcampaigncalls + priorcampaignoutcome

    MyFeaturesMyLabelsという、スキーマに追加される2つのカラムがここで参照されています。この式は、統計計算や高度なグラフィックスに使われるプログラミング言語Rで使用される標準構文です。詳細は、The R Projectをご覧ください。

    データのサンプリングには、機能が9つ、ターゲットが1つありました。上のRの式の場合、予測したいターゲットはconversion (変換)で、チルダの左にあります。チルダの右にあるカラムはすべて特徴です。残る2つのコンポーネントであるfeaturesCollabelColは、タプルとフィーチャーラベルのプレースホルダーです。