前提条件: - Cloud - 8.0

Machine Learning

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント
  • このページの左パネルにある[Downloads] (ダウンロード)タブからSMSテキストメッセージのセットをダウンロードします。
    • 分類モデルtrainingSet.zipのトレーニングに使用するセット。
    • 作成されたモデルの評価に使用するセット: testSet.zip

    Talend は、https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collectionからダウンロード可能なデータセットからこれら2つのセットを作成しました。データセットプレパレーションジョブ(dataset_preparation.zip) を使って3つの機能カラム(通貨記号の数、数値の数、感嘆符の数)を生データセットに追加し、データセットを比例的に分割しています。

    ジャンクメッセージの例は次のとおりです。
    Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's
    通常のメッセージの例は次のとおりです。
    Ahhh. Work. I vaguely remember that! What does it feel like? Lol

    生データセットに追加された新しい機能は、特にこのシナリオで使ったジャンクメッセージを観察した結果として発見されました(これらのジャンクメッセージには価格のマークや感嘆符が含まれている場合が多いです)。したがって、分析しようとしているあらゆるジャンクメッセージに対して一般化することはできません。さらに、データセットはランダムに2つのセットに分割されてそのまま使われますが、実際には、分類モデルをより適切にトレーニングするために、データセットバランシングなどのさまざまな方法を使って前処理を続けることができます。

  • Spark [Yarn client] (Yarnクライアント)モードを使って Talend Sparkジョブを実行し、このシステムとの間でデータを読み書きする適切な権利とアクセス権限を持っている場合、2つのセットは、ジョブが実行されるマシン、たとえばYarnクラスターのHDFSシステムに保管する必要があります。

    このシナリオでは、Spark [Yarn client] (Yarnクライアント)が使われ、データセットは関連するHDFSシステムに保管されます。

  • 使うSparkクラスターは適切に設定され、実行されている必要があります。