メイン コンテンツをスキップする 補完的コンテンツへスキップ

ジョブを設定

始める前に

  • tMatchPairingコンポーネントを使用して、疑わしいデータペアを生成しました。

  • また、疑わしいペアの2番目のレコードのとなりに、重複レコードかどうか、または重複の可能性があるかどうかを示すラベルを追加しています:

    480060609;DFSS_AgencySiteLies_2012.csv;Catholic Charities of the Archdiocese of Chicago St. Joseph;4800 S. Paulina; st. joseph_1;;
    480060609;purple_binder_early_childhood.csv;Catholic Charities Chicago - St. Joseph;4800 S Paulina Street; st. joseph_1;0.8058642705131237;YES
    425760624;chapin_dfss_providers_2011_070212.csv;CHICAGO PUBLIC SCHOOLS GOLDBLATT, NATHAN R.;4257 W ADAMS; r._20;;
    422560653;chapin_dfss_providers_2011_070212.csv;CHICAGO PUBLIC SCHOOLS ROBINSON, JACKIE R.;4225 S LAKE PARK AVE; r._20;0.8219437219200757;NO

    この例では[YES]または[NO]のラベルを使用していますが、この他にも任意のラベルを使用できます。

手順

  1. [Palette] (パレット)からtFileInputDelimitedおよびtMatchModelコンポーネントをデザインワークスペースにドロップします。
  2. [Row] (行) > [Main] (メイン)リンクを使用してコンポーネントを接続します。
  3. [Run] (実行) > [Spark configuration] (Spark設定)ビューで、ソースデータの疑わしいペアと疑わしいサンプルを計算の説明に従ってSparkクラスターへの接続を定義していることを確認します。

タスクの結果

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。