tMapRStreamsInput標準プロパティ - Cloud - 8.0

MapRStreams

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > メッセージングコンポーネント > MapRStreams
データガバナンス > サードパーティーシステム > メッセージングコンポーネント > MapRStreams
データクオリティとプレパレーション > サードパーティーシステム > メッセージングコンポーネント > MapRStreams

このプロパティはStandardジョブフレームワークで実行されているtMapRStreamsInputを設定するために使います。

[Standard] (標準) tMapRStreamsInputコンポーネントは、インターネットファミリーに属しています。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。

基本設定

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

このコンポーネントのスキーマは読み取り専用です。メッセージプロデューサーから送信されたメッセージを保管します。

[Output type] (出力タイプ)

次のコンポーネントに送信するデータのデータ型を選択します。

tMapRStreamsInputはMapR Streams byte[]メッセージをジョブが処理する文字列に自動変換できるので、通常は[String] (文字列)の使用が推奨されます。ただし、Protobufなど、tMapRStreamsInputで認識できないMapR Streamsメッセージ形式の場合は、[byte] (バイト)を選択し、次にtJavaRowなどのカスタムコードコンポーネントを使って、同じジョブの他のコンポーネントがこれらのメッセージを処理できるようにメッセージを文字列にデシリアライズできます。

[Use an existing connection] (既存の接続を使用)

このチェックボックスをオンにして、表示されたリストから、定義済みの接続詳細を再利用する、該当する接続コンポーネントを選択します。

[Distribution] (ディストリビューション)[Version] (バージョン)

使用するMapRディストリビューションを選択します。MapR V5.2以上のみがMapRDBコンポーネントでサポートされます。

MapRDBデータベースと併用する必要のあるディストリビューションがこのMapRBDコンポーネントによって正式にサポートされていない場合、つまり、このディストリビューションがMapRでも、このコンポーネントの[Version] (バージョン)ドロップダウンリストに表示されていないか、このディストリビューションがMapRではない場合は、[Custom] (カスタム)を選択します。

  1. [Import from existing version] (既存のバージョンからインポート)を選択すると、正式にサポートされているディストリビューションをベースとしてインポートしてから、ベースディストリビューションで提供されていない他の必要なjarファイルを追加できます。

  2. [Import from zip] (zipからインポート)を選択すると、使用するカスタムディストリビューションの設定zipファイルをインポートできます。zipファイルには、Hadoopの各種エレメントのライブラリーおよびこれらのライブラリーのインデックスファイルが含まれている必要があります。

    Talend Exchangeでは、 Talend コミュニティのメンバーがすぐに使える設定用zipファイルが共有されており、[Hadoop configuration] (Hadoop設定)リストからダウンロードして接続に直接使用できます。ただし、さまざまなHadoop関連のプロジェクトが継続的に進展しているため、このリストから対応するディストリビューションの設定Zipが見つからないことがあります。その場合は、[Import from existing version] (既存のバージョンからインポート)オプションを使って、既存のディストリビューションをベースとして取得し、ディストリビューションに必要なjarを追加することをお勧めします。

    Talend はカスタムバージョンを公式にサポートしていません。 Talend とそのコミュニティでは、Studioからカスタムバージョンに接続するための方法を紹介していますが、Hadoopのディストリビューションとバージョンの種類は幅広いため、選択したバージョンの設定がスムーズに機能するかどうかは保証できません。そのような接続のセットアップは、Hadoopについてどんな問題でもご自身で対処できる十分な経験をお持ちの場合のみ行ってください。

    注:

    カスタムディストリビューションとこのコンポーネント間で作成する接続に関わるjarファイルがインポートされるように、このダイアログボックスの有効なチェックボックスをオフにしないでください。

    カスタムディストリビューションに接続して、その接続を共有する方法を段階的に説明する例については、Hortonworksを参照してください。

トピック名

tMapRStreamsInputがメッセージフィードを受け取るトピック名を入力します。このトピックが属するストリームの名前を入力する必要があります。構文はpath_to_the_stream:topic_nameです。

コンシューマーグループID

現在のコンシューマー(tMapRStreamsInputコンポーネント)が属するようにしたいコンシューマーグループの名前を入力します。

この時点でこのコンシューマーグループが存在していない場合、実行時に作成されます。

コンシューマーグループのオフセットをリセット

あるコンシューマーグループを、メッセージをまったく消費していない新しいグループとして処理できるように、このコンシューマーグループ用に保存されているオフセットをクリアする場合は、このチェックボックスをオンにします。

新規コンシューマーグループの開始点

消費されるトピックメッセージの開始ポイントを選択します。

MapR Streamsでは、メッセージの増加するID番号はoffsetと呼ばれます。新しいコンシューマーグループが開始すると、このリストから[beginning] (最初から)を選択してトピック全体のうちで最も古いメッセージから消費を開始するか、[latest] (最後から)を選択して新しいメッセージを待機できます。

コンシューマグループは、オフセットコミットされた開始のメッセージのみを考慮します。

各コンシューマーグループには、消費したメッセージの位置を記憶するための独自のカウンターがあります。このため、コンシューマーグループが特定のトピックのメッセージの消費を開始すると、コンシューマグループはトピック全体ではなく、このグループが消費を停止する位置に関してのみ最新のメッセージを認識します。この原則に基づいて、次の動作が予想されます。

  • 既存のコンシューマグループを再開する場合、このオプションは、コミットされた開始点がまだない場合にのみ、このコンシューマグループの開始点を決定します。それ以外の場合、このコンシューマグループは、このコミットされた開始点から開始します。たとえば、トピックに100のメッセージがあるとします。既存のコンシューマグループが50のメッセージを正しく処理し、それらのオフセットをコミットした場合、同じコンシューマグループはオフセット51から再開します。

  • 新しいコンシューマーグループを作成するか、既存のコンシューマーグループをリセットした場合(どちらの場合も、このグループがこのトピックのメッセージを消費していないことを意味します)、最新のグループから開始すると、この新しいグループが開始し、オフセット101を待機します。

自動コミットのオフセット

このチェックボックスをオンにすると、tMapRStreamsInputは、指定された各時間間隔の終了時に消費状態を自動的に保存します。表示される[Interval] (間隔)フィールドでこの間隔を定義する必要があります。

オフセットは、各間隔の最後にコミットされます。ジョブがこの時間間隔の途中で停止した場合、この間隔内におけるメッセージの消費状態はコミットされません。

最長処理時間(ミリ秒)に達したら停止

このチェックボックスをオンにして、tMapRStreamsInputの実行が終了するまでの期間(ミリ秒)をポップアップフィールドに入力します。

最大数のメッセージを受信したら停止

このチェックボックスをオンにして、tMapRStreamsInputが自動的に実行を停止するまでに受信するメッセージの最大数をポップアップフィールドに入力します。

メッセージ間の最大待機時間(ミリ秒)が経過した後に停止

このチェックボックスをオンにして、tMapRStreamsInputによる新しいメッセージの待機時間(ミリ秒単位)をポップアップフィールドに入力します。tMapRStreamsInputは、この待機時間が終了するまでに新しいメッセージを受信しなかった場合、自動的に実行を停止します。

詳細設定

コンシューマープロパティ

カスタマイズする必要があるMapR Streamsコンシューマープロパティをこのテーブルに追加します。

このテーブルで定義できるコンシューマプロパティの詳細は、MapR StreamsのドキュメントでMapR Streamsの概要を参照してください。

タイムアウト精度(ミリ秒)

消費できるメッセージがない場合に、その最後にタイムアウト例外が返される期間をミリ秒で入力します。

-1はタイムアウトの設定がないことを示します。

メッセージでオフセットをロードします

このチェックボックスをオンにすると、次のコンポーネントに、消費済みメッセージのオフセットが出力されます。このパラメーターを選択すると、offsetという名前の読み取り専用カラムがスキーマに追加されます。

[Custom encoding] (カスタムエンコーディング)

保管データを処理する際、エンコーディングの問題が発生することがあります。このような場合は、チェックボックスをオンにして[Encoding] (エンコーディング)リストを表示します。

リストからエンコーディングを選択するか、[CUSTOM] (カスタム)を選択して、手動で定義します。

[tStatCatcher Statistics] (tStatCatcher統計情報)

このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルで処理メタデータが収集されます。

グローバル変数

[Global Variables] (グローバル変数)

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合にのみ機能します。

Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、『 Talend Studio ユーザーガイド』を参照してください。

使用方法

使用ルール

このコンポーネントは開始コンポーネントとして使用され、出力リンクを必要とします。使う必要があるMapR Streamsトピックが存在しない場合は、最初にtMapRStreamsCreateTopicコンポーネントまたはMapRコマンドラインインターフェイスを使ってこのトピックを作成できます。

前提条件

Talend Studio との操作を確実に行うには、Hadoopディストリビューションを適切にインストールする必要があります。以下のリストに、MapR関連の情報などを示します。

  • MapRクライアントは必ずStudioのあるマシンにインストールして、そのマシンのPATH変数にMapRクライアントライブラリーを追加します。MapRのドキュメンテーションによると、各OSバージョンに対応するMapRクライアントのライブラリーは、MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\nativeにあるとされています。たとえば、Windows版のライブラリーは、\lib\native\MapRClient.dllにあるMapRクライアントのjarファイルにあります。詳細は、MapRからhttp://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-maprを参照してください。

    指定のライブラリーを追加しないと、no MapRClient in java.library.pathというエラーが発生する可能性があります。

  • たとえば、[Window] (ウィンドウ)メニューの[Preferences] (環境設定)ダイアログボックスにある[Run/Debug] (実行/デバッグ)ビューの[Job Run VM arguments] (ジョブ実行VMの引数)エリアで、-Djava.library.path引数を設定します。この引数により、そのMapRクライアントのネイティブライブラリーへのパスがStudioに渡されるので、サブスクリプションベースのユーザーはデータビューアーをフルに活用して、MapRに保存されたデータをStudioでローカルに表示できます。

Hadoopディストリビューションのインストール方法の詳細は、使用しているHadoopディストリビューションに対応するマニュアルを参照してください。