tStandardizePhoneNumber - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'un des produits Talend Platform.

Fonction

Le composant tStandardizePhoneNumber reçoit des données relatives à des numéros de téléphone du composant précédent. Il standardise ces numéros en utilisant la librairie libphonumber de Google, org.talend.libraries.google.libphonumber.

Objectif

Ce composant standardise les numéros de téléphone selon les formats définis.

Selon la solution Talend que vous utilisez, ce composant peut être utilisé dans un framework de Jobs, dans plusieurs, ou dans tous les frameworks :

Propriétés du tStandardizePhoneNumber

Famille du composant family

Data Quality

 

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Des colonnes par défaut sont présentes dans le composant. Pour plus d'informations, consultez la section Colonnes par défaut.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Phone number

Sélectionnez dans les données d'entrée la colonne qui contient les numéros de téléphone souhaités.

 

Country code

Sélectionnez dans les données d'entrée la colonne qui contient le code pays (ISO 2).

Note

Les données d'entrée traitées par ce composant doivent pouvoir fournir les codes pays ISO ainsi que les numéros de téléphones correspondants.

 Customize

Cochez cette case afin de définir un code pays personnalisé (ISO 2). Cela désactive le champ Country Code et donne la priorité au code pays personnalisé pour la standardisation des numéros de téléphone.

Par exemple, si les données d'entrée fournissent un ensemble de numéros de téléphone avec un mauvais code pays, ou sans code pays, alors cochez cette case et saisissez le code pays dont vous avez besoin pour la standardisation.

 

Phone number format for output

Sélectionnez le format à utiliser pour standardiser les numéros de téléphone souhaités. Les options disponibles sont :

- E164

- International

- National

Advanced settings

Avoid comparison

Cochez la case pour désactiver la comparaison effectuée au lancement entre les données d'entrée et de sortie. Il se peut que cela accélère l'exécution du Job qui utilise ce composant.

 

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de traitement du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est généralement utilisé comme composant intermédiaire et nécessite un composant d'entrée et un composant de sortie.

Colonnes par défaut

Le tableau qui suit énumère et détaille les colonnes par défaut présentes dans le composant tStandardizePhoneNumber.

Columns

Description

StandardizedPhoneNumber

Cette colonne présente les numéros de téléphone standardisés.

IsValidPhoneNumber

Cette colonne indique si le numéro de téléphone traité est reconnu comme valide.

IsPossiblePhoneNumber

Cette colonne indique si le numéro de téléphone traité est censé être valide.

IsAlreadyStandard

Cette colonne indique si le numéro de téléphone traité est déjà standardisé après l'avoir comparé avec le numéro de téléphone standardisé.

PhoneNumberType

Cette colonne indique le type du numéro de téléphone traité (fixed line, toll free, etc.).

ErrorMessage

Cette colonne présente le message d'erreur qui survient si un numéro de téléphone n'est pas reconnu.

Outre ces colonnes par défaut, vous devez définir d'autres colonnes afin que ce composant puisse recevoir les données d'entrée correspondantes.

Scénario : Standardiser des numéros de téléphone français

Ce scénario utilise trois composants pour standardiser des numéros de téléphone français en respectant le format des numéros de téléphone français.

Les composant à utiliser sont les suivants :

  • Le tFixedFlowInput : ce composant est utilisé pour fournir les données d'entrée qui comprennent les numéros de téléphone à traiter et le code pays français (FR).

  • Le tStandardizePhoneNumber : ce composant standardise les numéros de téléphone souhaités.

  • Le tLogRow : ce composant affiche le résultat de cette standardisation.

Pour reproduire ce scénario, procédez comme dans la section suivante.

Déposer et lier les composants

Pour ce faire, procédez comme suit :

  1. A partir de la Palette, déposez le tFixedFlowInput, le tStandardizePhoneNumber et le tLogRow dans l'espace de modélisation graphique.

  2. Cliquez-droit sur le composant tFixedFlowInput pour ouvrir le menu contextuel et sélectionnez Row > Main.

  3. De la même manière, reliez le composant tStandardizePhoneNumber au tLogRow.

Configurez ensuite vos composants.

Configurer les données d'entrée

Pour ce faire, procédez comme suit :

  1. Double-cliquez sur le tFixedFlowInput afin d'ouvrir la vue Component.

  2. A côté du champ Edit schema, cliquez sur le bouton [...] pour ouvrir l'éditeur de schéma.

  3. Cliquez sur le bouton [+] pour ajouter deux lignes.

  4. Dans la colonne Column, renommez les deux lignes ajoutées. Pour ce scénario, nommez-les respectivement phone et country.

  5. Cliquez sur OK pour valider ces modifications et accepter les propagations que la boîte de dialogue qui s'affiche vous propose.

  6. Dans la zone Mode, sélectionnez l'option Use Inline Table pour afficher Inline Table.

  7. Sous ce tableau, cliquez sur le bouton [+] pour ajouter autant de lignes que vous le souhaitez. Pour ce scénario, ajoutez 12 lignes.

  8. Dans ce tableau, saisissez entre guillemets les numéros de téléphone de plusieurs formats et le code pays ISO de deux lettres dans les colonnes phone et country respectivement. Pour ce scénario, ils se présentent comme suit :

Configurer le processus de standardisation

Pour ce faire, procédez comme suit :

  1. Double-cliquez sur le tStandardizePhoneNumber pour ouvrir la vue Component.

  2. Si nécessaire, cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent.

  3. Dans le champ Phone number, sélectionnez phone dans la liste déroulante puisque cette colonne contient les numéros de téléphone à traiter.

  4. Dans le champ Country code, sélectionnez country dans la liste déroulante puisque cette colonne fournit le code pays à utiliser. Pour ce scénario, il s'agit du code pays de la France, à savoir FR.

  5. Dans le champ Phone number format for output, sélectionnez National puisque vous devez standardiser ces numéros de téléphone en respectant le format standard national de la France.

Exécuter le Job

Appuyez sur F6 pour exécuter ce Job.

Vous pouvez lire le résultat de l'exécution dans la console de la vue Run.

Dans ce tableau, vous pouvez observer que le premier enregistrement d'entrée 0147045670, par exemple, est standardisé en 01 47 04 56 70 selon le format des numéros de téléphone français et que ce numéro est en FIXED LINE.

Propriétés du tStandardizePhoneNumber dans des Jobs Spark Batch

Famille du composant family

Data Quality

 

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Des colonnes par défaut sont présentes dans le composant. Pour plus d'informations, consultez la section Colonnes par défaut.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Phone number

Sélectionnez dans les données d'entrée la colonne qui contient les numéros de téléphone souhaités.

 

Country code

Sélectionnez dans les données d'entrée la colonne qui contient le code pays (ISO 2).

Note

Les données d'entrée traitées par ce composant doivent pouvoir fournir les codes pays ISO ainsi que les numéros de téléphones correspondants.

 Customize

Cochez cette case afin de définir un code pays personnalisé (ISO 2). Cela désactive le champ Country Code et donne la priorité au code pays personnalisé pour la standardisation des numéros de téléphone.

Par exemple, si les données d'entrée fournissent un ensemble de numéros de téléphone avec un mauvais code pays, ou sans code pays, alors cochez cette case et saisissez le code pays dont vous avez besoin pour la standardisation.

 

Phone number format for output

Sélectionnez le format à utiliser pour standardiser les numéros de téléphone souhaités. Les options disponibles sont :

- E164

- International

- National

Advanced settings

Avoid comparison

Cochez la case pour désactiver la comparaison effectuée au lancement entre les données d'entrée et de sortie. Il se peut que cela accélère l'exécution du Job qui utilise ce composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation dans des Jobs Spark Batch

Ce composant est utilisé comme étape intermédiaire.

Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Spark Connection

Vous devez utiliser l'onglet Spark Configuration de la vue Run afin de définir la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, un (et un seul) composant relatif à un système de fichiers de la famille Storage est requis au sein du même Job, afin que Spark puisse utiliser ce composant pour se connecter au système de fichiers auquel les fichiers .jar dépendants du Job sont transférés :

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Scénario associé

Aucun scénario n'est disponible pour la version Spark Batch de ce composant.

Propriétés du tStandardizePhoneNumber dans des Jobs Spark Streaming

Famille du composant family

Data Quality

 

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Des colonnes par défaut sont présentes dans le composant. Pour plus d'informations, consultez la section Colonnes par défaut.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Phone number

Sélectionnez dans les données d'entrée la colonne qui contient les numéros de téléphone souhaités.

 

Country code

Sélectionnez dans les données d'entrée la colonne qui contient le code pays (ISO 2).

Note

Les données d'entrée traitées par ce composant doivent pouvoir fournir les codes pays ISO ainsi que les numéros de téléphones correspondants.

 Customize

Cochez cette case afin de définir un code pays personnalisé (ISO 2). Cela désactive le champ Country Code et donne la priorité au code pays personnalisé pour la standardisation des numéros de téléphone.

Par exemple, si les données d'entrée fournissent un ensemble de numéros de téléphone avec un mauvais code pays, ou sans code pays, alors cochez cette case et saisissez le code pays dont vous avez besoin pour la standardisation.

 

Phone number format for output

Sélectionnez le format à utiliser pour standardiser les numéros de téléphone souhaités. Les options disponibles sont :

- E164

- International

- National

Advanced settings

Avoid comparison

Cochez la case pour désactiver la comparaison effectuée au lancement entre les données d'entrée et de sortie. Il se peut que cela accélère l'exécution du Job qui utilise ce composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation dans des Jobs Spark Streaming

Ce composant, ainsi que les composants Spark Streaming de la Palette à laquelle il appartient, s'affichent uniquement lorsque vous créez un Job Spark Streaming.

Ce composant est utilisé comme étape intermédiaire.

Vous devez utiliser l'onglet Spark Configuration dans la vue Run afin de définir la connexion à un cluster Spark donné pour le Job entier.

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Pour plus d'informations concernant les Jobs Talend Spark Streaming, consultez les sections décrivant comment créer, convertir et configurer un Job Talend Spark Streaming dans le Guide de prise en main de Talend Big Data.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Spark Connection

Vous devez utiliser l'onglet Spark Configuration de la vue Run afin de définir la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, un (et un seul) composant relatif à un système de fichiers de la famille Storage est requis au sein du même Job, afin que Spark puisse utiliser ce composant pour se connecter au système de fichiers auquel les fichiers .jar dépendants du Job sont transférés :

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Scénario associé

Aucun scénario n'est disponible pour la version Spark Streaming de ce composant.