Améliorations relatives à la stabilité et aux performances dans l'infrastructure de Talend Cloud

Problèmes et conséquences

Certain·es utilisateur·trices ont rencontré des erreurs 502 Bad Gateway (Passerelle incorrecte) et 504 Gateway Timeout (Pas de réponse de la passerelle) intermittentes lors de l'utilisation d'API Talend Cloud, obligeant le redémarrage manuel des tâches en échec.

Seuls quelques endpoints rencontrent ce problème, qui affecte moins de 0,01 % de leurs requêtes.

Ticket associé : SRESEC-3188

Causes racine

À la fin de l'année 2023, certains endpoints ont été migrés vers une nouvelle solution de passerelle d'API.
Au début de l'année 2024, un outil a été implémenté pour démarrer et redimensionner automatiquement le cluster de calcul. Cet outil permet de gérer les coûts et l'utilisation des ressources plus efficacement. Il en résulte davantage de destructions et de redémarrages des services de passerelle d'API.

La journalisation de ce problème a commencé entre le 29 janvier 2024 et le 5 février 2024.

Résolutions

Les modifications apportées en version R2024-03 font partie de l'effort continu d'amélioration de la stabilité et des performances de l’infrastructure de Talend Cloud. Ces modifications sont principalement les suivantes :

L'évolutivité horizontale des services a été implémentée pour en permettre l'évolution, ce qui signifie ajouter automatiquement, en fonction de vos besoins, des instances au système afin de gérer un trafic toujours plus important.
Les Hooks d'arrêt propre et PreStop ont été ajoutés afin de terminer les tâches en cours et les sessions client·es de manière sûre avant l'arrêt des services.
Les plans de gestion des interruptions de service (connus comme Disruption Budgets) et des mises à jour (comme la stratégie de déploiement de mise à jour par propagation) ont été révisés pour assurer un nombre minimal de services en cours d'exécution lors du déploiement ou de la destruction d'un nœud.
Les fonctionnalités anti-affinity (anti-affinité) et taints des pods Kubernetes ont été implémentées pour empêcher la planification sur un même nœud de plusieurs services d'une même passerelle d'API.
Les contraintes étendues des Topologies Kubernetes ont été configurées pour assurer une distribution équilibrée des services de passerelle d'API entre les différentes zones de disponiblité.
Les paramètres de délai d'expiration pour inactivité du pare-feu d'applications (Web Application Firewall) et de la passerelle d'API ont été alignés et optimisés.

L'infrastructure a été mise à jour de manière transparente. Aucune action de votre part n'est nécessaire.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici