Les bases de données issues de
la sidérurgie comportent généralement de nombreux paramètres (ou
variables) mesurés tout au long du process métallurgique qui conduit au
produit fini souhaité. Ces variables sont cependant pour beaucoup
d'entre elles en fortes corrélations, soit parce qu'elles s'écrivent
les unes en fonction des autres via des modèles physiques, soit que les
capteurs dont elles sont issues sont en quasi-redondance. Les méthodes
statistiques de prévision de qualité du produit fini s'appuyant sur des
régressions linéaires sont alors très négativement impactés par de
telles corrélations. L'idée maîtresse du travail de thèse CIFRE (thèse
soutenue en 2015) réalisé entre le Laboratoire Paul Painlevé et
ArcelorMittal est de considérer que les variables corrélées peuvent
s'exprimer les unes en fonction des autres par des régressions
linéaires spécifiques ("sous-régressions"). On peut alors supprimer une
partie des variables pour s'affranchir des problèmes de conditionnement
inhérents à la régression linéaire. L'estimation des strutures de
sous-régressions repose sur des modélisations génératives avec choix de
modèles pour assurer la cohérence d'estimation mathématique. Cette
recherche a conduit à l'élaboration du package R CorReg, disponible sur
le site du CRAN. Son utilisation dans le contexte sidérurgique
d'ArcelorMittal a permis simultanément d'identifier les structures de
corrélations du process industriel et d'améliorer sensiblement les
qualités prédictives de ce process.
La problématique de corrélation entre variables en régression linéaire
étant générique, elle a aussi été utilisée en 2015 au travers d'un
contrat de recherche avec le groupe Auchan dans le contexte de
l'amélioration de performance des hypermarchés français.