Estimation and testing of mixtures of Hilbert-valued features issued from a continuous dictionary - École des Ponts ParisTech Accéder directement au contenu
Thèse Année : 2023

Estimation and testing of mixtures of Hilbert-valued features issued from a continuous dictionary

Estimation et tests pour des mélanges de composantes hilbertiennes issues d'un dictionnaire continu

Résumé

This thesis is devoted to estimation and testing problems for sparse mixtures of features issuedfrom continuous parametric dictionaries. A wide variety of non-linear regression models are considered in a unified framework. In this thesis, the observations are random elements of an Hilbert space resulting from the sum of a deterministic signal containing information, anda noise. The signal is a linear combination (or mixture) of a finite, but possibly increasing,number of features continuously parameterized by a non-linear parameter. We consider a widerange of continuous dictionaries, observation spaces and additive Gaussian noises (white orcolored).One of the main goals of this thesis is to estimate the linear coefficients as well as the non-linear parameters of the mixture in the presence of noise. In the case where only one signal isobserved, we propose estimators that are solutions to an optimization problem. In order toquantify the performances of these estimators with respect to the quality of the observations,we establish prediction and estimation bounds that stand with high probability. We showthat when the non-linear parameters are sufficiently separated with respect to a Riemannianmetric defined by the dictionary, the signal reconstruction almost reaches (up to a logarithmic factor) the performances obtained by the Lasso estimator in the linear case where the featuresparameters are known and do not need to be estimated. We give refinements of these resultsfor some dictionaries depending on a scaling parameter. We illustrate our results with the Gaussian spikes deconvolution model and with the recontruction of point sources convolvedwith a low-pass filter.In practice, it is common to have a set of observations (possibly a continuum) sharing acommon structure. We will assume that the signals share an underlying structure by saying that the union of active features in the data set is finite. The question arises whether theestimation of signals can be improved by taking advantage of their common structure. Weshow in this thesis that, under separation conditions between the non-linear parameters,this improvement occurs. To do so, we define estimators whose performances reach thatof the group-Lasso estimator in the multi-task linear regression model where the non-linearparameters are known and do not need to be estimated.Next, we test whether a noisy observation is derived from a given signal and give non-asymptotic upper bounds for the associated testing risk. In particular, our test encompassesthe signal detection framework. We derive an upper bound for the strength that a signal musthave in order to be detected in the presence of noise. It turns out that, in this framework, ourupper bound on the strength corresponds (up to a logarithmic factor) to the lower bound onthe separation rate for signal detection in the high-dimensional linear model associated to afinite dictionary of features. We also propose a procedure to test whether the features of theobserved signal belong to a given finite collection. A non-asymptotic bound on the testingrisk is given. Finally, we propose a new numerical approach, using our estimators, to automatically and simultaneously analyze a set of infrared spectra modeled by linear combinations of peakswhose shape and position are parameterized. We study the numerical performances of the proposed algorithm on infrared spectra of polychloroprene rubbers used in a marine environment.
Cette thèse aborde des problèmes d’estimation et de test pour des mélanges parcimonieux de composantes issues de dictionnaires continûment paramétrés. Une grande variété de modèles de régression non-linéaires sont considérés dans un cadre unifié. Dans cette thèse, les observations sont des éléments aléatoires d’un espace de Hilbert résultant de la somme d’un signal déterministe, contenant de l’information, et d’un bruit. Le signal est issu d’une combinaison linéaire (ou mélange) d’un nombre fini, mais éventuellement croissant, de composantes continûment paramétrées par un paramètre non-linéaire. Nous considérons un large panel de dictionnaires continus, d’espaces d’observations et de bruits additifs gaussiens (blanc ou colorés).L’un des buts principaux de cette thèse est d’estimer en présence de bruit les coefficients linéaires ainsi que les paramètres non-linéaires du mélange. Dans le cas où un seul signal est observé, nous proposons des estimateurs solutions d’un problème d’optimisation. Afin de quantifier les performances de ces estimateurs en fonction de la qualité des observations, nous établissons des bornes de prédiction et d’estimation valables en grande probabilité. Nous montrons que lorsque les paramètres non-linéaires sont suffisamment séparés au sens d’une métrique riemannienne définie par le dictionnaire, la reconstruction du signal atteint quasiment (à un facteur logarithmique près) les performances obtenues par l’estimateur Lasso dans le cas linéaire où les paramètres des composantes sont connus et n’ont pas besoin d’être estimés. Nous donnons des raffinements de ces résultats pour certains dictionnaires dépendant d’un paramètre d’échelle. Nous illustrons nos résultats à l’aide du modèle de déconvolution de pics gaussiens et du modèle de reconstruction de sources ponctuelles filtrées. En pratique, il est fréquent de disposer d’un ensemble d’observations (éventuellement un continuum) partageant une structure commune. Nous supposerons que les signaux partagent une structure sous-jacente en disant que l’union des composantes actives dans l’ensemble des données est finie. La question se pose de savoir si l’estimation des signaux peut être améliorée en tirant parti de leur structure commune. Nous montrons dans cette thèse que, sous des conditions de séparation entre les paramètres non-linéaires, cette amélioration a lieu. Pour ce faire, nous définissons des estimateurs dont les performances atteignent celles de l’estimateur group-Lasso dans le modèle de régression linéaire multi-tâches où les paramètres non linéaires sont connus et n’ont pas besoin d’être estimés. Ensuite, nous testons si une observation bruitée dérive d’un signal donné et donnons des bornes supérieures non asymptotiques pour le risque de test associé. En particulier, notre test englobe le cadre de la détection de signaux. Nous déduisons une borne supérieure pour l’intensité minimale qu’un signal doit avoir afin d’être détecté en présence de bruit. Il s’avère que, dans ce cadre, notre borne supérieure sur l’intensité minimale correspond (à un facteur logarithmique) à la borne inférieure de la vitesse de séparation pour la détection de signaux dans le modèle linéaire de grande dimension associé à un dictionnaire fini de composantes. Nous proposons également une procédure permettant de tester si les composantes du signal observé appartiennent à une collection finie donnée. Une borne non asymptotique sur le risque de test est donnée. Enfin, nous proposons une nouvelle approche numérique, utilisant nos estimateurs, pour analyser automatiquement et simultanément un ensemble de spectres infrarouges modélisés par des combinaisons linéaires de pics dont la dispersion et la position sont paramétrées. Nous étudions les performances numériques de l’algorithme proposé sur des spectres infrarouges de revêtements en polychloroprène vieillis en milieu marin.
Fichier principal
Vignette du fichier
TH2023ENPC0009.pdf (2.19 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04124258 , version 1 (09-06-2023)

Identifiants

  • HAL Id : tel-04124258 , version 1

Lien texte intégral

Citer

Clément Hardy. Estimation and testing of mixtures of Hilbert-valued features issued from a continuous dictionary. Optimization and Control [math.OC]. École des Ponts ParisTech, 2023. English. ⟨NNT : 2023ENPC0009⟩. ⟨tel-04124258⟩
104 Consultations
48 Téléchargements

Partager

Gmail Facebook X LinkedIn More