Théorie de la détection du signal

La théorie de la détection du signal est une application de la théorie de la décision concernant la détection d'une information ou d'un motif dans un signal mesuré en présence de bruit. Cette théorie décrit comment choisir de manière optimale un critère permettant de discerner l'information jugée utile - le signal - du bruit environnant, en tenant compte de la nature probabiliste de la source du signal, des différentes sources de bruit et du récepteur, à savoir l'outil de mesure du signal. Elle définit en outre des critères de qualité de la détection obtenue et plus généralement de la performance du récepteur.

Les débuts de la théorie de la détection du signal remontent au développement des récepteurs radar.

Les principales applications de cette théorie sont, outre le radar, les télécommunications, le contrôle qualité, et l'astronomie d'observation.

Cas de la détection binaire

C'est le cas le plus simple, dans lequel on cherche à différencier deux états possibles, généralement la présence ou l'absence d'une information dans un ou plusieurs signaux déterministes en présence de bruit aléatoire. Cela revient aussi à un problème de classification automatique supervisée dans le cas où il y a deux classes. On considère un ensemble de n signaux pouvant être émis aléatoirement par l'une de deux sources H₁ et H₂, avec des probabilités p₁ et p₂ (telles que $p_{1}+p_{2}=1$ ), appelées probabilités a priori. Ceci produit une variable aléatoire continue X sur un espace d'observation $\chi \subset \mathbb {R} ^{n}$ dont les probabilités conditionnelles sont définies par les fonctions densité de probabilité f_X|H1 et f_X|H2.

On cherche une partition de l'espace d'observation $\chi =\chi _{1}\cup \chi _{2}$ telle que $\chi _{1}\cap \chi _{2}=\emptyset$ . Etant donnée une réalisation x de X, c'est-à-dire une mesure du signal, on lui associe les décisions :

D₁ si x est dans $\chi _{1}$
D₂ si x est dans $\chi _{2}$

schéma de principe — Relations entre les hypothèses, l'espace d'observation et les décisions

Il y a donc quatre types d'événement possibles :

Décision D₁ sous l'hypothèse H₁, appelé vrai négatif
Décision D₁ sous l'hypothèse H₂, appelé faux négatif
Décision D₂ sous l'hypothèse H₁, appelé faux positif
Décision D₂ sous l'hypothèse H₂, appelé vrai positif

auxquels sont associés les probabilités conditionnelles $P(D_{i}|H_{j})=\int _{\chi _{i}}f_{X|H_{j}}(x)\,dx$ .

La règle de décision se base sur le rapport de vraisemblance $\Lambda (x)={\frac {f_{X|H_{2}}(x)}{f_{X|H_{1}}(x)}}$ et une valeur de seuil $\lambda _{s}$ tels que

\Lambda (x)\geq \lambda _{s}

conduit à prendre la décision D₂

et

\Lambda (x)<\lambda _{s}

conduit à prendre la décision D₁

.

Cette règle permet d'exprimer les probabilités conditionnelles de décision en fonction du rapport de vraisemblance :

$P(D_{1}|H_{j})=\int _{0}^{\lambda _{s}}f_{\Lambda |H_{j}}(\lambda )\,d\lambda$
$P(D_{2}|H_{j})=\int _{\lambda _{s}}^{\infty }f_{\Lambda |H_{j}}(\lambda )\,d\lambda$

avec $f_{\Lambda |H_{j}}$ la fonction densité de probabilité associée à la probabilité conditionnelle de la variable aléatoire $\Lambda$ sous hypothèse H_j.

La performance de la détection est quantitifée au moyen :

des probabilités totales de bonne ou mauvaise détection $P(BD)=P(D_{1}|H_{1})\,p_{1}+P(D_{2}|H_{2})\,p_{2}$ et $P(MD)=P(D_{2}|H_{1})\,p_{1}+P(D_{1}|H_{2})\,p_{2}$ , qui dépendent du niveau de seuil $\lambda _{s}$ choisi,
de la caractéristique opérationnelle du récepteur représentant graphiquement l'évolution du taux de vrai positifs $P(D_{2}|H_{2})$ et du taux de faux positifs $P(D_{2}|H1)$ en fonction du seuil $\lambda _{s}$ .

Critère de Bayes

Toutes les décisions ne sont pas équivalentes quant à leur utilité. On associe donc un coût à chaque événement $C_{i,j}$ correspondant à la décision D_i sous hypothèse H_j. En général les mauvaises décisions sont plus coûteuses et on a $C_{2,1}>C_{1,1}$ et $C_{1,2}>C_{2,2}$ . On cherche ensuite le niveau de seuil $\lambda _{s}$ qui minimise le coût moyen

C=\sum _{i=1}^{2}\sum _{j=1}^{2}C_{i,j}\,P(D_{i}|H_{j})\,p_{j}

.

Celui ci est obtenu pour

\lambda _{s}={\frac {(C_{1,1}-C_{2,1})\,p_{1}}{(C_{2,2}-C_{1,2})\,p_{2}}}

c'est le seuil obtenu selon le critère de Bayes.

démonstration

Le coût moyen se développe en

$C=C_{1,1}\,P(D_{1}|H_{1})\,p_{1}+C_{1,2}\,P(D_{1}|H_{2})\,p_{2}+C_{2,1}\,P(D_{2}|H_{1})\,p_{1}+C_{2,2}\,P(D_{2}|H_{2})\,p_{2}$

et puisque par définition $P(D_{1}|H_{j})+P(D_{2}|H_{j})=1$ , on a

$C=C_{1,1}\,p_{1}+C_{2,2}\,p_{2}+P(D_{1}|H_{1})\,(C_{1,1}-C_{2,1})\,p_{1}+P(D_{1}|H_{2})\,(C_{1,2}-C_{2,2})\,p_{2}$

Les deux premiers termes sont constants, tandis que les deux derniers termes dépendent de la partition choisie $\chi =\chi _{1}\cup \chi _{2}$ et par suite du niveau de seuil, car $P(D_{1}|H_{j})=\int _{\chi _{1}}f_{X|H_{j}}(x)\,dx$ . On peut alors écrire

$C=C_{1,1}\,p_{1}+C_{2,2}\,p_{2}+\int _{\chi _{1}}I(x)\,dx$

avec $I(x)=(C_{1,1}-C_{2,1})\,p_{1}\,f_{X|H_{1}}(x)+(C_{1,2}-C_{2,2})\,p_{2}\,f_{X|H_{2}}(x)$

Minimiser C revient à choisir la partition qui rend le terme sous l'intégrale négatif, c'est-à-dire $\chi _{1}=\{x\in \chi /I(x)<0\}$ et $\chi _{2}=\{x\in \chi /I(x)\geq 0\}$ et

et donc $I(x)\geq 0\Leftrightarrow {\frac {f_{X|H_{2}}(x)}{f_{X|H_{1}}(x)}}\geq {\frac {(C_{1,1}-C_{2,1})\,p_{1}}{(C_{2,2}-C_{1,2})\,p_{2}}}$

On retrouve à gauche de cette inégalité le rapport de vraisemblance

\Lambda (x)

et donc à droite le niveau de seuil obtenu

\lambda _{s}

en minimisant C.

Maximum a posteriori

Si on choisit de pénaliser uniquement et uniformément les mauvaises détections $C_{1,2}=C_{2,1}=1$ et $C_{1,1}=C_{2,2}=0$ , le coût moyen devient $C=P(D_{2}|H_{1})\,p_{1}+P(D_{1}|H_{2})\,p_{2}=P(MD)$ . Ce choix particulier revient à minimiser la probabilité totale de mauvaise détection. Le niveau de seuil devient alors

\lambda _{s}={\frac {p_{1}}{p_{2}}}

On peut montrer que dans ce cas la règle de décision peut se reformuler sous la forme suivante :

P(H_{2}|X)\geq P(H_{1}|X)

conduit à la décision D₂

P(H_{1}|X)>P(H_{2}|X)

conduit à la décision D₁

$P(H_{j}|X)$ étant la probabilité conditionnelle a posteriori de l'hypothèse H_j.

Cette règle revient donc à choisir à chaque fois le maximum de la probabilité a posteriori^[1].

démonstration

La règle de décision portant sur le rapport de vraisemblance s'écrit $\Lambda (x)\geq \lambda _{s}\Leftrightarrow {\frac {f_{X|H_{2}}(x)}{f_{X|H_{1}}(x)}}\geq {\frac {p_{1}}{p_{2}}}$ conduit à choisir D₂, soit encore ${\frac {f_{X|H_{2}}(x)\,p_{2}}{f_{X|H_{1}}(x)\,p_{1}}}\geq 1$ (et l'autre inégalité conduit à la décision H₁). Par ailleurs, la probabilité conditionnelle a posteriori de l'hypothèse H_j étant donné X est définie par $P(H_{j}|X)={\frac {f_{X|H_{j}}(x)\,p_{j}}{f_{X}(x)}}$ , avec $f_{X}$ la fonction densité de probabilité de la variable aléatoire X. Celle-ci se simplifie dans le rapport de vraisemblance, ce qui laisse apparaître le rapport des probabilités a posteriori

{\frac {P(H_{2}|X)}{P(H_{1}|X)}}\gtrless 1

Critère minimax

Le critère de Bayes suppose la connaissance des probabilités a priori, ce qui n'est pas toujours le cas. On va donc essayer de se placer dans le pire cas du critère de Bayes, c'est-à-dire rechercher une des probabilités a priori, par exemple $p_{1}$ , de sorte à avoir

\max _{p_{1}}\min _{\lambda _{s}(p_{1})}C(p_{1},\lambda _{s})

$C(p_{1},\lambda _{s})$ étant le coût moyen précédemment défini.

La valeur de seuil reste celle définie par le critère de Bayes

\lambda _{s}(p_{1})={\frac {(C_{1,1}-C_{2,1})\,p_{1}}{(C_{2,2}-C_{1,2})\,(1-p_{1})}}

et la probabilité qui maximise le coût $C(p_{1},\lambda (p_{1}))$ est solution de l'équation caractéristique

C_{2,2}-C_{1,1}+(C_{1,2}-C_{2,2})\,P(D_{1}|H_{2})-(C_{2,1}-C_{1,1})\,P(D_{2}|H_{1})=0

Les deux probabilités conditionnelles $P(D_{i}|H_{j}),i\neq j$ dépendent implicitement de $p_{1}$ au travers de $\lambda _{s}$ .

démonstration

Sachant que par définition des probabilités $p_{1}+p_{2}=1$ et $P(D_{1}|H_{j})+P(D_{2}|H_{j})=1$ , et en introduisant temporairement la notation $P(D_{i}|H_{j})=p_{ij}(\lambda _{s}),i\neq j$ , la fonction coût moyen du critère de Bayes se réécrit en

${\begin{aligned}C(p_{1},\lambda _{s})&=C_{1,1}\,P(D_{1}|H_{1})\,p_{1}+C_{1,2}\,P(D_{1}|H_{2})\,p_{2}+C_{2,1}\,P(D_{2}|H_{1})\,p_{1}+C_{2,2}\,P(D_{2}|H_{2})\,p_{2}\\&=C_{1,2}\,p_{12}(\lambda _{s})+C_{2,2}\,(1-p_{12}(\lambda _{s}))+p_{1}\,\left(C_{1,1}-C_{2,2}+(C_{2,2}-C_{1,2})\,p_{12}(\lambda _{s})+(C_{2,1}-C_{1,1})\,p_{21}(\lambda _{s})\right)\end{aligned}}$

La fonction coût ainsi formulée dépend explicitement de deux variables, la probabilité a priori $p_{1}$ et le seuil $\lambda _{s}$ .

figure explicative pour la démonstration du critère minimax — Représentation du coût moyen défini par le critère de Bayes (la courbe en bleu), et du coût moyen réel (la droite en gris). Des trois cas présentés, le premier est impossible, et le troisième montre qu'au maximum, le coût moyen réél est une tangente horizontale, et c'est aussi un majorant du coût. Ce point définit la valeur de la probabilité a priori $p_{1}^{*}$ du critère minimax.

La probabilité $p_{1}$ étant inconnue, on peut étudier les différents cas qui peuvent exister si l'on se donne arbitrairement une valeur $p_{1}^{*}$ pour définir le seuil $\lambda _{s}(p_{1}^{*})$ par le critère de Bayes défini plus haut. Le niveau de seuil $\lambda _{s}(p_{1}^{*})$ étant fixé, le coût moyen réel ne dépend plus que linéairement de la probabilité $p_{1}$ .

Dans le cas I, représenté sur la figure, la courbe bleue représente le coût moyen $C(p_{1},\lambda (p_{1}))$ déduit du critère de Bayes en ce point et la droite en gris représente le coût moyen réél $C(p_{1},\lambda (p_{1}^{*}))$ . En fait ce cas est interdit car pour une valeur $p_{1}^{\prime }>p_{1}^{*}$ le coût réél serait inférieur au coût donné par le critère de Bayes, ce qui est impossible car ce critère fournit le coût minimum pour une valeur de $p_{1}^{\prime }$ connue.

Donc, seul le cas II représenté sur la figure est possible : la droite du coût moyen réél est tangente en tout point à la courbe bleue. De plus celle-ci est nécessairement concave au sens de l'analyse. Toute partie convexe est interdite car elle permettrait de trouver une valeur du coût inférieur à celui donné par le critère de Bayes.

Finalement, dans le cas III de la figure, lorsque $p_{1}^{*}$ est choisi de sorte à satisfaire le maximum de $C(p_{1},\lambda (p_{1}))$ , le coût moyen réel $C(p_{1},\lambda (p_{1}^{*}))$ est une tangente horizontale en ce point, et par suite ce point $(p_{1}^{*},\,C(p_{1}^{*},\lambda (p_{1}^{*})))$ est le seul à pouvoir majorer le coût moyen réél quel que soit $p_{1}$ .

De plus, la pente de la droite tangente est obtenue en dérivant partiellement $C(p_{1},\lambda (p_{1}^{*}))$ par rapport à $p_{1}$ , et l'équation caractéristique est obtenue en annulant cette expression de la pente :

{\frac {\partial }{\partial p_{1}}}C(p_{1},\lambda _{s}(p_{1}^{*}))=0\Leftrightarrow C_{1,1}-C_{2,2}+(C_{2,2}-C_{1,2})\,p_{12}(\lambda _{s}(p_{1}^{*})+(C_{2,1}-C_{1,1})\,p_{21}(\lambda _{s}(p_{1}^{*})=0

On peut représenter graphiquement le critère minimax en remarquant que puisque $P(D_{1}|H_{2})+P(D_{2}|H_{2})=1$ l'équation caractéristique est aussi l'équation d'une droite dans le plan $(P(D_{2}|H_{1}),\,P(D_{2}|H_{2}))$ . Son intersection avec la courbe caractéristique opérationnelle du récepteur donne directement les probabilités conditionnelles satisfaisant le critère minimax.

intersection COR et minimax — Intersection de la droite représentative de l'équation caractéristique avec la courbe caractéristique opérationnelle du récepteur

Critère de Neyman-Pearson

Les critères précédents supposent tous qu'il est possible de définir le coût associé aux différentes décisions. Toutefois lorsque ceci n'est pas possible, il existe une autre approche consistant à fixer a priori le taux de faux positif $P(D_{2}|H_{1})$ à une valeur $\alpha$ et à rendre maximum le taux de bonne détection $P(D_{2}|H_{2})$ .

Ceci revient à chercher un niveau de seuil $\lambda _{s}$ intervenant dans la règle de décision

\Lambda (x)\gtrless \lambda _{s}

tel que

P(D_{2}|H_{1})=\int _{\lambda _{s}}^{\infty }f_{\Lambda |H_{1}}(\lambda )\,d\lambda =\alpha

démonstration

Il faut démontrer que le choix ci-dessus du seuil $\lambda _{s}$ est en fait optimal, c'est-à-dire qu'il maximise le taux de bonne détection $P(D_{2}|H_{2})$ .

On recherche donc une partition $\chi =\chi _{1}+\chi _{2}$ de l'espace d'observation qui maximise

J=P(D_{2}|H_{2})-\lambda \,[P(D_{2}|H_{1})-\alpha ]

$\lambda$ étant un multiplicateur de Lagrange. De par la définition des probabilités conditionnelles $P(D_{i}|H_{j})$ en terme de densité de probabilité conditionnelles $f_{X|H_{j}}$ , la fonction coût ci-dessous peut encore s'exprimer sous la forme

J=\int _{\chi _{2}}(f_{X|H_{2}}(x)-\lambda \,f_{X|H_{1}}(x))\,dx+\lambda \,\alpha

Maximiser J revient à rendre l'intégrande positif si x est dans $\chi _{2}$ et négatif lorsque x est dans $\chi _{1}$ :

$f_{X|H_{2}}(x)\geq \lambda \,f_{X|H_{1}}(x)$ conduit à la décision D₂

et

$f_{X|H_{1}}(x)>\lambda \,f_{X|H_{2}}(x)$ conduit à la décision D₁

En faisant apparaître le rapport de vraisemblance, on voit que le multiplicateur de Lagrange est exactement le seuil optimal recherché.

On peut interpréter graphiquement le critère de Neyman-Pearson à l'aide de la courbe caractéristique opérationnelle du récepteur. Le taux de faux positif en abscisse est directement donné par le niveau désiré $\alpha$ . D'autre part, une propriété de la caractéristique opérationnelle du récepteur est que sa pente est égale au niveau de seuil $\lambda _{s}$ . Le critère de Neyman-Pearson revient donc à mesurer la pente de la courbe au point d'abscisse $\alpha$ considéré.

Application au cas d'un signal en présence de bruit gaussien

On se place dans le cas où une seule mesure (n = 1) est produite par deux hypothèses

H₁ : la variable aléatoire X est distribuée suivant une loi normale d'espérance mathématique $\mu _{1}$ et de variance $\sigma ^{2}$ ,
H₂ : la variable aléatoire X est distribuée suivant une loi normale d'espérance $\mu _{2}$ (que l'on suppose plus grande que $\mu _{1}$ ) et de même variance $\sigma ^{2}$ .

Autrement dit, le signal peut prendre deux valeurs déterministes $\mu _{1}$ et $\mu _{2}$ auxquelles un bruit gaussien est ajouté.

Le critère du maximum a posteriori fournit la règle de décision suivante sur la valeur mesurée x :

x\geq x_{s}

conduit à la décision D₂

x<x_{s}

conduit à la décision D₁

avec une valeur de seuil $x_{s}={\frac {\mu _{1}+\mu _{2}}{2}}+{\frac {\sigma ^{2}}{\mu _{2}-\mu _{1}}}\,\log \left({\frac {p_{1}}{p_{2}}}\right)$

deux gaussiennes de même variance mais moyennes différentes — Fonctions densité de probabilité conditionnelle pour les deux hypothèses, distribuées suivant deux lois normales de même variance et d'espérances $\mu _{1}$ et $\mu _{2}$ et probabilités conditionnelles de mauvaise détection $P(D_{i}|H_{j}),i\neq j$ pour une valeur $x_{s}$ du seuil de détection

Les probabilités conditionnelles sont données ici par :

$P(D_{1}|H_{j})=\Phi ({\frac {x_{s}-\mu _{j}}{\sigma }})$
$P(D_{2}|H_{j})=1-\Phi ({\frac {x_{s}-\mu _{j}}{\sigma }})$

dans lesquelles $\Phi$ est la fonction de répartition de la loi normale centrée réduite, soit encore $\Phi (x)={\frac {1+erf(x/{\sqrt {2}})}{2}}$ , erf étant la fonction d'erreur.

La probabilité totale de mauvaise détection résultant de ce choix est donc

${\begin{aligned}P(MD)&=P(D_{2}|H_{1})\,p_{1}+P(D_{1}|H_{2})\,p_{2}\\&=\left(1-\Phi ({\frac {x_{s}-\mu _{1}}{\sigma }})\right)\,p_{1}+\Phi ({\frac {x_{s}-\mu _{2}}{\sigma }})\,p_{2}\end{aligned}}$

Une autre facçon d'évaluer la détection est de tracer la courbe de la caractéristique opérationnelle du récepteur, c'est-à-dire $P(D_{2}|H_{2})$ en fonction de $P(D_{2}|H_{1})$ lorsqu'on fait varier $x_{s}$ de $-\infty$ à $+\infty$ .

ROC curve — Caractéristique opérationnelle du récepteur correspondant à différentes valeurs du ratio ${\frac {\sigma }{\mu _{2}-\mu _{1}}}$

Notes et références

↑ Bernard Dubuisson, Cours de théorie statistique de la décision pour le diplôme d'études approfondies en contrôle des systèmes : Détection et estimation, Université de Technologie de Compiègne, 1992

Voir aussi

Articles connexes

Bibliographie

(en) Peter Bajorski, Statistics for Imaging, Optics and Photonics, Wiley, 2012 (ISBN 978-0-470-50945-6)
(en) Mourad Barkat, Signal Detection and Estimation, Artech House, 1991 (ISBN 0-89006-454-7)

Portail des probabilités et de la statistique

[1] Bernard Dubuisson, Cours de théorie statistique de la décision pour le diplôme d'études approfondies en contrôle des systèmes : Détection et estimation, Université de Technologie de Compiègne, 1992

[1]