Informations

4.2 : Analyse de courbes de renaturation à composantes multiples - Biologie


Dans cette section, l'analyse de la section 4.2 est appliquée quantitativement dans un exemple de renaturation de l'ADN génomique. Si un ADN inconnu a une seule composante cinétique, c'est-à-dire que la fraction renaturée augmente de 0,1 à 0,9 comme la valeur de C0t augmente de 100 fois, alors on peut calculer facilement sa complexité. En utilisant l'équation (6), tout ce que l'on a besoin de savoir est son C0t1/2, plus le (C_0t_{1/2}) et la complexité d'un étalon renaturé dans des conditions identiques (concentration initiale en ADN, concentration en sel, température, etc.).

La même logique s'applique à l'analyse d'un génome à composantes cinétiques multiples. Certains génomes se rehybrident sur une gamme de C0tdes valeurs couvrant plusieurs ordres de grandeur, par ex. à partir de 10-3 à 104. Une partie de l'ADN se renature très rapidement ; il a une faible complexité et, comme nous le verrons, une fréquence de répétition élevée. D'autres composants de l'ADN se renaturent lentement ; ceux-ci ont une complexité plus élevée et une fréquence de répétition plus faible. La seule difficulté nouvelle à l'analyse, cependant, est de traiter chaque composante cinétique indépendamment. Il s'agit d'une approche raisonnable, puisque l'ADN est cisaillé en fragments courts, par ex. 400 pb, et il est peu probable qu'un ADN à renaturation rapide fasse partie du même fragment qu'un ADN à renaturation lente.

Certains termes et abréviations doivent être définis ici.

  • F = fraction du génome occupée par un composant
  • (C_0t_{1/2}) pour le composant pur = (F) ((C_0t_{1/2}) mesuré dans le mélange de composants)
  • R = fréquence de répétition
  • G = taille du génome. G peut être mesuré chimiquement (par exemple, la quantité d'ADN par noyau d'une cellule) ou cinétiquement (voir ci-dessous).

On peut lire et interpréter la courbe (C_0t) comme suit. Il faut estimer le nombre de composants du mélange qui constitue le génome. Dans l'exemple hypothétique de la figure 4.5, trois composants peuvent être observés et un autre est déduit car 10 % du génome s'est renaturé aussi rapidement que le premier test peut être effectué. Les trois composantes observables sont les trois segments de la courbe, chacun avec un point d'inflexion au centre d'une partie de la courbe qui couvre une augmentation de 100 fois de (C_0t) (parfois appelé 2 logs de (C_0t). La fraction du génome occupée par un composant, F, est mesurée comme la fraction de l'annelage du génome dans ce composant. Le (C_0t_{1/2}) mesuré est la valeur de (C_0t) à laquelle la moitié du composant s'est renaturée. Dans la figure 4.5, le composant 2 renature entre les valeurs (C_0t) de 10-3 et 10-1, et la fraction du génome renaturé a augmenté de 0,1 à 0,3 sur cette plage. Ainsi F est 0,3-0,1=0,2. Les C0t la valeur à mi-renaturation pour ce composant est la valeur observée lorsque la fraction renaturée atteint 0,2 (c'est-à-dire à mi-chemin entre 0,1 et 0,3 ; ce C0t la valeur est 10-2, et il est appelé le C0t1/2pour le composant 2 (mesuré dans le mélange de composants). Les valeurs des autres composants sont présentées dans la figure 4.5.

Graphique 4.5.

Tous les composants du génome sont présents dans l'ADN génomique initialement dénaturé. Ainsi la valeur pour C0 est pour tout l'ADN génomique, pas pour les composants individuels. Mais une fois que l'on connaît la fraction du génome occupée par un composant, on peut calculer la C0 pour chaque composant individuel, simplement comme C0 ´ F. Ainsi, le (C_0t_{1/2}) pour le composant individuel est le (C_0t_{1/2}) (mesuré dans le mélange de composants) ´ F. Par exemple, le (C_0t_{1/2}) pour le composant individuel (pur) 2 est 10-2 ´ 0.2 = 2 ´ 10-3 .

Connaissant le (C_0t_{1/2}) mesuré pour un étalon ADN, on peut calculer la complexité de chaque composant.

[ Nn= C_0t_{1/2}_{pur}, n ] ´

  • où n fait référence au composant particulier, c'est-à-dire (1, 2, 3 ou 4)

La fréquence de répétition d'un composant donné est le nombre total de paires de bases dans ce composant divisé par la complexité du composant. Le nombre total de paires de bases dans ce composant est donné par fn ´ g.

Rn =

Pour les données de la figure 4.5, on peut calculer les valeurs suivantes :

ComposantF(C_0t_{1/2}), mélanger(C_0t_{1/2}), purN (pb)RR
1 rabat0.1< 10-4< 10-4
2 rapide0.210-22x10-3600105
3 intermédiaires0.110.13x104103
4 lent (copie unique)0.61036001,8 x 1081
ADN bactérien std103x1061

La taille du génome, g, peut être calculé à partir du rapport de la complexité et de la fréquence de répétition.

g=

Par exemple. Si G = 3 x 108 pb et que le composant 2 en occupe 0,2, alors le composant 2 contient 6 x 107 pb. Mais la complexité du composant 2 n'est que de 600 pb. Par conséquent, il faudrait 105 copies de cette séquence de 600 pb pour comprendre 6 x 107 pb, et nous supposons que R = 105.

Exercice 4.1

Si l'on substitue l'équation à Nm et pour g dans l'équation de Rm, une relation simple pour R peut être dérivé en termes de valeurs (C_0t_{1/2}) mesurées pour le mélange de composants . Qu'est-ce que c'est?

Types d'ADN dans chaque composant cinétique pour les génomes complexes

Les génomes eucaryotes ont généralement plusieurs composants, ce qui génère des C0t courbes. La figure 4.6 montre un schéma C0t courbe qui illustre les différents composants cinétiques de l'ADN humain, et le tableau suivant donne quelques exemples de membres des différents composants.

Graphique 4.6.

Tableau 4.2. Quatre composantes cinétiques principales des génomes complexes
Cinétique de renaturationC0t descripteurFréquence de répétitionExemples
trop rapide pour mesurer"replier"n'est pas applicablerépétitions inversées
renaturation rapidemeugler C0ttrès répété, > 105 copies par cellulecourtes répétitions entrecoupées (par exemple, humain Alu répétitions); répétitions en tandem de courtes séquences (centromères)
renaturation intermédiairemilieu C0tmodérément répété, 10-104 copies par celluleles familles de répétitions intercalées (par exemple, les longues répétitions L1 humaines); ARNr, ARN 5S, gènes d'histone
renaturation lentehaute C0tfaible, 1-2 copies par cellule, "copie unique"la plupart des gènes structuraux (avec leurs introns) ; une grande partie de l'ADN intergénique

N, R car les ADN répétés sont moyennes pour de nombreuses familles de répétitions. Les membres individuels des familles de répétitions sont similaires mais pas identiques les uns aux autres.

L'image émergente du génome humain révèle environ 30 000 gènes codant pour des protéines et des ARN structurels ou fonctionnels. Ceux-ci sont répartis sur 22 autosomes et 2 chromosomes sexuels. Presque tous ont des introns, certains avec quelques introns courts et d'autres avec de très nombreux introns longs. Presque toujours, une quantité substantielle d'ADN intergénique sépare les gènes.

Plusieurs familles différentes d'ADN répétitif sont dispersées dans les séquences intergéniques et introniques. Presque toutes ces répétitions sont des vestiges d'événements de transposition, et dans certains cas, les gènes sources de ces transposons ont été trouvés. Certaines des familles les plus abondantes de répétitions transposées via un intermédiaire ARN, et peuvent être appelées rétrotransposons. La famille répétitive la plus abondante chez l'homme est Alu répète, du nom d'un site d'endonucléase de restriction commun en leur sein. Ils ont une longueur d'environ 300 pb et environ 1 million d'exemplaires se trouvent dans le génome. Ils sont probablement dérivés d'un gène modifié pour un petit ARN appelé ARN 7SL. (Cet ARN est impliqué dans la traduction des protéines sécrétées et liées à la membrane). Les génomes d'espèces d'autres ordres de mammifères (et en fait de tous les vertébrés examinés) ont des nombres à peu près comparables de courtes répétitions intercalées indépendamment dérivées de gènes codant pour d'autres ARN courts, tels que les ARN de transfert.

Une autre classe importante de rétrotransposons répétitifs sont les longsL1 répète. Les copies pleine longueur des répétitions L1 ont une longueur d'environ 7000 pb, bien que de nombreuses copies soient tronquées à partir de l'extrémité 5'. Environ 50 000 copies se trouvent dans le génome humain. Les copies complètes des L1 récemment transposées et de leurs gènes sources ont deux cadres de lecture ouverts (c'est-à-dire qu'elles peuvent coder pour deux protéines). L'une est une protéine multifonctionnelle similaire à la pol gène des rétrovirus. Il code pour une transcriptase inverse fonctionnelle. Cette enzyme pourrait jouer un rôle clé dans la transposition de tous les rétrotransposons. Des répétitions similaires aux L1 se trouvent chez tous les mammifères et dans d'autres espèces, bien que les L1 au sein de chaque ordre de mammifères aient des caractéristiques distinctives de cet ordre. Ainsi, les répétitions intercalées courtes (ou SINE) et les répétitions intercalées longues L1 (ou LIGNES) se sont étendues et propagées indépendamment dans différents ordres de mammifères.

Les deux types de rétrotransposons sont actuellement actifs, générant de novomutations chez l'homme. Un petit sous-ensemble de SINE a été impliqué en tant qu'éléments fonctionnels du génome, fournissant des signaux de traitement post-transcriptionnels ainsi que des exons codant des protéines pour un petit nombre de gènes.

D'autres classes de répétitions, telles que les L2 (longues répétitions) et les MIRS (courtes répétitions appelées répétitions intercalées de mammifères), semblent être antérieures au rayonnement des mammifères, c'est-à-dire qu'elles semblent avoir été présentes chez le mammifère eutherien ancestral. D'autres classes de répétitions sont des éléments transposables qui se déplacent par un intermédiaire d'ADN.

Autres séquences répétées entrecoupées courantes chez l'homme


Renaturation

Le test de superposition de ligand est basé sur la renaturation de protéines immobilisées sur un filtre de nitrocellulose afin de tester les interactions protéine-protéine potentielles avec un ligand soluble, qui peut être facilement détecté. dans ce cas, EEA1 purifié est renaturé sur nitrocellulose et incubé avec GST-Rab5 : GTPγS ou GST-Rab5 : GDP soluble, suivi de la détection de GST-Rab5 lié à l'aide d'anticorps anti-GST. Les formes actives (GTPγS) et inactives (GDP) de GST-Rab5 sont fabriquées comme décrit ci-dessus pour la préparation de la colonne d'affinité. Le Rab5 stable lié aux nucléotides est élué des billes avec un tampon d'élution au glutathion avec 1 m M du nucléotide correspondant. Le glutathion est éliminé par dessalage sur une colonne PD-10 prééquilibrée avec du tampon NS contenant 100 M du nucléotide correspondant. Cette procédure a conduit typiquement à 3 mg/ml de GST-Rab5 de l'une ou l'autre forme.

EEA1 purifié (colonne Superose 6, fraction 18) est chargé sur un gel SDS-PAGE (sans ébullition préalable) et transféré sur membrane de nitrocellulose. Le transfert est ensuite lavé 2x pendant 10 min avec du PBS contenant 0,1% de Tween 20, et bloqué pendant une nuit par incubation avec du tampon de blocage (toutes les incubations sont effectuées à 4° sauf indication contraire). Ensuite, les blots sont incubés 2x pendant 1 h avec du tampon de liaison, suivi d'une incubation avec 1 g/ml GST-Rab5 : GTPγS ou GST-Rab5 : GDP dans un tampon de liaison contenant 100 M GTPγS ou GDP, et 1% de BSA, pendant 1 heure. Par la suite, les blots sont lavés 5x pendant 5 min avec un tampon de liaison contenant 10 M du nucléotide approprié (tous les lavages ultérieurs contenaient cette concentration de nucléotide), et incubé avec un anticorps anti-GST (Pharmacia) à une dilution de 1:2000 dans un tampon de liaison contenant 1 % de BSA. Les blots sont lavés 5x pendant 5 min avec du tampon de liaison et incubés avec des IgG anti-chèvre de lapin conjugués à HRP à une dilution de 1: 1500 dans du tampon de liaison contenant 1% de BSA, suivis de cinq lavages de 5 min avec du tampon de liaison, et 2 lavages rapides se lave au PBS. Enfin, les blots sont traités avec le système de détection ECL (enhanced chimiluminescence) (Amersham) et exposés à une autoradiographie. Cette méthode montre que l'EEA1 purifié est capable de se lier à GST-Rab5 : GTPγS mais pas à GST-Rab5 : GDP (figure 5A).

5 . Dosages de EEA1 purifié. (A) EEA1 purifié (fraction 18, 400 ng) a été chargé sur un gradient de 7 à 17 % SDS-PAGE suivi d'un transfert sur un filtre de nitrocellulose. Ensuite, les transferts ont été renaturés, incubés avec la forme indiquée de Rab5 (1 g/ml), et la position de la GST-Rab5 liée a été identifiée à l'aide d'anticorps de chèvre anti-GST, suivie d'une incubation avec des IgG de lapin anti-chèvre couplées à HRP et détection par ECL. Le poids moléculaire attendu de EEA1 (sur le côté gauche) et les normes de poids moléculaire (sur le côté droit) sont indiqués sur la figure. (B) Fusion entre les endosomes précoces en présence de cytosol (basal), ou de tampon, ou différentes concentrations de EEA1 en présence ou en l'absence de ZnCl2. L'étendue de la fusion est exprimée en pourcentage de la base.

L'activité d'EEA1 est également testée dans un in vitro essai de fusion d'endosomes précoce qui a été décrit auparavant. 26 Dans ce cas, des endosomes précoces isolés sont mélangés avec de l'EEA1 11 purifié et le pourcentage de fusion est mesuré à l'aide d'un analyseur Origen (IGEN, Gaithersburg, MD). La fraction de la chromatographie d'exclusion stérique contenant EEA1 (fraction 18) est capable de supporter la fusion entre les endosomes précoces en l'absence de cytosol (figure 5B). Lorsque EEA1 est utilisé en l'absence de ZnCl2, la fusion est significativement réduite et nécessite une concentration beaucoup plus élevée de la fraction contenant EEA1 afin de compenser la réduction de ZnCl2. Il est probable que la procédure de purification (traitement avec 20 mM EDTA pendant l'élution de la colonne d'affinité) a dépouillé les ions Zn 2+ du doigt FYVE de l'EEA1, conformément aux rapports précédents. 27, 28 Nos efforts pour éluer les effecteurs de la colonne d'affinité en l'absence d'EDTA en utilisant des concentrations élevées de sel et de détergent se sont avérés infructueux.

Les deux critères ci-dessus utilisés pour tester l'activité de EEA1 (liaison à Rab5 actif et stimulation de la fusion endosome) montrent que la méthode de purification décrite conduit à une préparation active de cet effecteur Rab5.


4.1 Objectifs de ce chapitre

Générez nos propres données de modèle de mélange à partir de distributions composées de deux populations normales.

Découvrez comment l'algorithme d'attente-maximisation (EM) nous permet de « reverse engineering » des mélanges sous-jacents dans l'ensemble de données.

Utilisez un type spécial de mélange appelé inflation zéro pour les données telles que les données ChIP-Seq qui ont de nombreux zéros supplémentaires.

Découvrez la distribution cumulative empirique : un mélange particulier que l'on peut construire à partir des données observées. Cela nous permettra de voir comment nous pouvons simuler la variabilité de nos estimations en utilisant le bootstrap.

Construisez la distribution de Laplace en tant qu'instance d'un modèle de mélange infini - avec de nombreux composants. Nous l'utiliserons pour modéliser les longueurs des promoteurs et les intensités des microarrays.

Faites notre première rencontre avec la distribution gamma-Poisson, un modèle hiérarchique utile pour les données RNA-Seq. Nous verrons qu'il provient naturellement du mélange de différentes sources distribuées de Poisson.

Découvrez comment les modèles de mélange nous permettent de choisir des transformations de données.


Introduction

L'apprentissage multi-étiquette (MLL) traite des problèmes dans lesquels une instance peut être affectée à plusieurs classes simultanément [1], [2]. Étant donné un ensemble d'étiquettes L = < l 1 , l 2 , … , l M >, l'apprentissage traditionnel à une étiquette (SLL) [3], [4] construit un modèle qui mappe les instances de l'espace des caractéristiques à l'ensemble d'étiquettes discret , c'est-à-dire h : x → L , tandis que MLL construit un modèle qui mappe les instances de l'espace des caractéristiques à l'ensemble de puissance de l'ensemble d'étiquettes, c'est-à-dire h : x → 2 L . Au cours des dernières décennies, la MLL a été largement étudiée et appliquée à un large éventail de domaines d'application tels que la classification de texte [5], [6], [7], la reconnaissance d'images [8], [9], [10] et catégorisation musicale [11], etc.

Une solution simple à la MLL est la méthode Label Powerset (LP). Il transforme le problème multi-étiquette d'origine en un problème à une seule étiquette en traitant chaque élément de 2 L comme une seule classe. Cependant, la complexité de la méthode LP est élevée puisque le nombre de classes croît de façon exponentielle avec l'augmentation de | L | . C'est un grand défi de former des modèles MLL efficaces avec une complexité de temps raisonnable. En général, trois groupes de méthodes approchées ont été proposés, à savoir les méthodes de transformation des problèmes (PTM) [2], les méthodes d'ensemble (EM) [12], [13] et les méthodes d'adaptation d'algorithmes (AAM) [14], [15 ], [16]. Parmi eux, les PTM sont les méthodes les plus efficaces en décomposant le problème multi-étiquette en un ensemble de problèmes plus petits à une seule étiquette dans un cas binaire ou multi-classe. Les PTM les plus fondamentaux incluent la pertinence binaire (BR) [17] et le classement par étiquette calibré (CLR) [18]. BR entraîne un classificateur binaire pour chaque étiquette indépendamment, tandis que CLR entraîne un classificateur binaire pour chaque paire d'étiquettes. Ces deux méthodes sont faciles à mettre en œuvre avec une complexité temporelle relativement faible, mais elles ignorent les influences mutuelles entre les étiquettes [19], [20], [21] qui peuvent affecter la performance finale. Par exemple, étant donné un problème de reconnaissance d'image à cinq étiquettes avec L = < Village , Rural , Paddy , High building , Technology >, il peut exister certaines relations indiquant que la décision d'une étiquette (notée ls ∈ L ) a une influence sur la décision d'un autre label (noté le ∈ L ). Si nous traitons chaque étiquette comme un nœud et utilisons des bords dirigés pour lier des nœuds liés, par exemple, ls → le , alors un réseau dirigé reliant toutes les étiquettes peut être construit comme le montre la figure 1. Découvrir et incorporer de telles corrélations d'étiquettes peut aider à construire un meilleur modèle MLL.

Habituellement, il existe deux types de relations entre les étiquettes, à savoir une relation positive et une relation négative. La relation positive fait référence à la co-occurrence ou à la co-disparition d'étiquettes, comme le montre la figure 2(a), lorsque Rural apparaît dans une image, Village ou Paddy est également susceptible d'apparaître tandis que la relation négative fait référence aux relations mutuellement exclusives de comme le montre la figure 2(b), lorsque Rural apparaît, High building ou Technology est peu susceptible d'apparaître. Les relations positives et négatives sont utiles pour modéliser les corrélations d'étiquettes.

La chaîne de classification (CC) est une PTM qui essaie d'utiliser les corrélations d'étiquettes [22]. Similaire à BR, constructions CC | L | classificateurs binaires et chaque classificateur est chargé de prédire la pertinence d'une étiquette. Cependant, les classificateurs sont entraînés séquentiellement en suivant un ordre d'étiquettes prédéfini, et le vecteur de caractéristiques d'entrée pour une étiquette est étendu par les étiquettes ordonnées avant elle. Le problème clé de l'approche CC est de trouver l'ordre optimal des étiquettes. Si les prédécesseurs d'une étiquette lui sont fortement corrélés, alors les fonctionnalités étendues peuvent aider à améliorer les performances du classificateur correspondant, sinon non. L'approche CC originale détermine l'ordre des étiquettes de manière aléatoire, ce qui présente un risque de faible performance et de faible robustesse. Plus tard, de nombreuses variantes de la méthode CC ont été proposées, telles que le CC d'ensemble (ECC) [23], le CC double Monte Carlo (M2CC) [24], le CC sensible au groupe (GCC) [25], le CC amélioré avec k-means algorithme de clustering (km-CC) [26], et CC sensible aux coûts (CSCC) [27], etc. Ces méthodes peuvent aider à améliorer les performances de l'approche CC, mais la complexité temporelle est généralement élevée. En outre, la plupart d'entre eux analysent des corrélations d'étiquettes basées sur la cooccurrence, alors que les relations mutuellement exclusives sont négligées. En fonction de ces inconvénients, un modèle complet est souhaité pour l'analyse de corrélation d'étiquettes.

Le réseau bayésien (BN), connu sous le nom de graphe acyclique dirigé (DAG), est un modèle graphique probabiliste qui apprend les propriétés d'un ensemble de variables aléatoires et leurs distributions de probabilité conditionnelles [28]. En général, les nœuds de BN représentent des variables aléatoires et les arêtes reliant deux nœuds représentent les relations entre les variables. S'il n'y a pas de bord reliant deux nœuds, alors les deux variables aléatoires sont indépendantes l'une de l'autre. Inversement, si deux nœuds sont reliés par une arête, alors le parent nœud (c'est-à-dire le point de départ de l'arête) et le enfant nœud (c. En imposant une contrainte BN sur l'ordre aléatoire, une approche CC améliorée avec une structure arborescente a été proposée [29]. De plus, les classificateurs naïfs de Bayes augmentés par BN sont utilisés comme modèles de base pour l'approche CC [30]. Cependant, à notre connaissance, l'utilisation du modèle BN pour une analyse complète de la corrélation des étiquettes n'a pas encore été étudiée, ce qui sera l'objectif principal de cet article. En introduisant davantage une méthode de classement rapide des étiquettes, une nouvelle approche CC basée sur le BN (BNCC) est proposée. Les contributions de cet article sont répertoriées comme suit : •

L'entropie conditionnelle est utilisée pour modéliser le degré de dépendance d'une étiquette sur d'autres étiquettes, qui incorpore à la fois des relations positives et négatives. Un graphe cyclique dirigé entièrement connecté (DCG) est construit comme structure initiale, où les nœuds représentent les étiquettes et les poids des arêtes indiquent les degrés de dépendance entre les étiquettes connectées.

Un algorithme est proposé pour raffiner un DCG en DAG en cassant les cycles de manière itérative, ce qui garantit de générer une structure BN efficace. Nous proposons également d'utiliser un tri topologique sur les nœuds d'un DAG, afin d'obtenir un ordre d'étiquette efficace à partir d'une structure BN.

Une nouvelle fonction de scoring est proposée pour évaluer la qualité du BN, qui inclut le degré de dépendance calculé par l'entropie conditionnelle et un terme de pénalisation de la complexité. Étant donné que l'apprentissage du BN optimal est impossible à inférer, un algorithme heuristique est proposé pour obtenir des solutions approximatives basées sur la fonction de notation.

Nous effectuons des comparaisons expérimentales approfondies entre la méthode proposée et plusieurs approches MLL de pointe. Des études empiriques montrent que la méthode proposée peut générer un modèle CC efficace avec une complexité temporelle relativement faible à la fois dans la formation et les tests.

Le reste de cet article est organisé comme suit : dans la section 2, nous introduisons les connaissances de base et les travaux connexes dans la section 3, nous présentons notre méthode proposée dans la section 4, des comparaisons expérimentales approfondies sont menées pour montrer les avantages de la méthode proposée enfin, les conclusions sont données dans la section 5.


Résultats

Les calculs du taux de mutation pour le SRAS-CoV-2, basés sur le génome de référence de Wuhan, ont révélé que le changement de nucléotide par mois était de 1,7 (IC à 95 % 1,4-2,0), similaire à d'autres estimations 11, avec des substitutions se produisant à 0,9 × 10 - 3 (IC à 95 % 0,5–1,4 × 10 –3 ) substitutions par site et par an. Cela a permis de croire que le génome de référence était adéquat pour cette étude, nous avons donc procédé à la détermination de la dynamique de l'épidémie de la pandémie de COVID-19 en classant le statut de chaque pays en fonction du stade épicourbe avec un cadre d'étapes : (a) indice (b) décollage ( c) le déclin exponentiel (d) en tant que méthode claire qui peut être utilisée pour comparer les métriques qui permettent une intégration cohérente de R et de la mesure de la diversité du génome viral. Tout d'abord, R a été déterminé en utilisant la méthode instantanée avec deux intervalles de série différents—2 et 7 jours (tableau 1). Au 1er mars 2020, ce cadre définissait les épicourbes mondiales comme prenant de l'ampleur à l'échelle mondiale avec 52 pays au stade de l'indice. Trois pays étaient en phase exponentielle et cinq pays en phase de décollage (Fig. 1). La Chine était le seul pays à avoir atteint le sommet de l'épicourbe et se caractérisait par une phase de déclin. Aucune preuve d'un autre pays proche du stade de déclin, et certains pays étaient sur le point d'entrer dans la phase de décollage et exponentielle basée sur la seule épicourbe n'a été observée.

Distribution de la classification des pays basée sur le statut épicurve SARS-CoV-2.

Le R instantané décrit avec sensibilité les changements en temps réel de l'incidence capturés dans chaque étape de l'épicourbe (Fig. 2). Le stade de déclin en Chine s'est traduit par une diminution des estimations de R dans les derniers stades de l'épidémie et par rapport aux premières estimations : 1,6 (IC à 95 % 0,4-2,9) et 1,8 (IC à 95 % 1,0-2,7) pour 2 et 7 intervalle de série de -jours, respectivement. Les événements de superpropagation ont gonflé les estimations de R observées au stade exponentiel observé en Corée du Sud : 2,8 (IC à 95 % 0,6–5,3) et 25,6 (IC à 95 % 3,0–48,2) pour un intervalle de série de 2 et 7 jours, respectivement. Un contrôle distinctif de la maladie a été institué à Singapour lui permettant de rester au stade de l'indice tandis que le Japon se dirigeait vers le stade de décollage caractérisé par une augmentation des estimations de R 3,6 (IC à 95 % 0,4–7,3) 2,2 (IC à 95 % 1,3–3,0) pour 2- et Intervalle de série de 7 jours, respectivement. Les estimations R se chevauchaient pour tous les stades d'épidémie de pays exemplaires dans les deux scénarios d'intervalle en série, suggérant que la transmission pourrait être aussi courte que 2 jours. Ces estimations étaient relativement inférieures à celles signalées précédemment, mettant en lumière la possibilité de transmission pendant la période d'incubation associée à des épidémies en expansion rapide, qui était observée dans de nombreux pays européens à ce moment-là pendant la pandémie.

Estimations instantanées du nombre de reproducteurs pour différents stades de la courbe épidémique du SRAS-CoV-2 : une index (Singapour), b décollage (Japon), c exponentielle (Corée du Sud), déclin (Chine) dans un intervalle de série court (2 jours) et standard (7 jours). Le stade de décélération de la courbe épidémique aboutit à un nombre de reproduction inférieur à 2 pour les deux intervalles en série, la courbe épidémique avec des introductions multiples donne un intervalle en série de 2 jours avec un nombre de reproduction plus élevé et un intervalle en série exponentiel donne un nombre de reproduction plus élevé pour l'intervalle en série de 7 jours. La montée en flèche de la courbe épidémique de la Chine correspond à la modification de la définition du cas du SRAS-CoV-2 en élargissant les cas confirmés de pneumonie confirmée par une tomodensitométrie. Le nombre de reproduction plus élevé de la Corée du Sud est dû à une transmission cryptique associée à un culte secret avec un comportement de recherche de santé altéré.

Une faible détection des cas de COVID-19 a été observée dans des pays représentatifs au stade de l'indice avec des valeurs R < 2 qui ont été attribuées à une distanciation sociale efficace (c'est-à-dire Hong Kong) ou sous-détectée pour les pays avec des tests limités (c'est-à-dire les États-Unis) (Fig. 3 -indice). Une transmission locale soutenue s'est produite dans cinq pays qui progressaient dans la phase de décollage (Japon, Allemagne, Espagne, Koweït et France) par des valeurs R > 2 (Fig. 3 décollage). L'ampleur de la propagation était apparente avec des estimations de R relativement plus élevées (> 10) en Italie, en Iran et en Corée du Sud, qui ont démontré des augmentations soudaines de l'incidence dues à des grappes de cas non détectées auparavant (Fig. 3). Cela a considérablement augmenté les estimations instantanées de R par rapport à d'autres méthodes d'estimation, mais a permis une description plus évidente de la vague de cas qui a précisément différencié la phase de décollage de la phase exponentielle.

Estimations Epicurve avec différents intervalles de série. L'indice de panel représente les Epicurves et les valeurs R instantanées pour les pays au stade de l'indice en utilisant un intervalle de série de 2 et 7 jours. Décollage du panneau Dynamique globale du SARS-CoV-2 utilisant une estimation instantanée du nombre reproducteur avec un intervalle de série de 2 jours. Dans le scénario d'infectiosité de la période de préincubation, R > 2 en augmentation à l'échelle mondiale. Le R = 8 de l'Italie est le plus élevé en raison de la détection tardive des grappes d'infection. Cette estimation R plus élevée est due à une énorme augmentation des cas combinée à un écart diagnostique d'incidence de faible niveau. La même dynamique de poussée est observée en Corée du Sud. Dynamique globale du SARS-CoV-2 utilisant une estimation instantanée du nombre reproducteur avec un intervalle de 7 jours. La valeur R de l'Italie gonfle à 57 avec l'hypothèse de l'intervalle en série de 7 jours et chevauche le seuil inférieur de l'estimation du R de l'intervalle en série de 2 jours. Cette estimation dépeint une tendance décroissante pour les pays à introductions multiples comme Singapour, Hong Kong.

Nous avons également examiné l'association des estimations R instantanées spécifiques au pays en comparant différentes plages de températures locales (tropicales contre tempérées) et la densité de population de villes représentatives avec des épidémies. La plage de température et la densité de population les plus élevées ont été utilisées pour certains pays, mais aucun lien direct n'a été observé (tableau 2). L'augmentation des cas pour la Corée du Sud était largement associée à une épidémie parmi un groupe religieux secret Shinsheonji (73 % des cas de COVID-19 en Corée du Sud), situé principalement à Daegu avec une densité de population plus faible de 883/km 2 par rapport au reste de la zones avec une épidémie 25 et peut expliquer l'expansion de l'épidémie au début de l'épicourbe plutôt que la densité de population de la zone. Alors que la plupart des pays représentatifs (tableau 2) ont des températures plus fraîches (10 à 6 °C), les températures plus élevées de Singapour indiquent que la transmission locale s'est produite à des températures plus élevées et suggèrent que les changements de température ne modifieront probablement pas la transmission. La température et la densité de population n'expliquaient pas les changements de l'épicourbe. Cela nous a conduit à émettre l'hypothèse que la variation génomique virale sous-tendait les changements de l'épicourbe dans chaque pays.

Nous avons déterminé la relation entre le stade épicourbe et la variation génétique virale à l'aide d'une métrique qui fusionne la variation absolue du génome avec le taux de changement du génome pour créer le score GENI. Cette approche a ancré la diversité du génome viral avec le taux d'évolution du SRAS-CoV-2 pour créer un indice comparable entre les pays et la progression de l'épidémie. Pour examiner comment la diversité du génome viral était associée aux stades épicourbe, nous avons d'abord examiné le stade index (Singapour) et le stade exponentiel (Corée du Sud). L'intégration des scores GENI a réussi à distinguer les stades index et exponentiel (Fig. 4). Une augmentation du score GENI était associée au stade exponentiel à un score médian = 4, suggérant que la diversité virale et le taux de mutation étaient directement proportionnels aux augmentations de cas au cours de ce stade. Singapour (stade index) avait un score GENI = 2. Cela a été trouvé à plusieurs moments au cours de l'épidémie, où plusieurs événements de mutation étaient directement associés à une augmentation des cas. Alors que la Chine était en phase de déclin, l'association rétrospective avec R, les cas et le score GENI a fourni des preuves longitudinales d'expansions de cas multiples avec des événements de mutation virale. Cette observation était particulièrement claire au début de l'épicourbe et indiquait que le SRAS-CoV-2 circulait en Chine au moins 1 mois avant la déclaration officielle de l'épidémie (Fig. 4). La fusion de ces estimations a fourni la preuve que des mutations virales répétées indiquaient un changement dans l'épicourbe. Ces métriques ont été associées à chaque instant sur 3 mois, dans trois pays et à trois stades différents de l'épidémie. Cette découverte est utile pour intégrer la diversité du génome du virus et le taux d'évolution dans l'évaluation de l'état de l'épidémie. L'approche a reproduit avec succès l'observation du mouvement viral entre les pays et au sein d'un pays lorsque l'épicourbe a été combinée en une triade avec des estimations R instantanées. La proportionnalité des scores GENI avec le stade épicourbe indiquait le stade de l'épidémie ainsi que la détermination de l'état de l'épidémie (tableau 3).

Relation du score d'identité du génome pathogène (GENI) avec le signal temporel le long de la courbe épidémique. La transmission locale est capturée par la mutation virale telle qu'elle est exprimée dans les valeurs du score GENI. Les scores GENI des isolats du SRAS-CoV-2 sont relatifs à la souche de référence Wuhan Wuhan-Hu-1 NC_045512.2. La ligne rouge dans l'épicourbe chinoise représente le temps avant qu'une épidémie ne soit déterminée alors que les séquences du génome circulaient. Les courbes ombrées en bleu indiquent les scores GENE directement superposés à la courbe d'épidémie. La ligne pointillée représente le point commun dans le temps comme référence pour la visualisation. Le score GENI et l'épicourbe présentent une similitude, sauf en Chine, car l'épidémie a progressé jusqu'au décollage et le score GENI a augmenté de manière exponentielle tandis que dans l'exemple du stade index de Singapour, l'épidémie a été contenue et le score GENI est resté < 2.

Un examen plus approfondi de cette approche a été effectué à l'aide de génomes et de courbes épidémiologiques couplés à la variation du SNP, et non à la variation de la lignée, de février à avril 2020, qui ont capturé des poussées documentées d'épidémies alignées sur le score GENI et les nouvelles variantes SNP émergentes au Royaume-Uni. Cette analyse a conduit à une validation supplémentaire que la variation génomique se produisait même pendant le verrouillage qui visait à réduire l'épidémie et était prédictive de poussées récurrentes d'infections utilisant > 20 000 génomes (Fig. 5). Un faible nombre de nouveaux cas a été observé (fig. 5 encadré) était associé à un score GENI variable (février 2020). Alors que les cas augmentaient en avril 2020, le score GENI augmentait à un taux constant, indiquant que la variation génomique augmentait à mesure que les cas augmentaient. La mise en place d'un verrouillage gouvernemental visant à réduire l'exposition a entraîné des changements variables dans la courbe de l'épidémie, elle n'a eu aucun effet sur le score GENI, qui a continué d'augmenter, indiquant que lorsque l'exposition s'est produite, le virus était facilement capable d'infecter la personne. Cela suggère que les causes sous-jacentes des nouveaux cas ont deux composantes : la variation du génome viral (évolution) et l'exposition individuelle. Avec ce concept à l'esprit, il peut expliquer les événements de « super-propagation » basés sur l'évolution continue du génome pour maintenir ou étendre la gamme d'hôtes qui infectent facilement les personnes qui forment de grands groupes pour conduire rapidement à de nouveaux cas. La démonstration de cette observation répétée à l'aide d'une analyse longitudinale avec > 13 000 génomes et des centaines de cas apporte un soutien extrêmement solide à l'idée que la mesure de la diversité allélique est prédictive d'une transmission plus élevée et qu'elle sera observée lorsque les conditions appropriées dans de grands groupes ou l'exposition à l'aide de courbes épidémiques . Cependant, des travaux supplémentaires sont nécessaires pour indiquer spécifiquement les mutations exactes qui initieront de nouveaux cas plus rapidement, comme l'a démontré l'émergence de la lignée B.1.1.7 fin 2020 au Royaume-Uni et se propage rapidement dans le monde.

Le score GENI dérivé à l'aide de 20 000 13 419 séquences SARS-CoV-2 du Royaume-Uni (en haut) avec l'épicourbe correspondante. L'épicourbe en médaillon affiche le faible niveau de cas en février, indiquant que l'épidémie était dans la phase d'index. Un score GENI initial élevé suggère une transmission virale cryptique tandis qu'un score GENI constant indique une augmentation de la transmission à mesure que la pandémie progresse. Cela indique également que les mutations continues augmentent la diversification du génome viral. Alors que l'épicourbe variait après le verrouillage, le score GENI augmentait constamment, démontrant une production continue de variation génétique.

Cette étude a démontré un progrès dans l'utilisation de la génomique des populations en utilisant la variation SNP (c'est-à-dire la cause génétique sous-jacente des variantes émergentes) dans une maladie infectieuse, en particulier lorsque le taux de mutation est rapide et que la diversité génomique de la population est importante, comme le SRAS- CoV-2. Les scores GENI ont fourni un élément de preuve manquant qui définissait comment estimer les nouveaux cas environ 2 à 5 jours avant leur apparition. La précision de l'estimation du score GENI augmente avec l'analyse d'un grand nombre de génomes (c. Par conséquent, un cadre pour fusionner l'épidémiologie et la génomique des populations a été dérivé de cette étude en tant que méthode pour intégrer systématiquement l'épidémiologie moléculaire dans la santé publique (Fig. 6). Cela nécessitait des mesures dynamiques pour R et des efforts de surveillance pour déterminer le WGS pour chaque virus. Idéalement, chaque cas aurait plusieurs WGS au fur et à mesure que la maladie progressait, mais cela n'était pas disponible. L'utilisation de cette triade de mesures avec précision et rapidité a fourni un aperçu pour mesurer les progrès de l'épidémie, mais a également fourni une méthode fondée sur des preuves pour juger de l'efficacité de l'intervention.

Intégration de l'épidémiologie génomique et classique pour l'enquête sur les épidémies. Le fondement de l'épidémiologie est la notification précise et opportune des cas qui permet le calcul du nombre. Le score d'identité génomique (GENI) est formulé à partir de données génomiques d'agents pathogènes pour différencier les cas importés par rapport à la transmission locale et mesurer le temps de propagation cryptique. Ensemble, ces deux valeurs épidémiques fournissent des informations qui peuvent être directement utilisées pour établir des critères de décision pour une intervention de santé publique.


Optimisation de la concentration en Mg 2+

Le magnésium joue plusieurs rôles dans la PCR. C'est un contre-ion cationique divalent requis pour les dNTP et un cofacteur pour toutes les polymérases. Les cations divalents affectent fortement l'hybridation double brin de l'ADN. L'augmentation de la concentration en magnésium augmente la stabilité, ou la température de fusion, d'un duplex d'ADN. Il s'ensuit que des niveaux élevés de magnésium augmentent l'affinité des amorces envers l'hybridation, y compris les événements d'amorçage erroné et les interactions amorce-amorce. Les duplex d'ADN mal amorcés deviennent des substrats pour l'ADN polymérase, créant en fait des produits secondaires et sapant l'efficacité de la PCR. Par conséquent, la concentration de MgCl2 a un impact à la fois sur la spécificité et le rendement de la PCR car le magnésium affecte l'hybridation de l'amorce à la cible, la processivité de la Taq ADN polymérase, ainsi que la vitesse d'hydrolyse par la fraction exonucléase lorsqu'elle est utilisée pour le clivage de la sonde en qPCR. Par conséquent, MgCl insuffisant2 entraîne des rendements médiocres en raison du faible taux de polymérisation de l'ADN polymérase, d'une liaison à l'amorce compromise et d'un clivage inefficace de la sonde. Si la concentration de MgCl2 est trop élevée, la spécificité de la réaction sera compromise car cela conduira à une plus grande stabilité de l'hybridation des amorces non spécifiques.

Contrairement aux tests PCR conventionnels qui utilisent du MgCl standard de 1,5 à 2 mM2 concentrations, les tests qPCR avec sonde d'hydrolyse nécessitent des concentrations plus élevées d'environ 3 à 5 mM pour obtenir un clivage efficace de la sonde. La présence de MgCl2 augmente également le taux d'hybridation de l'ADN, permettant une hybridation efficace pendant les conditions de cyclage rapide utilisées par de nombreux instruments. Optimisation du MgCl2 les concentrations deviennent plus importantes lors de l'exécution de réactions multiplex.

Des sels tels que KCl ou (NH4)2DONC4, changera également l'ADN duplex Tm, mais l'effet est moins drastique pour ces cations monovalents.

Graphique 9.5. Effets de la concentration en magnésium.

Les effets, illustrés dans Graphique 9.5, sont agrandies lors de l'exécution d'une PCR multiplex. L'exécution simultanée de plusieurs réactions introduit une compétition pour les réactifs et exacerbe toutes les conditions sous-optimales, créant des changements majeurs dans l'efficacité de la PCR.

Taux de rampe

Il existe de rares occasions où une réaction difficile nécessite une modification supplémentaire. Lorsque toutes les autres options ont été épuisées, il peut être possible de récupérer une situation perdue par des tests empiriques et la modification du taux de rampe PCR.


MÉTHODOLOGIE

Système de référence de base

Le choix du référentiel de base est celui établi lors de la réunion de Tsukuba (13). Voir les travaux de Lu et Olson (25) pour une discussion complète de l'influence d'un tel choix. La position graphique de ce référentiel par rapport aux purines et pyrimidines standards se trouve dans la référence Tsukuba. Afin d'éviter d'avoir à donner le système de référence en coordonnées cartésiennes pour chaque base étalon, nous le calculons à partir des atomes de base choisis. Ce sont C1', N1(Y)/N9(R) et C2(Y)/C4(R) dans les bases standard (où Y est une pyrimidine et R est une purine). Les utilisateurs peuvent modifier ces atomes pour traiter des cas non standard. Par exemple, pour traiter la pseudouridine de base d'ARN qui est liée au squelette phosphodiester par l'intermédiaire de C5, les atomes équivalents seraient C1', C5 et C4.Pour être complet, nous présentons notre méthode de construction : il s'agit des atomes formant la liaison glycosidique entre chaque base et le squelette sucre-phosphate, N1-C1' pour les pyrimidines et N9-C1' pour les purines et le plan normal au plan moyen de la base (appelé bN au dessous de). La direction de la normale est donnée par le produit croisé (N1–C1') × (N1–C2) pour les pyrimidines et (N9–C1') × (N9–C4) pour les purines. Le point de référence de base (appelé bR ci-dessous) est obtenu en faisant tourner un vecteur de longueur (initialement aligné avec la direction N-C1') dans le sens des aiguilles d'une montre d'un angle ??1 autour du vecteur normal passant par l'atome N. Le vecteur suivant du système de référence, pointant vers le squelette phosphodiester joint à la base (appelé bL ci-dessous) est obtenu par une rotation similaire, mais en utilisant un vecteur unitaire et l'angle ??2. Le dernier vecteur du système de référence, pointant dans le grand sillon, b, est obtenu à partir du produit croisé bL × bN. Pour la convention de Tsukuba, ??1 = 141.47°, ??2 = −54,41° et = 4,702 Â. L'ancien programme Curves utilisait des valeurs de 132,19°, -54,51° et 4,503 Å, respectivement. L'impact majeur de ce changement est un mouvement du point de référence de la base vers le grand sillon, ce qui signifie que les valeurs Xdisp (mesurant le déplacement des bases ou des paires de bases le long de la pseudodyade par rapport à l'axe hélicoïdal) deviennent plus positives de 0,77 avec le nouveau système de référence. Il y a aussi un changement de glissière, qui est plus positif de 0,47 avec la nouvelle référence. Pour les comparaisons avec des résultats antérieurs, Curves+ permet à l'utilisateur de sélectionner éventuellement l'ancien système de référence.

Étant donné que les structures à faible résolution, ainsi que les instantanés des trajectoires MD, peuvent contenir des bases déformées, il est conseillé de commencer par ajuster par les moindres carrés ( 26) une géométrie de base standard aux atomes de la structure d'entrée avant de définir le système de référence de base. Curves+ fournit les géométries standard pour un certain nombre de bases d'ADN et d'ARN dans un fichier de données (standard_b.lib) qui peut être modifié et étendu par l'utilisateur. Seuls les atomes du cycle (plus le C1' lié) doivent être définis dans chaque cas. En utilisant ces données, Curves+ effectuera automatiquement des ajustements par moindres carrés sur les données d'entrée, mais cet ajustement peut être empêché par l'utilisateur s'il le souhaite.

Paramètres intra-paire de bases

Les paramètres intra-paire de base comprennent trois translations, cisaillement, étirement et décalage, et trois rotations, flambage, hélice et ouverture. Conformément à la convention de Tsukuba, les valeurs nulles de ces paramètres décrivent les paires de bases Watson-Crick canoniques et les valeurs non nulles décrivent les déformations par rapport à l'axe court des paires de bases, leur axe long et leur normale respectivement (voir Figure supplémentaire S1 ). Les paramètres sont calculés en déterminant la transformation de corps rigide qui mappe un système de référence de base sur l'autre. Pour la discussion d'approches similaires et des mathématiques sous-jacentes, voir les références (27-29). Cependant, pour tenir compte de la symétrie pseudodyadique des paires de bases Watson-Crick (impliquant une rotation de 180° autour du vecteur pseudodyadique aligné avec l'axe court des paires de bases et pointant dans les rainures de l'ADN), le système de référence de la deuxième base est le premier transformé en inversant le bL et bN vecteurs avant le calcul de la transformation en corps rigide. Dans le cas des paires Watson-Crick inversées, l'axe de la pseudodyade correspond à la paire de bases normale et l'inversion fait donc intervenir la b et bL vecteurs.

La transformation en corps rigide entre les bases de la paire de bases est définie de telle sorte qu'elle déplace le premier système de référence de base b1 sur le deuxième système (dyade inversée) b2 via un vecteur de traduction ??UNE = b2Rb1R combinée à une rotation d'un angle θUNE autour d'un vecteur d'axe unitaire UUNE. Il est commode d'exprimer ces vecteurs par rapport à des composants dans un système de référence moyen B associée à la paire de bases (notée par les vecteurs orthogonaux BL, B, BN et la pointe BR). Pour ce faire le plus symétriquement possible, on choisit un repère moyen qui est obtenu par rotation et translation du premier repère de base, mais maintenant par le demi-angle θUNE/2, autour du même vecteur d'axe UUNE, et avec la demi-traduction ??UNE/2.

Nous devons être en mesure d'extraire le vecteur d'axe de rotation unitaire UUNE et angle ??UNE de la connaissance des deux cadres b1 et b2 et, inversement, être capable de reconstruire une image à partir de l'autre compte tenu de l'axe de rotation et de l'angle de rotation.


7.4 Normalisation par spikes

La normalisation de pointe est basée sur l'hypothèse que la même quantité d'ARN de pointe a été ajoutée à chaque cellule (A. T. L. Lun et al. 2017) . Les différences systématiques dans la couverture des transcrits de pointe ne peuvent être dues qu'à des biais spécifiques aux cellules, par exemple, dans l'efficacité de capture ou la profondeur de séquençage. Pour supprimer ces biais, nous égalisons la couverture des pics entre les cellules en les mettant à l'échelle avec des « facteurs de taille des pics ». Par rapport aux méthodes précédentes, la normalisation de pointe ne nécessite aucune hypothèse sur la biologie du système (c'est-à-dire l'absence de nombreux gènes DE). Au lieu de cela, il suppose que les transcrits de pointe ont été (i) ajoutés à un niveau constant à chaque cellule, et (ii) répondent aux biais de la même manière relative que les gènes endogènes.

En pratique, la normalisation de pointe doit être utilisée si les différences dans la teneur totale en ARN des cellules individuelles présentent un intérêt et doivent être préservées dans les analyses en aval. Pour une cellule donnée, une augmentation de sa quantité globale d'ARN endogène n'augmentera pas son facteur de taille de pointe. Cela garantit que les effets de la teneur totale en ARN sur l'expression dans la population ne seront pas supprimés lors de la mise à l'échelle. Par comparaison, les autres méthodes de normalisation décrites ci-dessus interpréteront simplement tout changement de la teneur totale en ARN dans le cadre du biais et le supprimeront.

Nous démontrons l'utilisation de la normalisation de pointe sur un ensemble de données différent impliquant l'activation des cellules T après stimulation avec des ligands de récepteurs de cellules T d'affinité variable (Richard et al. 2018).

Nous appliquons la méthode computeSpikeFactors() pour estimer les facteurs de taille de pointe pour toutes les cellules. Ceci est défini en convertissant le nombre total de pics d'entrée par cellule en un facteur de taille, en utilisant le même raisonnement que dans librarySizeFactors() . La mise à l'échelle supprimera par la suite toutes les différences de couverture de pointes entre les cellules.

Nous observons une corrélation positive entre les facteurs de taille de pointe et les facteurs de taille de déconvolution dans chaque condition de traitement (figure 7.3), indiquant qu'ils capturent des biais techniques similaires dans la profondeur de séquençage et l'efficacité de capture. Cependant, nous observons également qu'une stimulation croissante du récepteur des cellules T - en termes d'affinité ou de temps croissant - entraîne une diminution des facteurs de pointe par rapport aux facteurs de taille de la bibliothèque. Ceci est cohérent avec une augmentation de l'activité biosynthétique et de la teneur totale en ARN pendant la stimulation, ce qui réduit la couverture relative des pics dans chaque bibliothèque (diminuant ainsi les facteurs de taille des pics) mais augmente la couverture des gènes endogènes (augmentant ainsi la taille de la bibliothèque les facteurs).

Figure 7.3 : Facteurs de taille issus de la normalisation des pointes, tracés par rapport aux facteurs de taille de la bibliothèque pour toutes les cellules de l'ensemble de données des cellules T. Chaque tracé représente un traitement de ligand différent et chaque point est une cellule colorée en fonction du temps écoulé depuis la stimulation.

Les différences entre ces deux ensembles de facteurs de taille ont de réelles conséquences pour l'interprétation en aval. Si les facteurs de taille de pointe étaient appliqués aux dénombrements, les valeurs d'expression dans les cellules non stimulées seraient augmentées tandis que l'expression dans les cellules stimulées serait réduite. Cependant, l'inverse se produirait si les facteurs de taille de déconvolution étaient utilisés. Cela peut se manifester par des changements dans l'amplitude et la direction de l'ED entre les conditions lorsque nous basculons entre les stratégies de normalisation, comme indiqué ci-dessous pour Malat1 (Figure 7.4).

Figure 7.4 : Distribution des valeurs d'expression log-normalisées pour Malat1 après normalisation avec les facteurs de taille de déconvolution (à gauche) ou les facteurs de taille de pointe (à droite). Les cellules sont stratifiées par l'affinité du ligand et colorées par le temps après la stimulation.

La pertinence ou non de la teneur totale en ARN – et donc le choix de la stratégie de normalisation – dépend de l'hypothèse biologique. Dans la plupart des cas, les changements dans la teneur totale en ARN ne sont pas intéressants et peuvent être normalisés en appliquant la taille de la bibliothèque ou les facteurs de déconvolution. Cependant, cela peut ne pas toujours être approprié si des différences dans l'ARN total sont associées à un processus biologique d'intérêt, par exemple, l'activité du cycle cellulaire ou l'activation des cellules T. La normalisation de pointe préservera ces différences de telle sorte que tout changement d'expression entre les groupes biologiques ait le bon signe.

Toutefois! Indépendamment du fait que nous nous soucions de la teneur totale en ARN, il est essentiel que les transcrits de pointe soient normalisés à l'aide des facteurs de taille de pointe. Les facteurs de taille calculés à partir du nombre de gènes endogènes ne doivent pas être appliqués aux transcrits de pointe, précisément parce que les premiers capturent des différences dans la teneur en ARN total qui ne sont pas ressenties par les seconds. Tenter de normaliser le nombre de pics avec les facteurs de taille basés sur les gènes entraînera une sur-normalisation et une quantification incorrecte. Ainsi, si des données de pointe normalisées sont requises, nous devons calculer un ensemble distinct de facteurs de taille pour les transcriptions de pointe, ce qui est automatiquement effectué par des fonctions telles que modelGeneVarWithSpikes() .


Analyse de modèle multivoxel pour les données d'IRMf : un examen

1 Laboratoire d'Informatique, Mathématique, Intelligence Artificielle et Reconnaissance de Formes (LIMIARF), Faculté des Sciences, Université Mohammed V-Agdal, 4 Avenue Ibn Battouta, BP 1014, Rabat, Maroc

2 Institut de Neurosciences de la Timone (INT), UMR 7289 CNRS, et Aix Marseille Université, 27 boulevard Jean Moulin, 13385 Marseille, France

3 Institut de Neurosciences des Systèmes (INS), UMR 1106 INSERM, et Faculté de Médecine, Aix Marseille Université, 27 boulevard Jean Moulin, 13005 Marseille, France

Résumé

L'imagerie par résonance magnétique fonctionnelle (IRMf) exploite les contrastes dépendants du niveau d'oxygène dans le sang (BOLD) pour cartographier l'activité neuronale associée à une variété de fonctions cérébrales, notamment le traitement sensoriel, le contrôle moteur et les fonctions cognitives et émotionnelles. L'approche du modèle linéaire général (GLM) est utilisée pour révéler les zones cérébrales liées aux tâches en recherchant des corrélations linéaires entre l'évolution temporelle de l'IRMf et un modèle de référence. L'une des limitations de l'approche GLM est l'hypothèse que la covariance entre les voxels voisins n'est pas informative sur la fonction cognitive examinée. L'analyse des modèles multivoxels (MVPA) représente une technique prometteuse qui est actuellement exploitée pour étudier les informations contenues dans les modèles distribués d'activité neuronale afin de déduire le rôle fonctionnel des zones et des réseaux du cerveau. La MVPA est considérée comme un problème de classification supervisée où un classificateur tente de capturer les relations entre le modèle spatial de l'activité IRMf et les conditions expérimentales. Dans cet article, nous passons en revue la MVPA et décrivons la base mathématique des algorithmes de classification utilisés pour décoder les signaux IRMf, tels que les machines à vecteurs de support (SVM). En outre, nous décrivons le flux de travail des étapes de traitement requises pour la MVPA, telles que la sélection des caractéristiques, la réduction de la dimensionnalité, la validation croisée et l'estimation des performances du classificateur sur la base des courbes de caractéristiques de fonctionnement du récepteur (ROC).

1. Inférence statistique classique dans la recherche en IRMf

L'imagerie par résonance magnétique fonctionnelle (IRMf) exploite les contrastes dépendant du niveau d'oxygène dans le sang (BOLD) pour cartographier l'activité neuronale associée à une variété de fonctions cérébrales, notamment le traitement sensoriel, le contrôle moteur et les fonctions cognitives et émotionnelles [1, 2]. Les changements de signal BOLD sont dus à des modulations hémodynamiques et métaboliques associées à l'activité neuronale. Les réponses BOLD reflètent principalement les entrées synaptiques pilotant les assemblages neuronaux, plutôt que leur activité de déclenchement de sortie [3]. Une base de données d'IRMf typique contient des cours de temps de signal BOLD enregistrés à plusieurs voxels dans le cerveau. Un voxel est un cuboïde rectangulaire tridimensionnel dont les dimensions sont de l'ordre du millimètre. Afin de cartographier les zones cérébrales impliquées dans une fonction cognitive donnée, le signal BOLD à chaque voxel est analysé [4]. L'inférence statistique est généralement effectuée en utilisant l'approche du modèle linéaire général (GLM) pour révéler les zones cérébrales liées à la tâche (ou « activées ») en recherchant des corrélations linéaires entre l'évolution temporelle de l'IRMf et un modèle de référence défini par l'expérimentateur [5-9 ]. L'analyse statistique est ensuite effectuée de manière itérative sur tous les voxels pour identifier les régions du cerveau dont les réponses BOLD présentent des effets statistiques significatifs. Cette approche est souvent appelée analyse basée sur un modèle de masse univariée, et elle représente l'étalon-or dans la recherche en IRMf. Cette approche souffre cependant de plusieurs limites. L'une des choses les plus convaincantes est l'hypothèse selon laquelle la covariance entre les voxels voisins n'est pas informative sur la fonction cognitive examinée. Nous passerons en revue les méthodes statistiques utilisées dans l'analyse GLM, puis présenterons comment les outils statistiques multivariés et sans modèle basés sur des méthodes d'apprentissage automatique surmontent ces limitations et fournissent une nouvelle approche dans la recherche en neuroimagerie.

1.1. L'approche GLM : analyse de masse univariée et basée sur un modèle des données d'IRMf

Le GLM est normalement exprimé en formulation matricielle par

est la variable dépendante et est un vecteur colonne contenant le signal BOLD à un seul voxel est le vecteur d'erreur dont les éléments sont des variables aléatoires normales indépendantes et identiquement distribuées avec une moyenne et une variance nulles

est le vecteur colonne des paramètres du modèle où est le nombre de paramètres du modèle est

matrice de conception qui est une description presque complète du modèle. Il contient des variables explicatives (une ligne par point temporel et une colonne par variable explicative) quantifiant la connaissance expérimentale du signal attendu.

Les estimations des paramètres du modèle que nous désignons par

sont obtenus en minimisant les différences au carré entre et le signal estimé

. La somme des carrés résiduelle

est la somme des différences au carré entre les valeurs réelles et ajustées et mesure ainsi l'ajustement du modèle avec ces estimations de paramètres. Les estimations des moindres carrés sont les valeurs qui minimisent . Ceci est obtenu lorsque

Afin de comparer les conditions expérimentales, T- ou FLes -statistiques permettent de tester une combinaison linéaire de -valeurs qui correspondent à des hypothèses nulles [10]. Par exemple, pour tester si l'activation en condition

est significativement différent de l'activation en condition

, un échantillon à deux t-test peut être utilisé. Dans ce cas, l'hypothèse nulle indiquerait que les -valeurs des deux conditions ne seraient pas différentes, c'est-à-dire

Pour généraliser cet argument, nous considérons les fonctions linéaires des estimations bêta :

sont les coefficients d'une fonction qui « contraste » avec les estimations bêta . Le vecteur est appelé le contraste vecteur. Avec cette définition, on peut alors écrire à l'aide d'un produit scalaire .

Pour tester si les combinaisons de conditions spécifiées dans diffèrent significativement de l'hypothèse nulle, le T-la statistique est calculée à chaque voxel comme

Les méthodes statistiques classiques, telles que F-test ou ANOVA (analyse de variance), sont des cas particuliers de l'analyse GLM et peuvent être utilisés pour effectuer une inférence statistique à chaque voxel. La carte paramétrique statistique (SPM) résultante résulte de tests d'hypothèses multiples (c'est-à-dire de tous les voxels). Classiquement, le niveau de signification est contrôlé pour les erreurs familiales en utilisant des procédures de comparaisons multiples appropriées (par exemple, la correction de Bonferroni). De plus, la théorie des champs aléatoires gaussiens (RFT) [11] est utilisée pour prendre en compte la régularité spatiale de la carte statistique. Au lieu d'attribuer une valeur à chaque voxel, des clusters de voxels sont créés sur la base d'un seuil initial, puis chaque cluster se voit attribuer une valeur [5, 12]. Les cartes statistiques seuillées qui en résultent affichent les régions du cerveau dont l'activité BOLD est en corrélation significative avec les fonctions cognitives étudiées (Figure 1).


1.2. La quête d'une analyse de données IRMf multivariée et sans modèle

L'une des limitations de l'approche de masse univariée GLM est l'hypothèse que la covariance entre les voxels voisins n'est pas informative sur la fonction cognitive examinée. Une telle covariance est considérée comme un bruit non corrélé et normalement réduit à l'aide de filtres spatiaux qui lissent les signaux BOLD à travers les voxels voisins. De plus, l'approche GLM est inévitablement limitée par le modèle utilisé pour l'inférence statistique.

Les méthodes d'IRMf multivariées et sans modèle représentent des techniques prometteuses pour surmonter ces limitations en étudiant le rôle fonctionnel des modèles distribués d'activité neuronale sans supposer un modèle spécifique. Les méthodes multivariées sans modèle sont basées sur des algorithmes d'apprentissage automatique et de reconnaissance de formes. De nos jours, l'analyse de modèle multivoxel (MVPA) est devenue une technique de pointe dans l'analyse des données de neuro-imagerie, et elle a été largement utilisée pour identifier les substrats neuronaux des fonctions cognitives allant de la perception visuelle au traitement de la mémoire [13-16].

L'objectif de cet article est de passer en revue le formalisme mathématique sous-jacent à la MVPA des données d'IRMf dans le cadre d'outils de classification supervisée. Nous passerons en revue les outils statistiques actuellement utilisés et présenterons les étapes nécessaires pour effectuer une analyse multivariée.

2. Analyse multivoxel IRMf en tant que problème de classification supervisée

L'analyse de modèle multi-voxels (MVPA) implique la recherche de modèles spatiaux d'activité hautement reproductibles qui se différencient dans les conditions expérimentales. La MVPA est donc considérée comme un problème de classification supervisée où un classificateur tente de capturer les relations entre les modèles spatiaux de l'activité IRMf et les conditions expérimentales [17].

Plus généralement, la classification consiste à déterminer une fonction de décision

qui prend les valeurs de diverses « caractéristiques » dans un « exemple » de données

et prédit la classe de cet « exemple ». « Caractéristiques » est un terme générique utilisé dans l'apprentissage automatique pour désigner l'ensemble de variables ou d'attributs décrivant un certain « exemple ». Dans le contexte de l'IRMf, un « exemple » peut représenter un essai donné dans la série expérimentale, et les « caractéristiques » peuvent représenter les signaux IRMf correspondants dans un groupe de voxels. Les conditions expérimentales peuvent représenter les différentes classes.

Pour obtenir la fonction de décision, les données (c'est-à-dire les exemples et les étiquettes de classe correspondantes) doivent être divisées en deux ensembles : « ensemble d'apprentissage » et « ensemble de test ». Le classificateur est entraîné à l'aide de l'ensemble d'entraînement. La formation consiste à modéliser la relation entre les caractéristiques et l'étiquette de classe en attribuant un poids

à chaque caractéristique. Ce poids correspond à la contribution relative de la caractéristique pour classer avec succès deux ou plusieurs classes. Lorsque plus de deux classes sont présentes dans la conception expérimentale, l'analyse peut être transformée en une combinaison de plusieurs problèmes à deux classes (c'est-à-dire, chaque classe contre toutes les autres). Le classificateur est ensuite évalué avec l'ensemble de test pour déterminer ses performances dans la capture de la relation entre les caractéristiques et les classes. Étant donné qu'il existe plusieurs possibilités de fractionnement des données (voir la section 4), on peut entraîner et tester de nombreux classificateurs et aboutir à un des performances maximales.

Les machines à vecteurs de support (SVM) [18, 19] sont récemment devenues populaires en tant que classificateurs supervisés de données d'IRMf en raison de leurs hautes performances, de leur capacité à traiter de grands ensembles de données de grande dimension et de leur flexibilité dans la modélisation de diverses sources de données [20– 22]. De plus, des bibliothèques standard implémentant des SVM sont disponibles telles que SVM-light [23], LIBSVM [24] et PyMVPA [25]. Nous allons donc revoir la base mathématique des SVM.

2.1. Base mathématique des machines à vecteurs de support
2.1.1. SVM linéaire

Dans la forme linéaire la plus simple des SVM pour deux classes, l'objectif est d'estimer une frontière de décision (un hyperplan) qui sépare avec une marge maximale un ensemble d'exemples positifs d'un ensemble d'exemples négatifs (Figure 2). Chaque exemple est un vecteur d'entrée ( ) ayant

) et est associé à l'une des deux classes ou . Par exemple, dans la recherche en IRMf, les vecteurs de données contiennent des valeurs GRAS à des moments précis (ou des moyennes de moments temporels) au cours de l'expérience, et les caractéristiques peuvent être un ensemble de voxels extraits à chaque moment indiquant la condition et indiquant la condition B.


(une)
(b)
(une)
(b) Illustration spatiale 2D de la limite de décision du classificateur linéaire de la machine à vecteurs de support (SVM). (a) la marge dure sur les exemples linéairement séparables où aucune erreur de formation n'est autorisée. (b) la marge souple où deux erreurs d'apprentissage sont introduites pour rendre les données non linéairement séparables. Les exemples en pointillés sont appelés vecteurs de support (ils déterminent la marge par laquelle les deux classes sont séparées).

Si nous supposons que les données sont linéairement séparables, ce qui signifie que nous pouvons tracer une ligne sur un graphique de la caractéristique par rapport à la caractéristique séparant les deux classes quand et un hyperplan sur les graphiques de quand

, le SVM produit la fonction discriminante avec la plus grande marge possible :

est le vecteur de poids normal de l'hyperplan de séparation, est appelé le "biais", et il traduit l'hyperplan loin de l'origine de l'espace des caractéristiques, et est le produit interne :

SVM tente de trouver l'hyperplan optimal qui maximise l'amplitude de la marge

, c'est-à-dire qu'il trouve et en résolvant les primitif problème d'optimisation :

Cependant, dans la pratique, les données ne sont pas souvent linéairement séparables. Pour autoriser les erreurs d'apprentissage, puis augmenter les performances du classificateur, les variables d'écart

Lorsque , , (c'est-à-dire (7)), la marge est la largeur de l'écart entre les classes n'autorisant aucune erreur d'apprentissage, et elle est appelée « marge dure ».

signifie que les exemples d'apprentissage correspondants peuvent être à l'intérieur de l'espace défini par l'hyperplan et la marge. permet à certains exemples de formation d'être mal classés. Dans un tel cas, la marge est appelée « marge souple » (Figure 2).

Pour contrôler le compromis entre la complexité de l'hyperplan et les erreurs d'entraînement, un facteur de pénalité

est introduit. Les primitif problème d'optimisation devient

Des valeurs élevées obligent les variables de marge à être plus petites, se rapprochant du comportement de la SVM à marge dure ( ). La figure 3 montre l'effet de sur la limite de décision. Large ne permet aucune erreur d'apprentissage. Petit ( ) permet cependant quelques erreurs d'apprentissage. Dans cette figure, est généralement préféré car il représente un compromis entre les performances acceptables du classificateur et la généralisation à des exemples invisibles (c'est-à-dire le surajustement).


sur la frontière de décision. La ligne continue (

) autorise certaines erreurs d'apprentissage (l'exemple en rouge en haut à gauche est mal classé). La ligne pointillée (

) n'autorise aucune erreur d'apprentissage. Même si le

Pour résoudre le mentionné primitif problème d'optimisation où une fonction doit être minimisée sous réserve de contraintes extérieures fixes, la méthode des multiplicateurs de Lagrange est utilisée. Cette méthode fournit une stratégie pour trouver les maxima et minima locaux d'une fonction soumise à des contraintes d'égalité. Ceux-ci sont inclus dans l'objectif de minimisation, et les multiplicateurs de Lagrange permettent de quantifier à quel point ils doivent être accentués (voir, par exemple, [26] pour plus de détails).

être deux multiplicateurs de Lagrange. On dérive ce que l'on appelle double problème en utilisant le lagrangien suivant

du primitif problème :

Le lagrangien doit être minimisé par rapport à , , et sous les contraintes , , et . Par conséquent, les dérivées de par rapport à ces variables doivent disparaître :

En remplaçant les résultats ci-dessus sous la forme de Lagrange, nous obtenons ce qui suit :

D'après la théorie de Lagrange, pour obtenir l'optimum, il suffit de maximiser par rapport à , :

Car ce double problème a une forme quadratique, la solution peut être trouvée de manière itérative par programmation quadratique (QP), optimisation minimale séquentielle (SMO) ou par moindres carrés (LS). Cette solution a la propriété d'être une combinaison linéaire de quelques exemples d'apprentissage : La caractéristique clé de cette équation est que pour tous, sauf ceux qui sont à l'intérieur de la marge. Ceux-ci sont appelés les vecteurs de soutien. Ils se situent le plus près de la limite de décision et déterminent la marge. Notez que si tout vecteurs de non-support ont été supprimés, le même hyperplan de marge maximale serait trouvé.

En pratique, la plupart des expérimentateurs en IRMf utilisent des SVM linéaires car ils produisent des limites linéaires dans l'espace des caractéristiques d'origine, ce qui rend l'interprétation de leurs résultats simple. En effet dans ce cas, l'examen des cartes de poids permet directement d'identifier les caractéristiques les plus discriminantes [27].

2.1.2. SVM non linéaire

Les SVM non linéaires sont souvent utilisées pour des problèmes de discrimination lorsque les données sont séparables de manière non linéaire. Les vecteurs sont mappés sur un espace de caractéristiques de grande dimension à l'aide d'une fonction

Dans les SVM non linéaires, la fonction de décision sera basée sur l'hyperplan :

Un outil mathématique appelé « astuce du noyau » peut être appliqué à cette équation qui dépend uniquement du produit scalaire entre deux vecteurs. Il permet d'écrire un opérateur non linéaire comme un opérateur linéaire dans un espace de dimension supérieure. En pratique, le produit scalaire est remplacé par une « fonction noyau »

qui n'a pas besoin d'être explicitement calculé en réduisant le problème d'optimisation au cas linéaire :

Plusieurs types de noyaux peuvent être utilisés dans les modèles SVM. Les noyaux les plus courants sont les noyaux polynomiaux et les fonctions de base radiale (RBF).

Le noyau polynomial est défini par

Les paramètres et sont définis pour contrôler la courbure de la frontière de décision. La figure 4 montre la frontière de décision avec deux valeurs différentes de et . Notons que le cas avec et est un noyau linéaire.


(une)
(b)
(une)
(b)

Le noyau de la fonction de base radiale (RBF) est défini par

où est un hyperparamètre. Une grande valeur correspond à une grande largeur de noyau. Ce paramètre contrôle la flexibilité du classificateur résultant (Figure 5).


(une)
(b)
(une)
(b)

Dans le domaine IRMf, bien que les transformations non linéaires offrent parfois des performances de prédiction plus élevées, leur utilisation limite l'interprétation des résultats lorsque les poids des caractéristiques sont reconvertis dans l'espace d'entrée [28].

2.2. Comparaison des classificateurs et des stratégies de prétraitement

Bien que les SVM soient efficaces pour traiter de grands ensembles de données de grande dimension, ils sont, comme de nombreux autres classificateurs, affectés par des étapes de prétraitement telles que le lissage spatial, la suppression de tendance temporelle et la correction de mouvement. LaConté et al. [27] ont comparé les SVM à l'analyse variable canonique (CVA) et examiné leur sensibilité relative par rapport à dix combinaisons d'étapes de pré-traitement. L'étude a montré que pour la SVM et la CVA, la classification d'échantillons temporels individuels de données cérébrales entières peut être effectuée sans moyenne entre les scans. Ku et al. [29] ont comparé quatre méthodes de reconnaissance de formes (SVM, discriminant linéaire de Fisher (FLD), analyse de corrélation (CA) et bayes naïfs gaussiens (GNB)) et ont constaté que les performances du classificateur peuvent être améliorées grâce à l'élimination des valeurs aberrantes. Misaki et al. [30] ont comparé six classificateurs tentant de décoder des stimuli à partir de modèles de réponse : corrélation de modèle, k plus proches voisins (KNN), FLD, GNB et SVM linéaire et non linéaire. Les résultats suggèrent que la normalisation de la moyenne et de l'écart type des schémas de réponse entre les stimuli ou entre les voxels n'a eu aucun effet significatif.

D'autre part, les performances du classificateur peuvent être améliorées en réduisant la dimensionnalité des données ou en sélectionnant un ensemble de caractéristiques discriminantes. Il a été constaté que les performances de décodage augmentaient en appliquant une réduction de dimensionnalité à l'aide de l'algorithme d'élimination des caractéristiques récursives (RFE) [31] ou après sélection de voxels indépendants avec la réactivité globale la plus élevée, en utilisant une connaissance a priori des mesures GLM [29]. Cependant, LaConte et al. [27] ont montré que la classification des données du cerveau entier peut être effectuée sans sélection préalable de caractéristiques, tandis que Mourão-Miranda et al. [32] ont constaté que la SVM était plus précise que la FLD lors de la classification des états cérébraux sans sélection préalable de caractéristiques spatiales. Schmah et al. [33] ont comparé, en termes de performances, un ensemble de méthodes de classification (FLD adaptatif, discriminant quadratique adaptatif (QD), GNB, SVM linéaire et non linéaire, régression logistique (LR), machines de Boltzmann restreintes (RBM) et KNN) appliquées aux volumes d'IRMf sans réduire la dimensionnalité et a montré que la performance relative variait considérablement selon les sujets et les tâches de classification.

D'autres études ont tenté de comparer les classificateurs en termes de performances ou de temps d'exécution. Cox et Savoy [14] ont étudié le discriminant linéaire (LD) et les SVM pour classer les modèles d'activation de l'IRMf évoqués par la présentation visuelle de diverses catégories d'objets. La précision du classificateur s'est avérée significative pour les SVM linéaires et polynomiales par rapport au classificateur LD. Pereira et Botvinick [34] ont constaté que le classificateur GNB est un choix raisonnable pour une cartographie rapide, LD est probablement préférable si plus de temps est donné, et SVM linéaire peut atteindre le même niveau de performance si les paramètres du classificateur sont bien définis à l'aide de la validation croisée. (voir chapitre 4).

3. Sélection des fonctionnalités et réduction de la dimensionnalité

Lorsqu'il s'agit d'une analyse univariée à sujet unique, des caractéristiques peuvent être créées à partir des cartes estimées à l'aide d'un GLM. Une caractéristique typique consistera en le modèle de valeurs à travers les voxels. L'analyse est normalement effectuée sur des données spatialement non lissées pour préserver des informations spécifiques au sujet à grain fin [35]. Dans un tel cas, les caractéristiques sont simplement les voxels. D'autres auteurs recommandent d'appliquer un lissage spatial [36]. Cette idée est très débattue dans la littérature IRMf [30, 37] (voir aussi Section 2.2). Dans les deux cas, l'espace des caractéristiques peut toujours être considéré comme de grande dimension lorsque tous les voxels cérébraux (ou au moins des régions d'intérêt trop grandes) sont utilisés. Par conséquent, la dimensionnalité des données doit être considérablement réduite et les caractéristiques informatives (voxels) doivent être judicieusement sélectionnées afin de rendre la tâche de classification réalisable. Lorsque de petites régions d'intérêt sont utilisées, il n'est généralement pas nécessaire de réduire la dimensionnalité (voir la section 3.1 suivante).

Plusieurs études ont démontré la pertinence de la sélection des caractéristiques. Pearson et Kendall

coefficient de corrélation de rang ont été utilisés pour évaluer les éléments de la matrice de connectivité fonctionnelle entre chaque paire de régions cérébrales en tant que caractéristiques de classification [38], tandis que la fiabilité des voxels et les métriques d'information mutuelle ont été comparées pour identifier des sous-ensembles de voxels dans les données d'IRMf qui distinguent de manière optimale identité d'objet [39]. Åberg et Wessberg [40] ont exploré l'efficacité des algorithmes évolutionnaires pour déterminer un nombre limité de voxels qui discriminent de manière optimale entre des volumes uniques d'IRMf. La méthode est basée sur un simple classificateur de régression linéaire multiple en conjonction avec aussi peu que cinq voxels sélectionnés qui surpassent la sélection de caractéristiques basée sur la cartographie paramétrique statistique (SPM) [41].

Plus récemment, de nouvelles techniques ont été développées pour trouver des caractéristiques informatives tout en ignorant les sources de bruit non informatives, telles que l'analyse en composantes principales (ACP) et l'analyse en composantes indépendantes (ICA) [42, 43]. De telles méthodes fonctionnent bien lorsqu'il s'agit d'une analyse à sujet unique. Récemment, des tentatives ont été faites pour étendre ces méthodes à l'analyse au niveau du groupe en développant des approches ICA de groupe pour extraire des composants indépendants de l'analyse des données de groupe du sujet [44, 45].

Il convient de mentionner que la sélection des caractéristiques peut être améliorée par l'utilisation de la validation croisée (voir Section 4). Le meilleur classificateur n'inclura généralement qu'un sous-ensemble de caractéristiques considérées comme véritablement informatives. En fait, les classificateurs SVM peuvent également être utilisés pour effectuer une sélection de fonctionnalités. Pour ce faire, Martino et al. [31] ont développé l'algorithme d'élimination de caractéristiques récursives (RFE) qui élimine de manière itérative les caractéristiques les moins discriminantes sur la base d'informations multivariées détectées par le classifieur. Pour chaque niveau de sélection de voxel, le RFE se compose de deux étapes. Tout d'abord, un classificateur SVM est entraîné sur un sous-ensemble de données d'entraînement à l'aide de l'ensemble actuel de voxels. Deuxièmement, un ensemble de voxels est rejeté en fonction de leurs poids discriminants estimés lors de l'entraînement. Les données utilisées comme test sont classées et les performances de généralisation sont évaluées à chaque itération. La RFE a été récemment utilisée pour l'analyse des données d'IRMf et s'est avérée améliorer les performances de généralisation dans la discrimination des stimuli visuels au cours de deux tâches différentes [31, 46].

3.1. Régions d'intérêt (ROI) : analyse des projecteurs

Des méthodes de classification multivariées sont utilisées pour identifier si les signaux IRMf d'un ensemble donné de voxels contiennent un modèle d'activité dissociable selon la manipulation expérimentale. Une option consiste à analyser le modèle d'activité dans tous les voxels du cerveau. Dans un tel cas, le nombre de voxels dépasse le nombre de modèles d'apprentissage, ce qui rend la classification coûteuse en temps de calcul.

Une approche typique consiste à faire des hypothèses sur les régions anatomiques d'intérêt (ROI) suspectées d'être corrélées à la tâche [14, 47, 48]. Dans de tels cas, la ROI représentera des ensembles de voxels spatialement contigus, mais pas nécessairement adjacents.

Une alternative consiste à sélectionner moins de voxels (par exemple, ceux dans une sphère centrée sur un voxel) et à répéter l'analyse à tous les voxels du cerveau. Cette méthode a été introduite par Kriegeskorte et al. [49], et il a été nommé « projecteur ». Il produit une carte d'informations multivariée où chaque voxel se voit attribuer la performance du classificateur. En d'autres termes, la méthode du projecteur note un voxel en fonction de la précision avec laquelle le classificateur peut prédire une condition de chaque exemple sur l'ensemble d'apprentissage, sur la base des données du voxel et de ses voisins immédiatement adjacents. La figure 6 montre une illustration 2D de la méthode du projecteur appliquée à 120 cartes simulées de 10 × 10 pixels. Les pixels des conditions sont des nombres aléatoires et les pixels des conditions sont construits à partir de ceux de sauf dans certains modèles où une valeur de 1 est ajoutée. Nous avons utilisé quatre séries où chaque série contient 30 exemples (15 pour la condition et 15 pour la condition ).


pixels. Pour chaque pixel de la carte d'activité, 5 voisins (un projecteur) sont extraits pour former un vecteur de caractéristiques. Projecteurs extraits des cartes d'activité de chaque condition (

) forment alors les exemples d'entrée. Un classificateur est entraîné à l'aide d'exemples d'apprentissage (correspondant aux 3 premiers passages) et testé à l'aide des exemples du quatrième passage. La procédure est ensuite répétée le long des cartes d'activité pour chaque pixel pour produire enfin une carte de performance qui montre à quel point le signal dans les voisinages locaux différencie les conditions expérimentales

Plus récemment, Björnsdotter et al. [50] ont proposé une approximation Monte Carlo du projecteur conçue pour une cartographie rapide de l'ensemble du cerveau. Une itération de l'algorithme consiste à diviser aléatoirement le volume du cerveau en un certain nombre de clusters (sphères de recherche) de telle sorte que chaque voxel soit inclus dans un (et un seul) cluster, et une performance de classificateur est calculée pour celui-ci. Ainsi, une performance moyenne sur toutes les constellations auxquelles le voxel a participé est attribuée à ce voxel (par opposition au projecteur où chaque voxel se voit attribuer la valeur calculée lorsque la sphère était centrée sur lui) (Figure 7).


Illustration de la méthode de cartographie cérébrale Monte Carlo IRMf dans un voxel (en noir). Au lieu de centrer le volume de recherche (cercle en pointillés) sur le voxel comme dans la méthode du projecteur et de calculer une seule performance pour celui-ci, ici le voxel est inclus dans cinq constellations différentes avec d'autres voxels voisins (gris foncé). Dans chaque constellation, une performance de classification est calculée pour celle-ci. En fin de compte, la performance moyenne sur toutes les constellations est attribuée au voxel sombre.

4. Estimation des performances et validation croisée

Pour garantir des tests non biaisés, les données doivent être divisées en deux ensembles : un ensemble d'apprentissage et un ensemble de test.De plus : il est généralement recommandé de choisir un ensemble d'apprentissage plus grand afin d'améliorer la convergence des classificateurs. En effet, les performances du classificateur appris dépendent de la façon dont les données d'origine sont partitionnées en ensembles d'apprentissage et de test, et, surtout, de leur taille. En d'autres termes, plus nous laissons d'instances pour le test, moins il reste d'échantillons pour l'apprentissage, et donc moins le classificateur devient précis. D'un autre côté, un classificateur qui explique bien un ensemble de données ne se généralise pas nécessairement à d'autres ensembles de données même si les données sont tirées de la même distribution. En fait, un classificateur excessivement complexe aura tendance à surdimensionner (c'est-à-dire qu'il ne réussira pas à généraliser à des exemples invisibles). Cela peut se produire, par exemple, lorsque le nombre de caractéristiques est trop grand par rapport au nombre d'exemples (c'est-à-dire,

). Cette problématique est connue sous le nom de « malédiction de la dimensionnalité » [51]. Une façon de surmonter ce problème est l'utilisation de la « validation croisée ». Cette procédure permet une évaluation efficace des performances du classificateur [52–54]. L'objectif est d'identifier les meilleurs paramètres pour le classificateur (par exemple, les paramètres , , et ) qui peuvent prédire avec précision des données inconnues (Figure 8). Par validation croisée, le même ensemble de données peut être utilisé à la fois pour l'apprentissage et le test du classifieur, augmentant ainsi le nombre d'exemples avec le même nombre de fonctionnalités .


(une)
(b)
(une)
(b) Précision moyenne après validation croisée de 4 fois pour classer les données présentées dans la figure 3. Les paramètres montrant la meilleure précision sont

pour le noyau polynomial et

4.1. Validation croisée N-Fold

Dans la validation croisée -fold, les données d'origine sont partitionnées de manière aléatoire en sous-échantillons. Parmi les sous-échantillons, un seul sous-échantillon est retenu pour valider le modèle, et les sous-échantillons restants sont utilisés comme données d'apprentissage. La procédure de validation croisée est ensuite répétée plusieurs fois, chacun des sous-échantillons étant utilisé pour le test. Les résultats peuvent être moyennés (ou combinés d'une autre manière) pour produire une estimation de performance unique. Deux schémas de validation croisée sont utilisés pour l'APMV à sujet unique (Figure 9). La première est la validation croisée Leave-one-run-out (LORO-CV). Dans cette procédure, les données d'une exécution fournissent les échantillons de test, et les exécutions restantes fournissent les échantillons d'apprentissage. La seconde est la validation croisée par un seul échantillon (LOSO-CV) dans laquelle un échantillon est prélevé dans chaque classe en tant qu'échantillon de test, et tous les échantillons restants sont utilisés pour l'apprentissage du classificateur. Les échantillons sont sélectionnés au hasard de telle sorte que chaque échantillon apparaisse au moins une fois dans l'ensemble de test. LOSO-CV produit des performances plus élevées que le LORO-CV mais est plus coûteux en calcul en raison d'un plus grand nombre de processus d'apprentissage [30].


Validation croisée Leave-one-run-out (LORO-CV) et validation croisée Leave-un-sample-out (LOSO-CV). Un classificateur est entraîné à l'aide d'un ensemble d'apprentissage (en bleu), puis testé à l'aide de l'ensemble de test (en rouge) pour obtenir une performance. Cette procédure est répétée pour chaque analyse dans LORO-CV et pour chaque échantillon dans LOSO-CV pour obtenir à la fin une performance moyenne.
4.2. Performances du classificateur

Les algorithmes d'apprentissage automatique sont livrés avec plusieurs paramètres qui peuvent modifier leurs comportements et leurs performances. L'évaluation d'un modèle appris est traditionnellement effectuée en maximisant une métrique de précision. Considérant un problème de classification de base à deux classes, soit

être les vraies étiquettes de classe positives et négatives, et laisser être les étiquettes de classe positives et négatives prédites. Ensuite, une représentation des performances de classification peut être formulée par un confusion matrice (tableau de contingence), comme illustré à la figure 10. Étant donné un classificateur et un exemple, il y a quatre résultats possibles. Si l'exemple est positif et qu'il est classé comme positif, il est compté comme un vrai positif (TP) s'il est classé comme négatif, il est compté comme un faux négatif (FN). Si l'exemple est négatif et qu'il est classé comme négatif, il est compté comme un vrai négatif (TN) s'il est classé comme positif, il est compté comme un faux positif (FP). Suivant cette convention, la métrique de précision est définie comme

où et sont respectivement le nombre d'exemples positifs et négatifs (

). Cependant, la précision peut être trompeuse dans certaines situations et est très sensible aux changements de données. Autrement dit, en présence de déséquilibré ensembles de données (c'est-à-dire où ), il devient difficile de faire une analyse relative lorsque la métrique d'évaluation est sensible aux distributions de données. Dans les tâches d'IRMf, les conceptions expérimentales sont souvent équilibré (même fraction de conditions de chaque type dans chaque exécution), mais il y a des cas où elles sont déséquilibré. De plus, toute utilisation d'une procédure de validation croisée aléatoire pour évaluer un classificateur peut entraîner des ensembles de données à déséquilibrer.


4.2.1. Courbe des caractéristiques de fonctionnement du récepteur (ROC)

Les métriques extraites de la courbe des caractéristiques de fonctionnement du récepteur (ROC) peuvent être une bonne alternative pour l'évaluation du modèle, car elles permettent de dissocier les erreurs sur des exemples positifs ou négatifs. La courbe ROC est formée en traçant le taux de vrais positifs (TPR) sur le taux de faux positifs (FPR) défini à la fois à partir du confusion matrice par

dans l'espace ROC correspond aux performances d'un seul classifieur sur une distribution donnée. L'espace ROC est utile car il fournit une représentation visuelle des compromis relatifs entre les avantages (reflétés par ) et les coûts (reflétés par ) de la classification en ce qui concerne les distributions de données.

Généralement, la sortie du classificateur est une valeur numérique continue. La règle de décision est exécutée en sélectionnant un seuil de décision qui sépare les classes positives et négatives. La plupart du temps, ce seuil est fixé quelle que soit la distribution de classe des données. Cependant, étant donné que le seuil optimal pour une distribution de classe peut varier sur une large gamme de valeurs, un couple (FPR TPR) est ainsi obtenu à chaque valeur de seuil. Ainsi, en faisant varier cette valeur seuil, une courbe ROC est produite.

La figure 11 illustre un graphique ROC typique avec les points A, B et C représentant des points et des courbes ROC et représentant des courbes ROC. D'après la structure du graphe ROC, le point A (0,1) représente une classification parfaite. D'une manière générale, un classificateur est meilleur qu'un autre si son point correspondant dans l'espace ROC est plus proche du coin supérieur gauche. Tout classificateur dont le point ROC correspondant est situé sur la diagonale, tel que le point B, est représentatif d'un classificateur qui fournira une estimation aléatoire des étiquettes de classe (c'est-à-dire un classificateur aléatoire). Par conséquent, tout classificateur qui apparaît dans le triangle inférieur droit de l'espace ROC fonctionne moins bien qu'une estimation aléatoire, comme le classificateur associé au point C dans la zone ombrée.


Afin d'évaluer les performances des différents classificateurs, on utilise généralement l'aire sous la courbe ROC (AUC) comme critère d'évaluation [55]. Par exemple, sur la figure 11, la courbe fournit une mesure d'AUC plus grande par rapport à celle de donc, le classificateur correspondant associé à fournit de meilleures performances par rapport au classificateur associé à . L'AUC a une propriété statistique importante : elle est équivalente à la probabilité que le classificateur évalue un exemple positif choisi au hasard plus élevé qu'un exemple négatif choisi au hasard. Smith et Nichols [56] ont montré que l'AUC est une meilleure mesure de la performance du classificateur que la mesure de la précision.

Le traitement de l'AUC nécessiterait le calcul d'une intégrale dans le cas continu cependant, dans le cas discret, l'aire est donnée par [57]

où est la fonction de décision du classifieur discret, et , respectivement, désignent les exemples positifs et négatifs, et

est défini comme étant 1 si le prédicat est vérifié et 0 sinon. Cette équation indique que si un classificateur est tel que , alors l'AUC de ce classificateur est maximale. Tout exemple négatif qui se trouve être classé plus haut que les exemples positifs fait diminuer l'AUC.

4.2.2. Un exemple de courbe ROC appliquée au classificateur SVM

Les SVM peuvent être utilisés comme classificateurs qui génèrent une valeur numérique continue afin de tracer la courbe ROC. En fait, dans les implémentations SVM standard, la sortie continue d'un exemple de test (c'est-à-dire ) est généralement introduite dans une fonction de signe : si

, l'exemple est considéré comme positif et inversement si , est considéré comme négatif (comme si un seuil est figé à et est positif si , et est négatif si

). Dans ce cas, une seule paire de FPR TPR est obtenue. Ainsi, si l'on pouvait faire varier le seuil dans une plage entre le maximum et le minimum de toutes les sorties de l'ensemble de test (min( ) max()), la courbe ROC pourrait être obtenue. L'algorithme suivra donc les étapes suivantes. (je)

. Calculez le vecteur de sortie pour tous les exemples de l'ensemble de test. (ii) . Pour chaque valeur d'un seuil entre le minimum et le maximum de , (a) Étape 2.1. calculer et attribuer des exemples aux classes correspondantes (b) Étape 2.2. tracer le point correspondant (FPR TPR).

Nous avons effectué cette procédure sur les données simulées utilisées pour l'analyse du projecteur. Cependant, les données étaient déséquilibrées afin de montrer l'effet de seuil (nous avons utilisé quatre séries contenant chacune 30 exemples, 10 pour la condition et 20 pour la condition ). La figure 12 montre les courbes ROC correspondant à différents voxels. L'aire sous la courbe ROC est calculée pour tous les voxels donnant la carte AUC de la figure 12.


(une)
(b)
(une)
(b) Analyse ROC de déséquilibré données simulées. Les données de la figure 6 étaient déséquilibré afin de montrer l'effet de seuil. (a) Courbes ROC correspondant à certaines coordonnées (voxels) indiquées dans des cercles colorés sur la carte AUC en (b).

Un dernier point à mentionner est que la performance du classificateur mesure sa capacité à généraliser à des données invisibles en supposant que les exemples d'apprentissage et de test sont tirés de la même distribution. Cependant, cette hypothèse pourrait être violée lors de l'utilisation de la validation croisée [34]. Une alternative pourrait être l'utilisation de stratégies bayésiennes pour la sélection de modèles étant donné leur efficacité à la fois en termes de complexité de calcul et en termes de degrés de liberté disponibles [58].

4.2.3. Analyse de test de permutation non paramétrique

L'analyse des tests de permutation non paramétrique a été introduite dans les études de neuroimagerie fonctionnelle pour fournir une méthodologie flexible et intuitive permettant de vérifier la validité des résultats de la classification [59, 60]. La significativité d'une statistique exprimant l'effet expérimental peut être évaluée par comparaison avec la distribution des valeurs obtenues lorsque les labels sont permutés [61].

Concrètement, pour vérifier l'hypothèse selon laquelle il n'y a pas de différence entre les conditions et lorsque les étiquettes de classe sont aléatoirement permutées, on peut suivre ces étapes : permuter les étiquettes sur l'échantillon calculer le maximum t-la répétition statistique sur de nombreuses permutations obtient une distribution des valeurs pour le t-statistique trouver le seuil correspondant à une valeur donnée déterminant le degré de rejet de l'hypothèse [62, 63].

Dans des conditions expérimentales particulières, lorsque les données d'IRMf présentent une autocorrélation temporelle [64], une hypothèse d'« échangeabilité » des scans (c'est-à-dire réorganiser les étiquettes sur les scans sans affecter la distribution sous-jacente des résultats possibles) chez les sujets n'est pas tenable. Dans ce cas, pour analyser un groupe de sujets pour l'inférence de population, on suppose exclusivement l'échangeabilité des sujets. Nichols et Holmes [60] ont présenté des exemples pratiques de neuroimagerie fonctionnelle à la fois dans des expériences mono-sujets et multi-sujets, et Golland et Fischl. [62] ont proposé des recommandations pratiques sur la réalisation de tests de permutation pour la classification.

5. Conclusion

Dans cet article, nous avons examiné comment l'analyse du classificateur par apprentissage automatique peut être appliquée à l'analyse des données de neuroimagerie fonctionnelle. Nous avons signalé les limites de l'analyse basée sur un modèle univarié et présenté l'analyse multivariée sans modèle comme solution. En examinant la littérature comparant différents classificateurs, nous nous sommes concentrés sur la machine à vecteurs de support (SVM) en tant que classificateur supervisé qui peut être considéré comme un outil efficace pour effectuer une analyse de modèle multivariée (MVPA). Nous avons signalé l'importance de la sélection des caractéristiques et de la réduction de la dimensionnalité pour le succès du classificateur choisi en termes de performances, et l'importance d'un schéma de validation croisée à la fois pour sélectionner les meilleurs paramètres pour le classificateur et pour calculer les performances. L'utilisation de courbes ROC semble être plus précise pour évaluer les performances du classificateur, tandis que les tests de permutation non paramétriques fournissent une méthodologie flexible et intuitive pour vérifier la validité des résultats de la classification.

Remerciements

Ce travail a été soutenu par le projet Neuromed, le projet GDRI et le projet PEPS « GoHaL » financés par le CNRS, France.

Les références

  1. S. Ogawa, T. M. Lee, A. R. Kay et D. W. Tank, « Imagerie par résonance magnétique du cerveau avec contraste dépendant de l'oxygénation du sang » Actes de l'Académie nationale des sciences des États-Unis d'Amérique, vol. 87, non. 24, pp. 9868–9872, 1990. Voir sur : Site de l'éditeur | Google Scholar
  2. K. K. Kwong, J. W. Belliveau, D. A. Chesler et al., « Imagerie par résonance magnétique dynamique de l'activité cérébrale humaine pendant la stimulation sensorielle primaire » Actes de l'Académie nationale des sciences des États-Unis d'Amérique, vol. 89, non. 12, pp. 5675–5679, 1992. Voir sur : Site de l'éditeur | Google Scholar
  3. N. K. Logothetis, J. Pauls, M. Augath, T. Trinath et A. Oeltermann, « Enquête neurophysiologique de la base du signal IRMf » La nature, vol. 412, non. 6843, pp. 150-157, 2001. Voir sur : Site de l'éditeur | Google Scholar
  4. P. Jezzard, M. P. Matthews et M. S. Smith, « IRM fonctionnelle : une introduction aux méthodes » Journal d'imagerie par résonance magnétique, vol. 17, non. 3, pp. 383-383, 2003. Voir sur : Google Scholar
  5. K. J. Friston, C. D. Frith, P. F. Liddle et R. S. J. Frackowiak, « Comparing Functional (PET) images: the evaluation of important change, » Journal du flux sanguin cérébral et du métabolisme, vol. 11, non. 4, pp. 690-699, 1991. Voir sur : Google Scholar
  6. A. R. McIntosh, C. L. Grady, J. V. Haxby, J. M. Maisog, B. Horwitz et C. M. Clark, « Transformations intra-sujets des données de débit sanguin cérébral régional TEP : ANCOVA, ratio et ajustements du score z sur des données empiriques » Cartographie du cerveau humain, vol. 4, non. 2, pp. 93-102, 1996. Voir sur : Google Scholar
  7. K. J. Friston, A. P. Holmes, C. J. Price, C. B࿌hel et K. J. Worsley, « Etudes IRMf multi-sujets et analyses de conjonctions » NeuroImage, vol. 10, non. 4, pp. 385–396, 1999. Voir sur : Site de l'éditeur | Google Scholar
  8. M. J. McKeown, S. Makeig, G. G. Brown et al., « Analyse des données d'IRMf par séparation aveugle en composants spatiaux indépendants » Cartographie du cerveau humain, vol. 6, non. 3, pp. 160-188, 1998. Voir sur : Google Scholar
  9. U. Kjems, L. K. Hansen, J. Anderson et al., « L'évaluation quantitative des expériences de neuroimagerie fonctionnelle : courbes d'apprentissage de l'information mutuelle » NeuroImage, vol. 15, non. 4, pp. 772-786, 2002. Voir sur : Site de l'éditeur | Google Scholar
  10. R.S.J. Frackowiak, K.J. Friston, C. Frith et al., Fonction du cerveau humain, Academic Press, 2e édition, 2003.
  11. M. Brett, W. Penny et S. Kiebel, Introduction à la théorie des champs aléatoires, Elsevier Press, 2004.
  12. D.R. Cox et H.D. Miller, La théorie des processus stochastiques, Chapman et Hall, 1965.
  13. K. A. Norman, S. M. Polyn, G. J. Detre et J. V. Haxby, « Beyond mind-reading: multi-voxel pattern analysis of fMRI data », Tendances en sciences cognitives, vol. 10, non. 9, pp. 424–430, 2006. Voir sur : Site de l'éditeur | Google Scholar
  14. D. D. Cox et R. L. Savoy, « Imagerie par résonance magnétique fonctionnelle (IRMf) 𠇋rain reading” : détection et classification des modèles distribués d'activité IRMf dans le cortex visuel humain » NeuroImage, vol. 19, non. 2, pp. 261–270, 2003. Voir sur : Site de l'éditeur | Google Scholar
  15. J. V. Haxby, M. I. Gobbini, M. L. Furey, A. Ishai, J. L. Schouten et P. Pietrini, « Représentations distribuées et superposées des visages et des objets dans le cortex temporal ventral » Science, vol. 293, non. 5539, pp. 2425-2430, 2001. Voir sur : Site de l'éditeur | Google Scholar
  16. P. E. Downing, A. J. Wiggett et M. V. Peelen, « Enquête par imagerie par résonance magnétique fonctionnelle des activations occipitotemporales latérales qui se chevauchent à l'aide d'une analyse de modèle multi-voxels » Journal des neurosciences, vol. 27, non. 1, pp. 226-233, 2007. Afficher sur : Site de l'éditeur | Google Scholar
  17. C. Davatzikos, K. Ruparel, Y. Fan et al., « Classification des modèles spatiaux de l'activité cérébrale avec des méthodes d'apprentissage automatique : application à la détection de mensonges » NeuroImage, vol. 28, non. 3, pp. 663–668, 2005. Voir sur : Site de l'éditeur | Google Scholar
  18. C. Cortes et V. Vapnik, « Support-vector network », Apprentissage automatique, vol. 20, non. 3, pp. 273-297, 1995. Voir sur : Site de l'éditeur | Google Scholar
  19. V. N. Vapnik, La nature de la théorie de l'apprentissage statistique, vol. 8, Springer, 1995.
  20. M. Timothy, D. Alok, V. Svyatoslav et al., « Classification et caractérisation des machines à vecteurs de soutien de la réorganisation des réseaux cérébraux fonctionnels liée à l'âge » NeuroImage, vol. 60, non. 1, pp. 601-613, 2012. Voir sur : Google Scholar
  21. E. Formisano, F. De Martino et G. Valente, « Analyse multivariée des séries chronologiques d'IRMf : classification et régression des réponses cérébrales à l'aide de l'apprentissage automatique » Imagerie par résonance magnétique, vol. 26, non. 7, pp. 921–934, 2008. Voir sur : Site de l'éditeur | Google Scholar
  22. S. J. Hanson et Y. O. Halchenko, « Lecture cérébrale à l'aide de machines à vecteurs de support complet du cerveau pour la reconnaissance d'objets : il n'y a pas de zone d'identification �” », Calcul neuronal, vol. 20, non. 2, pp. 486–503, 2008. Voir sur : Site de l'éditeur | Google Scholar
  23. T. Joachims, Apprendre à classer du texte à l'aide de machines à vecteurs de support, Kluwer, 2002.
  24. C. C. Chang et C. J. Lin, « LIBSVM : une bibliothèque pour les machines à vecteurs de support », Transactions ACM sur les systèmes intelligents et la technologie, vol. 2, non. 3, article 27, 2011. Voir sur : Site de l'éditeur | Google Scholar
  25. M. Hanke, Y. O. Halchenko, P. B. Sederberg, S. J. Hanson, J. V. Haxby et S. Pollmann, "PyMVPA: a python toolbox for multivariate pattern analysis of fMRI data," Neuroinformatique, vol. 7, non. 1, pp. 37–53, 2009. Afficher sur : Site de l'éditeur | Google Scholar
  26. S. Boyd et L. Vandenberghe, Optimisation convexe, Cambridge University Press, New York, NY, États-Unis, 2004.
  27. S. LaConte, S. Strother, V. Cherkassky, J. Anderson et X. Hu, "Support Vector Machines for temporal classification of block design fMRI data," NeuroImage, vol. 26, non. 2, pp. 317-329, 2005. Voir sur : Site de l'éditeur | Google Scholar
  28. K. H. Brodersen, T. M. Schofield, A. P. Leff et al., « Intégration générative pour la classification basée sur le modèle des données FMRI » Biologie computationnelle PLoS, vol. 7, non. 6, numéro d'article e1002079, 2011. Afficher sur : Site de l'éditeur | Google Scholar
  29. S. P. Ku, A. Gretton, J. Macke et N. K. Logothetis, « Comparaison des méthodes de reconnaissance de formes pour la classification des signaux BOLD haute résolution obtenus à un champ magnétique élevé chez les singes » Imagerie par résonance magnétique, vol. 26, non. 7, pp. 1007–1014, 2008. Voir sur : Site de l'éditeur | Google Scholar
  30. M. Misaki, Y. Kim, P. A. Bandettini et N. Kriegeskorte, « Comparaison des classificateurs multivariés et des normalisations de réponse pour l'IRMf d'informations sur les modèles » NeuroImage, vol. 53, non. 1, pp. 103-118, 2010. Afficher sur : Site de l'éditeur | Google Scholar
  31. F. De Martino, G. Valente, N. Staeren, J. Ashburner, R. Goebel et E. Formisano, "Combinant la sélection de voxels multivariée et les machines à vecteurs de support pour la cartographie et la classification des modèles spatiaux IRMf," NeuroImage, vol. 43, non. 1, pp. 44-58, 2008. Voir sur : Site de l'éditeur | Google Scholar
  32. J. Mourão-Miranda, A. L. W. Bokde, C. Born, H. Hampel et M. Stetter, « Classifier les états du cerveau et déterminer les modèles d'activation discriminants : prendre en charge la machine vectorielle sur les données d'IRM fonctionnelles » NeuroImage, vol. 28, non. 4, pp. 980-995, 2005. Voir sur : Site de l'éditeur | Google Scholar
  33. T. Schmah, G. Yourganov, R. S. Zemel, G. E. Hinton, S. L. Small et S. C. Strother, « Comparing classification method for longitudinal fMRI studies » Calcul neuronal, vol. 22, non. 11, pp. 2729–2762, 2010. Afficher sur : Site de l'éditeur | Google Scholar
  34. F. Pereira et M. Botvinick, « ​​Information mapping with pattern classifiers: a comparative study », NeuroImage, vol. 56, non. 2, pp. 476-496, 2011. Voir sur : Site de l'éditeur | Google Scholar
  35. Y. Kamitani et Y. Sawahata, « Le lissage spatial nuit à la localisation mais pas à l'information : pièges pour les mappeurs du cerveau » NeuroImage, vol. 49, non. 3, pp. 1949-1952, 2010. Afficher sur : Site de l'éditeur | Google Scholar
  36. H. P. Op de Beeck, « ​​Contre l'hyperacuité en lecture cérébrale : le lissage spatial ne nuit pas aux analyses IRMf multivariées ? NeuroImage, vol. 49, non. 3, pp. 1943-1948, 2010. Afficher sur : Site de l'éditeur | Google Scholar
  37. J. D. Swisher, J. C. Gatenby, J. C. Gore et al., « Analyse multi-échelle de l'activité sélective d'orientation dans le cortex visuel primaire » Journal des neurosciences, vol. 30, non. 1, pp. 325–330, 2010. Afficher sur : Site de l'éditeur | Google Scholar
  38. H. Shen, L. Wang, Y. Liu et D. Hu, « Analyse discriminante des modèles de connectivité fonctionnelle à l'état de repos de la schizophrénie à l'aide de l'intégration de faible dimension de l'IRMf » NeuroImage, vol. 49, non. 4, pp. 3110–3121, 2010. Afficher sur : Site de l'éditeur | Google Scholar
  39. R. Sayres, D. Ress et K. G. Spector, « Identification des représentations d'objets distribués dans le cortex visuel extrastrié humain », dans Actes des systèmes de traitement de l'information neuronale (NIPS '05), 2005. Voir sur : Google Scholar
  40. M. B. 얾rg et J. Wessberg, « Une approche évolutive de l'identification de groupes de voxels informatifs pour la discrimination de l'état du cerveau » Journal IEEE sur des sujets sélectionnés dans le traitement du signal, vol. 2, non. 6, pp. 919-928, 2008. Voir sur : Site de l'éditeur | Google Scholar
  41. S. J. Kiebel et K. J. Friston, « Mappage statistique paramétrique des potentiels liés aux événements : I. Considérations génériques », NeuroImage, vol. 22, non. 2, pp. 492–502, 2004. Voir sur : Site de l'éditeur | Google Scholar
  42. A. Hyvärinen et E. Oja, « Analyse en composantes indépendantes : algorithmes et applications », Les réseaux de neurones, vol. 13, non. 4-5, pp. 411-430, 2000. Voir sur : Site de l'éditeur | Google Scholar
  43. D. B. Rowe et R. G. Hoffmann, « Analyse statistique multivariée en IRMf », IEEE Engineering in Medicine and Biology Magazine, vol. 25, non. 2, pp. 60-64, 2006. Voir sur : Site de l'éditeur | Google Scholar
  44. V. Schöpf, C. Windischberger, S. Robinson et al., « Analyse de groupe IRMf sans modèle à l'aide de FENICA », NeuroImage, vol. 55, non. 1, pp. 185–193, 2011. Voir sur : Site de l'éditeur | Google Scholar
  45. S. A. R. B. Rombouts, J. S. Damoiseaux, R. Goekoop et al., « L'analyse de groupe sans modèle montre des réseaux BOLD FMRI modifiés dans la démence » Cartographie du cerveau humain, vol. 30, non. 1, pp. 256-266, 2009. Afficher sur : Site de l'éditeur | Google Scholar
  46. C. Chu, A.-L. Hsu, K.-H. Chou, P. Bandettini et C. Lin, « La sélection des caractéristiques améliore-t-elle la précision de la classification ? Impact de la taille de l'échantillon et de la sélection des caractéristiques sur la classification à l'aide d'images de résonance magnétique anatomique », NeuroImage, vol. 60, non. 1, pp. 59-70, 2011. Voir sur : Google Scholar
  47. J. D. Haynes et G. Rees, « Prédire l'orientation des stimuli invisibles de l'activité dans le cortex visuel primaire humain », Neurosciences de la nature, vol. 8, non. 5, pp. 686–691, 2005. Voir sur : Site de l'éditeur | Google Scholar
  48. Y. Kamitani et F. Tong, « Décoder les contenus visuels et subjectifs du cerveau humain », Neurosciences de la nature, vol. 8, non. 5, pp. 679-685, 2005. Voir sur : Site de l'éditeur | Google Scholar
  49. N. Kriegeskorte, R. Goebel et P. Bandettini, « Carte cérébrale fonctionnelle basée sur l'information » Actes de l'Académie nationale des sciences des États-Unis d'Amérique, vol. 103, non. 10, pp. 3863–3868, 2006. Voir sur : Site de l'éditeur | Google Scholar
  50. M. Björnsdotter, K. Rylander et J. Wessberg, « A Monte Carlo method for localement multivariate brain mapping » NeuroImage, vol. 56, non. 2, pp. 508-516, 2011. Voir sur : Site de l'éditeur | Google Scholar
  51. R.E. Bellman, Processus de contrôle adaptatif𠅊 Visite guidée, Princeton University Press, Princeton, NJ, États-Unis, 1961.
  52. R. Kohavi, “. Une étude de la validation croisée et du bootstrap pour l'estimation de la précision et la sélection du modèle », dans Actes de la Conférence internationale conjointe sur l'intelligence artificielle, vol. 14, pp. 1137-1143, Citeseer, 1995. Voir sur : Google Scholar
  53. S. Lemm, B. Blankertz, T. Dickhaus et K. R. Müller, « Introduction à l'apprentissage automatique pour l'imagerie cérébrale », NeuroImage, vol. 56, non. 2, pp. 387–399, 2011. Voir sur : Site de l'éditeur | Google Scholar
  54. T. Hastie, R. Tibshirani et J. Friedman, Les éléments de l'apprentissage statistique : exploration de données, inférence et prédiction, vol. 27, Springer, 2009.
  55. T. Fawcett, « Une introduction à l'analyse ROC », Lettres de reconnaissance de modèle, vol. 27, non. 8, pp. 861-874, 2006. Voir sur : Site de l'éditeur | Google Scholar
  56. S. M. Smith et T. E. Nichols, « Amélioration des clusters sans seuil : résoudre les problèmes de lissage, de dépendance au seuil et de localisation dans l'inférence de clusters » NeuroImage, vol. 44, non. 1, pp. 83-98, 2009. Afficher sur : Site de l'éditeur | Google Scholar
  57. L. Yan, R. Dodier, M. C. Mozer et R. Wolniewicz, « Optimizing classifier performance via an approximation to the Wilcoxon-Mann-Whitney Statistic », dans Actes de la 20e Conférence internationale sur l'apprentissage automatique (ICML '03), vol. 20, p. 848, AAAI Press, août 2003. Voir sur : Google Scholar
  58. J. Ashburner et S. Klöppel, « Modèles multivariés de variabilité anatomique inter-sujets », NeuroImage, vol. 56, non. 2, pp. 422–439, 2011. Voir sur : Site de l'éditeur | Google Scholar
  59. A.P. Holmes, R.C. Blair, J.D.G. Watson et I. Ford, « Analyse non paramétrique d'images statistiques à partir d'expériences de cartographie fonctionnelle », Journal du flux sanguin cérébral et du métabolisme, vol. 16, non. 1, pp. 7-22, 1996. Voir sur : Google Scholar
  60. T. E. Nichols et A. P. Holmes, « Tests de permutation non paramétriques pour la neuroimagerie fonctionnelle : une amorce avec des exemples » Cartographie du cerveau humain, vol. 15, non. 1, pp. 1-25, 2002. Voir sur : Site de l'éditeur | Google Scholar
  61. A. Eklund, M. Andersson et H. Knutsson, "Les tests de permutation aléatoire rapide permettent une évaluation objective des méthodes d'analyse par IRMf d'un seul sujet," Revue internationale d'imagerie biomédicale, vol. 2011, Numéro d'article 627947, 15 pages, 2011. Voir sur : Google Scholar
  62. P. Golland et B. Fischl, « Tests de permutation pour la classification : vers une signification statistique dans les études basées sur l'image », dans Actes de la Conférence sur le traitement de l'information en imagerie médicale, pp. 330-341, août 2003. Voir sur : Google Scholar
  63. P. Golland, F. Liang, S. Mukherjee et D. Panchenko, « Tests de permutation pour la classification », dans Actes de la 18e conférence annuelle sur la théorie de l'apprentissage (COLT '05), pp. 501–515, août 2005. Voir sur : Google Scholar
  64. A. M. Smith, B. K. Lewis, U. E. Ruttimann et al., "Investigation of low Frequency Drift in fMRI signal," NeuroImage, vol. 9, non. 5, pp. 526-533, 1999. Voir sur : Site de l'éditeur | Google Scholar

Droits d'auteur

Copyright © 2012 Abdelhak Mahmoudi et al. Il s'agit d'un article en libre accès distribué sous la licence d'attribution Creative Commons, qui permet une utilisation, une distribution et une reproduction sans restriction sur n'importe quel support, à condition que l'œuvre originale soit correctement citée.


Un exemple d'application

Comme la méthode DLS pourrait être utilisée dans de nombreux domaines vers la distribution de taille tels que les polymères, les protéines, les nanoparticules métalliques ou les nanomatériaux de carbone, donne ici un exemple sur l'application de DLS dans la synthèse à taille contrôlée de nanoparticules d'or monodisperses.

La taille et la distribution de taille des particules d'or sont contrôlées par une variation subtile de la structure du polymère, qui est utilisée pour stabiliser les nanoparticules d'or pendant la réaction. Ces variations incluent le type de monomère, le poids moléculaire du polymère, l'hydrophobie des groupes terminaux, la dentité des groupes terminaux et la concentration en polymère. Un nombre total de 88 essais différents ont été menés sur la base de ces variations. En utilisant la méthode DLS, les auteurs sont en mesure de déterminer assez facilement la distribution de la taille des particules d'or pour tous ces essais, et la corrélation entre la structure du polymère et la taille des particules peut également être tracée sans autre traitement des données. Bien que d'autres techniques de dimensionnement telles que la spectroscopie UV-V et TEM soient également utilisées dans cet article, c'est la mesure DLS qui fournit une approche beaucoup plus simple et fiable pour l'analyse de la distribution des tailles.

Comparaison avec TEM et AFM

Étant donné que le DLS n'est pas la seule méthode disponible pour déterminer la distribution granulométrique des particules, il est également nécessaire de comparer le DLS avec les autres techniques de dimensionnement générales couramment utilisées, en particulier le MET et l'AFM.

Tout d'abord, il faut préciser que la MET et l'AFM mesurent les particules qui se déposent sur un substrat (grille Cu pour la MET, mica pour l'AFM), tandis que la DLS mesure les particules qui sont dispersées dans une solution. De cette façon, DLS mesurera les propriétés de la phase en vrac et donnera des informations plus complètes sur la distribution de la taille de l'échantillon. Et pour l'AFM ou le TEM, il est très courant qu'une zone d'échantillonnage relativement petite soit analysée, et la distribution de la taille sur la zone d'échantillonnage peut ne pas être la même que la distribution de la taille de l'échantillon d'origine en fonction de la façon dont les particules sont déposées.

D'un autre côté, cependant, pour le DLS, le processus de calcul dépend fortement des hypothèses et des modèles mathématiques et physiques, c'est-à-dire la distribution monomodale (méthode du cumul) et la forme sphérique des particules, les résultats pourraient être inexacts lors de l'analyse non monomodale. distributions ou particules non sphériques. Pourtant, étant donné que le processus de détermination de la taille pour l'AFM ou le TEM n'est rien de plus que de mesurer la taille à partir de l'image puis d'utiliser la statistique, ces deux méthodes peuvent fournir des données beaucoup plus fiables lorsqu'il s'agit d'échantillons &ldquoirréguliers&rdquo.

Un autre problème important à considérer est le coût en temps et la complication de la mesure de la taille. D'une manière générale, la mesure DLS devrait être une technique beaucoup plus simple, qui nécessite moins de temps de fonctionnement et également un équipement moins cher. Et il pourrait être très difficile d'analyser les données de distribution de taille provenant d'images TEM ou AFM sans logiciel spécialement programmé.

De plus, il y a des problèmes particuliers à prendre en compte lors du choix des techniques d'analyse de la taille. Par exemple, si l'échantillon d'origine est déjà sur un substrat (synthétisé par la méthode CVD) ou si les particules ne peuvent pas être dispersées de manière stable dans la solution, la méthode DLS ne convient apparemment pas. De plus, lorsque les particules ont tendance à avoir un contraste d'imagerie similaire contre le substrat (nanomatériaux de carbone sur grille TEM), ou ont tendance à s'auto-assembler et à s'agréger à la surface du substrat, l'approche DLS pourrait être un meilleur choix.

Cependant, dans les travaux de recherche généraux, la meilleure façon d'effectuer une analyse de la distribution de la taille est de combiner ces méthodes d'analyse et d'obtenir des informations complémentaires sous différents aspects. Une chose à garder à l'esprit, puisque le DLS mesure en fait le rayon hydrodynamique des particules, la taille de la mesure DLS est toujours plus grande que la taille de la mesure AFM ou TEM. En conclusion, la comparaison entre DLS et AFM/TEM est présentée dans le tableau (PageIndex<1>).

Tableau (PageIndex<1>) Comparaison entre DLS, AFM et TEM.
DLS AFM/TEM
La préparation des échantillons Solution Substrat
La mesure Facile Difficile
Échantillonnage Masse Petite zone
Forme des particules Sphère Aucune exigence
Polydispersité Meugler Aucune exigence
Gamme de taille nm à euh nm à euh
Informations sur la taille. Rayon hydrodynamique grandeur physique


Voir la vidéo: Analyse en Composantes Principales ACP (Janvier 2022).