Avant propos

Nous assistons ces dernières années à de nombreuses évolutions scientifiques, de nature technologique, théorique ou encore algorithmique, qui bouleversent les approches les plus traditionnelles pour l'étude statistique des données biomédicales. D'une part, les nouvelles technologies ont permis ces dernières années de fantastiques progrès dans l'acquisition de données : imagerie médicale, imagerie par résonance magnétique fonctionnelle (IRMf), séquençage du génome, biopuces à ADN... D'autre part, la compréhension, l'analyse et la prévision de systèmes complexes (processus biologiques, activité neuronale, …) requièrent une modélisation la plus fidèle possible de ces systèmes.

Des évolutions méthodologiques, liées à un accroissement constant de la puissance des moyens informatiques, sont en train de révolutionner les méthodes d'inférence statistique dans les modèles complexes et le traitement des données massives. Ainsi, la statistique computationnelle, qui englobe l'ensemble des techniques algorithmiques fondées sur la simulation (algorithmes stochastiques, méthodes de Monte-Carlo par Chaînes de Markov), permet de résoudre numériquement des problèmes complexes.


 
 
 
 

L’objectif de ce cours de 30 heures est de présenter quelques applications de la statistique computationnelle à des problèmes importants en biologie. Ce cours est destiné à des étudiants de Master 2 (statistique, biostatistique, bioinformatique, mathématiques appliquées… ; parcours Recherche ou Professionnel).

Responsable du cours : Marc Lavielle, INRIA Saclay


Contenu
1) Quelques outils statistiques des analyses dose-réponse : 6h

En toxicologie, recherche clinique ou épidémiologie,  l'analyse d'une relation dose-réponse repose sur le choix d'un modèle d'ajustement des données et son analyse statistique.
Cette partie introductive du cours présentera les méthodes statistiques des modèles de régression non linéaire et leur mise en oeuvre à l'aide du logiciel R : ajustement par maximum de vraisemblance, modélisation d'une variance hétérogène, validation de modèles, étude de l'incertitude par bootstrap, procédures de tests multiples.

Référence : Statistical  Tools for Nonlinear Regression: A practical guide with S-PLUS examples


2) Modélisation en pharmacométrie : 6h

Le développement de nouveaux médicaments est un processus long et coûteux. Les statisticiens sont impliqués à tous les niveaux pour l’évaluation des données collectées au cours des essais thérapeutiques et pour aider à planifier les études suivantes en fonction des résultats obtenus. Plus récemment, s’est développée une discipline appelée « pharmacométrie », qui vise à mieux analyser l’ensemble des données physiologiques (concentrations, biomarqueurs, effets pharmacologiques, effets indésirables) ainsi que leur évolution au cours du temps et leur variabilité entre les patients. Il s’agit de mieux comprendre l’ensemble de la relation dose-réponse afin d’aider, notamment par simulation, à planifier les essais cliniques suivants en prenant mieux en compte les sources de variabilité et d’incertitude. Ces analyses reposent sur des modèles physiologiques plus ou moins simplifiés et nécessitent des outils statistiques plus complexes comme la modélisation non-linéaire à effets mixtes.

Ce domaine de la modélisation est en pleine évolution. Les besoins sont nombreux et les possibilités de trouver un emploi dans l'industrie sont bien réelles.

Les intervenants mènent des collaborations étroites avec l'INSERM (U738, Modélisation en biostatistique et pharmacométrie), mais aussi avec l'industrie pharmaceutique (Novartis, Roche, Johnson & Johnson, Pfizer, Servier, Tibotec,…). Ils développent le logiciel MONOLIX qui sera utilisé pour ce cours.


3) Neuroimagerie : 6h

Les techniques de neuroimagerie permettent de visualiser notre cerveau : sa structure mais aussi des paramètres reflets de sa fonction. En particulier, l’IRM fonctionnelle génère des séquences de volumes 3D qui reflètent l’activité au cours du temps en chaque région cérébrale. Les défis d’analyse de données sont nombreux tant pour les méthodes que pour les aspects informatiques. La combinaison de la neuroimagerie avec la génétique est aussi un axe de recherche actif. Les neuroscientifiques, les acteurs hospitaliers et les groupes pharmaceutiques sont de plus en plus demandeurs de ces technologies. Les intervenants seront majoritairement de NEUROSPIN, l’un des centres phare de la neuroimagerie en Europe.


4) L'analyse de signaux médicaux : 6h

De nombreux signaux électriques physiologiques sont aujourd'hui disponibles à haute (HF) ou très haute fréquence (VHF) : Electro-Cardiogramme (ECG), Electro-Myogramme (EMG), Electro-Encéphalogramme (EEG), etc. ... Il est alors pertinent d'analyser le contenu fréquentiel de ces signaux.

Nous analyserons, comme premier exemple, la variabilité du rythme cardiaque selon les bandes de fréquences para et ortho-sympathique et leur variation entre période de sommeil, activité modérée, travail, activité sportive. D'autres exemples, EEG, position du centre de gravité, seront également considérés.


5) Génomique et post-génomique : 6h

L’abondance des données issus de la génomique (telles que les séquences d’ADN) et de la post-génomique (comme les puces à ADN) requièrent l’utilisation d’analyses statistiques rigoureuses et efficaces.

Thème 1 : Tests multiples
La recherche de gènes différemment exprimés entre deux conditions (tissus sain / tumeur) constitue un cas d’école des tests multiples auquel les méthodes les plus classiques (Bonferonni) comme les plus récentes (FDR local) peuvent s’appliquer. Toutes ces méthodes ont pour objet de contrôler le taux de faux positifs.

Thème 2 : Modèles de mélange
La recherche de groupes d’objets (gènes, patients) ayant des comportements similaires (profils d’expression, sous-types de cancer) est souvent abordée à l’aide de modèles de mélanges. L’inférence de ces modèles est généralement conduite à l’aide de l’algorithme E-M qui est devenu un élément incontournable de la « biologie computationnelle ».

Les intervenants sont membres de AgroParisTech, équipe Statistique et Génome.


 
 
 
 
   
 
  Contacts  
 
 

Marc Lavielle : Marc.Lavielle@math.u-psud.fr
Marie-Anne Poursat : Marie-Anne.Poursat@math.u-psud.fr

Master Ingénierie Mathématique : http://www.math.u-psud.fr/~masterim
Master BIBS :http://www.bibs.u-psud.fr/