Traitements statistiques de données avec R et SAS

Pierre Pudlo

Objectifs du cours
Ce cours propose de mettre en oeuvre quelques méthodes de traitement de données, en particulier de la classification supervisée, avec le logiciel R et SAS. L'objectif est double : se familiariser avec ces deux logiciels, ainsi que dresser un panel des méthodes de classification supervisée (de la régression logisitique aux fôrets aléatoires...). Chaque méthode fera l'objet d'un rappel méthodologique. Pour les étudiants, il s'agit d'acquérir quelques réflexes importants face R et SAS, et d'apprendre à utiliser le bon outil statistique face à un problème précis.

Bibliographie :
Cornillon et al (2010) : Statistiques avec R. Presse Universitaire de Rennes (2nd ed.)
Cornillon et Matzner-Lober (2007) : Régression, Théorie et application. Springer Verlag.
Hastie, Tibshirani, and Friedman (2009) : The elements of statistical learning. Springer Verlag.
Venables et Rippley (2002) Modern applied statistics with S. Springer (4e ed.) Springer Verlag

 

Théorie et pratique de la statistique bayésienne

Christophe Abraham et Meïli Baragatti

But :
Ce cours propose une étude, à la fois théorique, pratique et numérique des principaux modèles bayésiens. Dans un premier temps, cet enseignement aborde les modèles paramétriques de bases : observations binomiales, normales ou multinomiales et modèle linéraire. Dans chaque cas, on considérera des lois a priori conjuguées et des lois a priori non-informatives.
Dans un second temps, on abordera les techniques de calcul bayésien d'un point de vue théorique et surtout pratique à travers des modèles plus sophistiqués. En particulier, les derniers cours seront consacrés à des applications des méthodes Monte Carlo Markov Chain (MCMC) au modèle linéaire hiérarchique (Gibbs), à la sélection de variables (Gibbs et Metropolis-Hastings) et à l'estimation d'un modèle de mélange gaussien (Gibbs et Metropolis-Hastings à sauts réversibles).

 

Modèles paramétriques en biostatistique

Gilles Ducharme

Pré-requis :
. Un premier cours de calcul des probabilités
. Un module de statistique mathématique (tel le FMMA 208, discutant de l'estimation par vraisemblance maximale et des tests de rapport de vraisemblances)
. Un module de régression linéaire (tel le GMMA 206i)

But :
a) Présenter les principaux modèles paramétriques utilisés en biostatistique : Modèles log-linéaires; Modèles de régression logistique; Modèles de régression non-linéaire; et la version unifiée de ces modèles : les GLiM.
b) Présenter rigoureusement les méthodes d'estimation et de tests d'hypothèses dans ces modèles en relation avec les types d'argument asymptotique.
c) Présenter rigoureusement les méthodes de sélection de modèles et les tests d'adéquation de ces modèles.
d) Aspects pratiques : Permettre à l'étudiant d'acquérir, via un projet, le savoir-faire lui permettant de mettre en oeuvre de façon pratique des analyses de données utilisant ces modèles.

Plan du cours :
Leçon 1) Prolégomènes + Trio de tests dans des modèles paramétriques
Leçon 2) Application à l'analyse de données discrètes : tables de contingence et modèles loglinéaires pour plan d'échantillonnage à 1 multinomiale.
Leçon 3) suite: tables de contingence et modèles log-linéaires pour plan d'échantillonnage "X de multinomiales". Tests exacts de Fisher et extensions en épidémiologie.
Leçon 4) Régression non linéaire : Inférence et tests d'hypothèses dans le cas d'erreurs gaussiennes. Application aux courbes de croissance. Extension aux cas d'erreurs non gaussiennes.
Leçon 5) Régression logistique : Inférence et tests dans le cas d'une réponse discrète et de régresseurs continus. Application à des études de type dose-réponse. Généralisation aux modèles GLM (Generalized Linear Models).
Leçon 6) Choix de modèles: Théorie menant aux méthodes TIC, AIC et BIC.
Leçon 7) Tests d'Adéquation : Méthodes basées sur les emboîtements. Méthodes basées sur des comparaisons entre estimateurs paramétriques et non-paramétriques.

Bibliographie :
Gouriéroux, C., Monfort, A., (1989) : Statistique et Modèles économétriques. Vol. 1 et 2, Economica, Paris. ISBN 2-7178-1667-4 et 1668-2. (Leçon 1)
Bishop, Y.M.M., Fienberg, S.E., Holland, P.W. (1975) : Discrete Multivariate Analysis, MIT Press, Cambridge. ISBN 0-262-52040-0. (Leçons 2 et 3)
Plackett, R.L. (1981) : The Analysis of Categorical Data 2nd edition. Griffin statistical monograph #35, London. ISBN 0-85264-265-2. . (Leçons 2 et 3)
Seber, G.A.F. (1977) : Linear Regression Analysis. Wiley, New-York. (Leçon 4)
Seber, G.A.F., Wild, C.J. (1989) : Nonlinear regression. Wiley, New York. ISBN 0-471-61760-1. (Leçon 4)
Hosner, D.W., Lemeshow, S. (2000) : Applied Logistic Regression,2nd edition. Wiley, New York. ISBN 978-0-471-65402-5. (Leçon 5)
Burnham, K.P., Anderson, D.R. (2002) : Model selection and multimodel inference : a practical information-theoretic approach. Springer-Verlag, New-York, 2nd ed. (Leçons 6 et 7)

 

Estimation non paramétrique

A. Mas, N. Hilgert et C. Crambes

Objectifs du cours :

Les statisticiens sont parfois amenés à collecter puis à étudier des données qui sont issues de processus aléatoires en temps continu. Si l'on observe une courbe de température ou le cours d'une action on a bien affaire à une fonction aléatoire indexée par le temps. Si l'observation est un courbe spectrométrique la fonction est indexée cette fois-ci par une longueur d'onde mais demeure aléatoire (au sens où elle dépend du matériau étudié). La communauté statistique a donc défini de façon générale les données fonctionnelles comme des variables aléatoires qui sont à valeurs dans un espace de dimension infinie, puisque les fonctions sont elle-mêmes des objets mathématiques de dimension infinie.
Bien entendu, une courbe de températures par exemple n'est jamais obtenue telle quelle : son équation n'est pas connue et n'existe même pas. Elle doit être reconstituée à partir d'observations discrétisées. Ainsi à partir de mesures horaires par exemple ont doit être en mesure de reconstituer et tracer la trajectoire pour toute la journée. Ceci constitue la phase préliminaire de traitement des donnée fonctionnelles. Elle fait appel à des outils communs avec l'analyse et le traitement du signal.
La deuxième étape est la modélisation. Dans l'exemple précédent on peut vouloir prédire la température de demain connaissant celle d'aujourd'hui et proposer un modèle autorégressif qui fait intervenir des paramètres sur lesquels une inférence doit être menée. Si les principaux modèles pour courbes aléatoires sont inspirés des modèles classiques en statistique multidimensionnelle, ils disposent toutefois de leur propre originalité méthodologique et pratique. Ils proposent surtout une approche unifiée, robuste et élégante pour résoudre des problèmes de la statistique moderne.
Ce cours propose une introduction aux méthodes et modèles pour données fonctionnelles. Il se décompose en 3 parties qui tentent de survoler les grands axes de la théorie et de la mise en oeuvre.
1/ Outils de traitement du signal (théorie et pratique sous R) :
a/Splines
b/Ondelettes
c/Fourier
2/ Modèles et inférence pour données fonctionnelles :
a/ L'ACPf
b/ Le modèle linéaire
c/ le modèle autorégressif
d/ Vers des modèles plus généraux ?
3/ Mise en oeuvre numérique sous R :
a/ Simulation de données fonctionnelles
b/ Régression linéaire fonctionnelle.

 

Modélisation stochastique en biologie

Yann Guédon

Pré-requis :
Connaissances de base en probabilités.

Objectif :
L'objectif de ce cours est de donner les bases probabilistes, statistiques et algorithmiques nécessaires pour l'application de modèles stochastiques très largement utilisés en biologie (analyse du génome, de la dynamique de populations, du développement et de la structure des plantes ...). Ces modèles stochastiques permettent notamment d'analyser des événements récurrents, d'identifier des motifs ou de détecter des zones homogènes et des ruptures dans des données structurées en séquences ou en arborescences.
(1) Processus stochastiques : L'objectif est ici de donner un point de vue cohérent sur les processus stochastiques en se basant sur les idées de théorie du renouvellement et de dépendance locale. Cela permet d'introduire alors différentes familles de modèles stochastiques, principalement à temps discret, très utilisés en biologie comme les chaînes de Markov d'ordre variable et les (semi-)chaînes de Markov cachées.
(2) Méthodes d'estimation pour modèles stochastiques partiellement observables : Du fait soit de mécanismes de censure (processus de renouvellement et processus semi-markoviens), soit de la présence de variables non-observables (modèles markoviens cachés), se posent des problèmes d'estimation aux données incomplètes. Les méthodes d'estimation correspondantes sont alors introduites et notamment l'algorithme EM et ces variantes stochastiques (algorithme MCEM).
(3) Algorithmes pour modèles stochastiques à variables latentes : Les modèles intégrant des variables dépendantes non-observables comme les modèles markoviens cachés nécessitent d'utiliser une algorithmie spécifique (algorithmes de type filtrage/lissage et algorithmes de programmation dynamique) que ce soit pour l'estimation des paramètres du modèle ou la restauration des variables latentes.

Outils :
Le cours est illustré par de nombreux exemples issus de différents champs de la biologie et en particulier de la biologie végétale avec l'analyse du développement et de la structure des plantes. Une large base d'exercices corrigés est disponible.

Bibliographie :
Applebaum, D. (2008). Probability and Information: An Integrated Approach, 2ème édition. Cambridge : Cambridge University Press.
Barbu, V. S. & Limnios, N. (2008). Semi-Markov Chains and Hidden Semi-Markov Models toward Applications: Their Use in Reliability and DNA Analysis. New York : Springer.
Cappé, O., Moulines, E. & Ryden, T. (2005). Inference in Hidden Markov Models. New York : Springer.
Cover, T. M. & Thomas, J. A. (2006). Elements of Information Theory, 2ème édition. Hoboken, NJ : Wiley.
Durbin, R., Eddy, S. R., Krogh, A. & Mitchison, G. J. (1998). Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge : Cambridge University Press.
Frühwirth-Schnatter, S. (2006). Finite Mixture and Markov Switching Models. New York : Springer.
Guttorp, P. (1995). Stochastic Modeling of Scientific Data. London : Chapman & Hall.
Karlin, S. & Taylor H. M. (1975). A First Course in Stochastic Processes, 2ème édition. Academic Press
Karlin, S. & Taylor, H. M. (1981). A Second Course in Stochastic Processes. Academic Press.
Kulkarni, V. G. (1995). Modeling and Analysis of Stochastic Systems. London : Chapman & Hall.
Lindsey, J. K. (2004). Statistical Analysis of Stochastic Processes in Time. Cambridge : Cambridge University Press.
McLachlan, G. J. & Krishnan, T. (2008). The EM Algorithm and Extensions, 2ème édition. Hoboken, NJ : Wiley.
Zucchini, W. & MacDonald, I. L. (2009). Hidden Markov Models for Time Series : An Introduction Using R. Boca Raton, FL : Chapman & Hall/CRC.

 

Processus de Markov (à espace d'états discret)

Bnoîte de Saporta

Pré-requis :
Chaînes de Markov en temps discret.

But
Les processus de Markov à espace d'états discrets forment une classe simple mais riche de processus en temps continu. Ils sont constants entre des sauts interviennent à des instants aléatoires et peuvent modéliser de nombreux phénomènes en dynamique des populations, épidémiologie, fiabilité ou files d'attente, par exemple. Le but du cours est de fournir les outils nécessaires à leur définition, à l'étude de leurs propriétés et au calcul pratique de quantités d'intérêt.

Bibliographie :
Brémaud, P. : Markov chains, vol. 31 of Texts in Applied Mathematics. Springer-Verlag, New York, 1999. Gibbs fields, Monte Carlo simulation, and queues.
Cocozza-Thivent, C. : Processus stochastiques et fiabilité des systèmes. Springer, 1997.
Feller, W. : An introduction to probability theory and its applications. Vol. II. Third edition. John Wiley & Sons Inc., New York, 1968.
Norris, J. R. : Markov chains, vol. 2 of Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press, Cambridge, 1998. Reprint of 1997 original.
Pardoux, E. : Processus de Markov et applications. Dunod, 2007. Compléments

 

Modèles statistiques pour l'analyse des séquences biologiques

O. Gascuel

Objectifs du cours :

Les séquences biologiques (ADN, protéines) constituent une source d’information majeure sur le vivant. Avec les progrès de la génomique, elles sont aujourd’hui acquises à très bas coût et trouvent des applications dans de nombreux domaines en biologie moléculaire et cellulaire, santé, agronomie et environnement. Ce module présentera les modèles utilisés pour analyser ces séquences. On distinguera les modèles évolutifs "verticaux", basés sur des processus de Markov à temps continu, qui sont utilisés pour représenter l’évolution des séquences le long de l’arbre du vivant, et les modèles "horizontaux", basés sur des modèles de Markov discrets et des modèles de Markov cachés, destinés à représenter les séquences elles-mêmes et l’enchainement des caractères qu’elles contiennent. Le cours présentera le versant biologique, les modèles et les algorithmes permettant de les mettre en œuvre, qu’il s’agisse d’apprendre ces modèles à partir de séquences ou de les utiliser pour inférer les propriétés des séquences analysées.

Syllabus
1 - Modèles probabilistes d'évolution des séquences biologiques
2 - La reconstruction des phylogénies basée sur les distances
3 - La reconstruction des phylogénies basée sur les caractères
4 - Applications de la phylogénétique : cas d’étude
5 - Modèles de Markov
6 - Modèles de Markov cachés

 

Statistique des événements extrêmes

Jean-Noël Bacro et Gladys Toulemonde

Pré-requis : Statistique mathématique.

But du cours :
Introduction à la théorie des valeurs extrêmes en univarié et multivarié. Lorsque l'on s'intéresse au comportement des queues de distribution, typiquement estimation de quantiles extrêmes, les approches statistiques classiques fondées sur la caractérisation d'un comportement en moyenne ne sont pas adaptées et il est nécessaire de considérer une approche spécifique qui est l'objet de la théorie des valeurs extrêmes. Une sensibilisation au cadre des extrêmes spatiaux, actuellement domaine de recherche très actif, est donnée. Les notions introduites en cours sont illustrées à l'aide du logiciel R : implémentations de programmes et cas d'étude.

Outil :
Logiciel R.

Bibliographie :
Beirlant, J., Goegebeur, Y., Segers, J. et Teugels, J. (2004) : Statistics of extremes: Theory and Applications
Coles, S. G. (2001) : Introduction to statistical modelling of extreme value. Springer.
de Haan, L., Ferreira, A. (2006) : Extreme value theory : an introduction. Springer.

 

Processus et applications en médecine

Jean-Pierre Daurès et Pierre Landais

Première partie :
Fondements du calcul Bayésien, fonction de risque, estimation bayésienne, décision bayésienne, applications en médecine et biologie.
Différents types de lois a priori avec discussion. Lois conjuguées, mesure de Prohorov. Application au modèle linéaire, linéaire généralisé
et en génomique (présentation succincte des méthodes numériques bayésiennes : Metropolis-Hastings, EM, SEM,...)

Deuxième partie :
Rappels sur les processus de comptage, la décomposition de Doob, la théorie des martingales et le théorème limite central des martingales. Vraisemblance partielle, application aux processus. Intérêt et application cliniques : survie avec censure non informative ou
informative, survie ajustée sur la qualité de vie, études coût efficacité et étude de bénéfice net incrémentiel.

 

Processus stochastiques en temps continu pour la modélisation en écologie

Fabien Campillo

Objectifs du cours
On se propose de présenter les bases de la théorie des processus stochastiques, essentiellement en temps continu, appropriées à la modélisation en écologie. Tout le long du cours, les outils mathématiques mis en place seront systématiquement illustrés à l'aide d'études de cas des modèles classiques et de simulation sous matlab (et à titre d'exercice les étudiants seront amenés à reprogrammer ces outils sous R). Ce cours privilégie une approche constructive en consacrant une place importante aux aspects algorithmiques, notamment de simulation de Monte Carlo.
On présentera en parallèle les outils de bases de la dynamique des populations écrits classiquement sous d'équations différentielles et leur extension sous forme de modèles stochastiques : d'abord sous la forme de processus de saut pur (continus en temps et discrets en espace) puis sous la forme de processus de diffusion (continus en temps et continus en espace). Nous introduirons de façon très intuitives les notions de processus de Poisson, de processus de naissance et de mort mais aussi de processus de diffusions. Dans ce dernier cas nous ferons appel à l'intégrale stochastique de Ito ainsi qu'à la notion d'équations différentielles stochastiques.
Parmi les modèles classiques en dynamique des populations, on étudie plus particulièrement différents modèles de croissance (le modèle malthusien, le modèle logistique), des modèles d'interaction (modèle du chemostat, modèle de Lotka-Volterra). On introduit enfin les modèles individu-centrés.
Le but est d'introduire la démarche de modélisation auprès des étudiants. Il ne s'agit donc pas d'un cours de statistique, il est en effet de plus en plus souvent demandé aux statisticiens de développer des modèles.

Pré-requis : Probabilités de base.

Support de cours : http://www-sop.inria.fr/members/Fabien.Campillo/teaching/master-biostatistique/

Mots clés
processus stochastiques, processus de Markov, processus de saut, processus de Poisson, mouvement brownien, équations différentielles stochastiques, simulation de Monte Carlo, modélisation computationnelle, dynamique des populations

Bibliographie :
[1] Bernt Øksendal : Stochastic Differential Equations. An Introduction with Applications. Universitext. Springer-Verlag, Berlin, 5th Edition, 2000.
[2] Karline Soetaert et Peter M.J. Herman : A Practical Guide to Ecological Modelling : Using R as a Simulation Platform. Springer, 2008.
[3] Darren J. Wilkinson : Stochastic Modelling for Systems Biology. Chapman & Hall, 2006.

 

Analyse statistique de données -omics de grande dimension sous R

Robert Sabatier et Christelle Reynès

Pré-requis :
- aucun pré-requis en biologie
- notions de base de statistiques (tests, ANOVA)
- des notions d'analyses de données seront appréciées (ACP, classification supervisée / nonsupervisée)
- notions de programmation sous R (module inclus dans la formation)

Les objectifs de ce module sont :
- sensibiliser les étudiants aux principales problématiques des données -omics et à leur "traduction" statistique
- application de méthodes vues en cours à ces problématiques
- présentation de nouvelles méthodes spécifiques à ce type de données
- acquisition d'une bonne maîtrise du logiciel R et de bioconductor
Globalement, ce module s'organisera par séquences d'1h de cours et 2h de TD sur machines.

Les thèmes abordés et outils associés :

           Etude des données de puces à ADN :

Les questions biologiques Les méthodes statistiques
Comment rendre comparables les résultats de plusieurs expériences (normalisation) ? ANOVA, régression loess, plans d'expériences
Comment identifier des bio-marqueurs ? ANOVA, tests multiples, méthodes de sélection de variables, méthodes de classification supervisée (LDA, SVM, arbres de décision, k-plus proches voisins, ...)
Comment identifier des gènes appartenant à la même voie métabolique ? Classification non supervisée (k-means, classification hiérarchique, SAM, ...), ACP

           Etude des données de protéomiques par spectrométrie de masse :

Les questions biologiques Les méthodes statistiques
Comment rendre comparables les résultats de plusieurs expériences (normalisation) ? soustraction ligne de base (SNV, DT, MSC) alignement de pics (classification non supervisée)

Comment identifier des bio-marqueurs ?
méthodes de sélection de variables, méthodes de classification supervisée

            Etude des données concernant les SNP (Single Nucleotide Polymorphism) :

Les questions biologiques Les méthodes statistiques
Comment contrôler l'adéquation des données aux modèles génétiques classiques ? Equilibre de Hardy-Weinberg
Comment identifier des loci en déséquilibre de liaison ? tests non paramétriques (chi-deux, ...), tests multiples
Comment identifier des bio-marqueurs (analyses d'association) ? tests d'indépendance, régression logistique

           Etude des données de séquençage haut-débit :

Les questions biologiques Les méthodes statistiques
Comment modéliser les données ? Ajustements de lois (Poisson, Binomiale Négative)
Comment identifier des bio-marqueurs ? Rapports de vraisemblances, tests exacts

Bibliographie :
Hastie, Tibshirani, Friedman (2001) : The elements of statistical learning. Springer.
Draghici, S. (2012) : Statistics and data analysis for microarrays using R and bioconductor, 2ème édition, 2012, Chapman & Hall
Gentleman, R., Carey, V.J., Huber, W., Irizarry, R.A. & Dudoit, S. (2005) : Bioinformatics and computational biology solutions using R and bioconductor. Springer.
Saporta G. (2006) : Probabilités, Analyse des Données et Statistique, 2ème édition, 2006, Technip.

 

Modèles de génétiques des populations

F. Rousset

Objectifs du cours :

L'objectif de ce cours est de donner une introduction à l'analyse statistique de la variation génétique des populations naturelles. On présentera les concepts essentiels de la génétique des populations (forces évolutives dans les populations naturelles, processus de coalescence), les types de données (courtes séquences d'ADN, données génotypiques, génomes entiers), les différentes inférences possibles (paramètres démographiques et historiques des populations, base génétique de l'adaptation), ainsi que les méthodes sous jacentes. Ce cours sera illustré par des exemples concrets de ce que l'on peut inférer à partir de l'étude du polymorphisme génétique et des TD.

Pré-requis : bases de probabilités, utilisation de R