Modèles stochastiques appliqués en médecine :

Nicolas Molinari

L'objet de ce cours est de donner un certains nombre d'outils statistiques pour l'analyse de données issues du contexte médical. En
particulier, sera abordé l'analyse des données de survie avec l'étude de la censure, des modèles paramétriques, non paramétriques et
semi-paramétriques. Des généralisations via des mélanges de lois, des méthodes de partitionnement, des modèles non linéaires et des modèles
multi-états seront proposées. La notion de U-statistique permettra d'introduire les modèles à risques compétitifs. Une autre thématique
sera l'étude d'événements ponctuels de R^p; ce type de données pouvant être illustré par les dates d'occurrence d'une pathologie particulière
(épidémie). De même, sera traitée la notion de méta-analyse d'études cliniques. Enfin, des notions d'analyse des données génétiques seront
abordées.

Bibliographie :

Collett, D. (1994), Modelling Survival Data in Medical Research, Chapman & Hall, London.
Lange, K. (1997), Mathematical and Statistical Methods for Gentic Analysis, Springer, New York.
Lawless, J.F. (1982), Statistical Models and Methods for Lifetime Data, John Wiley & Sons, New York.
Zhang, H. & Burton S. (1999), Recursive Partitioning in the Health Sciances, Springer, New York.

 

Processus et applications en médecine :

Jean-Pierre Daurès

Première partie :
Fondements du calcul Bayésien, fonction de risque, estimation bayésienne, décision bayésienne, applications en médecine et biologie.
Différents types de lois a priori avec discussion. Lois conjuguées, mesure de Prohorov. Application au modèle linéaire, linéaire généralisé
et en génomique (présentation succincte des méthodes numériques bayésiennes : Metropolis-Hastings, EM, SEM,...)

Deuxième partie :
Rappels sur les processus de comptage, la décomposition de Doob, la théorie des martingales et le théorème limite central des martingales. Vraisemblance partielle, application aux processus. Intérêt et application cliniques : survie avec censure non informative ou
informative, survie ajustée sur la qualité de vie, études coût efficacité et étude de bénéfice net incrémentiel.

 

Méthodes paramétriques en Biostatistique :

Gilles Ducharme

Le but de ce cours est de présenter de façon rigoureuse les outils de base de l’inférence statistique (estimateurs, tests d’hypothèses) pour les modèles paramétriques. Ces outils sont un élément essentiel de l’arsenal du statisticien. Ils constituent l’épine dorsale sur laquelle repose l’essentiel des méthodes d’inférence en biostatistique. Le cours s’articule autour de 8 leçons dont voici une courte description :

Leçons 1 et 2) Rappel des notions de base : Modes de convergence, Méthodes d’estimation classique : Moments et EVM. Trio de tests dans des modèles paramétrique

Leçon 3) Application à l’analyse de données discrètes : tables de contingence et modèles log-linéaires pour plan d’échantillonnage à 1 multinomiale

Leçon 4) suite: tables de contingence et modèles log-linéaires pour plan d’échantillonnage « X de multinomiales ». Inférence exacte dans les tables de contingence.

Leçon 5) Tests d’adéquation 1 : cas où H0 est simple. Test du , test de Kolmogorov, tests de type Cramér von Mises, tests lisses de Neyman, tests lisses de Ledwina pilotés par les données.

Leçon 6) Régression linéaire et non linéaire : Inférence et tests d’hypothèses dans le cas d’erreurs gaussiennes. Extension aux cas d’erreurs non gaussiennes.

Leçon 7) Tests d’adéquation 2 : cas où H0 est composite. Adaptation des tests présentés au Cours 5) à ce contexte. Généralisation au problème de tester l’adéquation de modèles de régression.

Leçon 8 a) Modèles GLM : Cas particulier de la régression logistique. Lien canonique et autres fonctions de lien. Modèle Poissonnien, Modèle de Gamma. Autres modèles importants.

Leçon 8 b) : Sélection de modèle : Méthode AIC, BIC. Lien avec les tests de vraisemblance maximale. Variantes.

Bibliographie :

Gouriéroux, C., Monfort, A., (1989) : Statistique et Modèles Économétriques. Vol. 1 et 2, Economica, Paris. ISBN 2-7178-1667-4 et 1668-2.
Bishop, Y.M.M., Fienberg, S.E., Holland, P.W. (1975) : Discrete Multivariate Analysis, MIT Press, Cambridge. ISBN 0-262-52040-0.
Burnham, K.P., Anderson, D.R. (2002) : Model selection and multimodel inference : a practical information-theoretic approach. Springer-Verlag, New-York, 2nd ed.
Plackett, R.L. (1981) : The Analysis of Categorical Data 2nd edition. Griffin statistical monograph #35, London. ISBN 0-85264-265-2
D’Agostino R.B., Stephens, M.A. (1986) : Goodness-of-fit Techniques. Marcel Dekker, New-York. ISBN 0-8247-7487-6.
Seber, G.A.F. (1977) : Linear Regression Analysis. Wiley, New-York.
Seber, G.A.F., Wild, C.J. (1989) : Nonlinear regression. Wiley, New York. ISBN 0-471-61760-1.
Ccullagh, P., Nelder, J.A. (1983) : Generalized Linear Models. Chapman et Hall, London. ISBN 0-412-23850-0

 

Modélisation stochastique en biologie :
Processus markoviens, algorithme EM et sélection de modèles

Yann Guédon

La première partie de ce cours est consacrée à la présentation de grandes familles de processus stochastiques : processus de renouvellement et différentes classes de processus markoviens et semi markoviens. Les chaînes de Markov d’ordre variable, les processus agrégés construits à partir de chaînes de Markov et les (semi )chaînes de Markov cachées sont notamment présentés. Ces différentes familles de processus stochastiques sont à la base de la modélisation statistique de données biologiques structurées en séquences ou en arborescences et permettent notamment d’identifier des motifs ou de détecter des zones homogènes et des ruptures dans ces données. Du fait soit de mécanismes de censure (processus de renouvellement et processus semi markoviens), soit de la présence de variables cachées ((semi )chaînes de Markov cachées), se posent des problèmes d’estimation aux données incomplètes.

La seconde partie de ce cours est consacrée aux méthodes statistiques nécessaires pour l’estimation des processus stochastiques étudiés dans le première partie : l’algorithme EM et ses variantes stochastiques dédiés aux problèmes d’estimation aux données incomplètes et les méthodes de sélection de modèles (sélection de l’ordre d’une chaîne de Markov, du nombre d’états d’une chaîne de Markov cachée). Des liens sont montrés avec d’autres champs de la statistique : chaîne de Markov cachée vue comme un modèle à espace d’états, certains modèles markoviens (cachés) vues comme des modèles graphiques …

Ce cours est illustré par divers exemples issus principalement de l’analyse de la structure et de la croissance des plantes mais aussi d’autres applications biologiques (analyse de séquences d’ADN …).


Bibliographie :

Burnham, K. P. & Anderson, D. R. (2002). Model Selection and Multimodel Inference. A Practical Information-Theoretic Approach, 2ème édition. New York : Springer.
Durbin, R., Eddy, S. R., Krogh, A. & Mitchison, G. J. (1998). Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge : Cambridge University Press.
Guttorp, P. (1995). Stochastic Modeling of Scientific Data. London : Chapman & Hall.
Karlin, S. & Taylor H. M. (1975). A First Course in Stochastic Processes. 2ème édition, Academic Press.
Karlin, S. & Taylor, H. M. (1981). A Second Course in Stochastic Processes. Academic Press.
Kulkarni, V. G. (1995). Modeling and Analysis of Stochastic Systems. London : Chapman & Hall.
MacDonald, I. L., & Zucchini, W. (1997). Hidden Markov and Other Models for Discrete-valued Time Series. London : Chapman & Hall.
McLachlan, G. J. & Krishnan, T. (1997). The EM Algorithm and Extensions. New York : Wiley.

 

Statistiques spatiales : Introduction à la Géostatistique

Denis ALLARD

Ce cours est une introduction aux statistiques spatiales, à la théorie des champs aléatoires et à la pratique de la géostatistique.

1. Théorie des champs aléatoires : les différentes hypothèses de stationnarité, propriété des fonctions de covariance et du variogramme, théorie spectrale des champs aléatoires.

2. Estimation de la fonction de covariance : le variogramme empirique, ses propriétés, l'analyse structurale.

3. Le krigeage pour la prédiction spatiale : krigeage simple, krigeage ordinaire, système de pondérations, erreur de prédiction, validation croisée.

4. Géostatistique dans le cadre non-stationnaire : krigeage universel, FAIk, krigeage avec dérive externe.

5. Simulation de champs aléatoires, simulations conditionnelles.

Ce cours s'appuiera sur des traitements de cas d'étude avec le logiciel R ( http://cran.r-project.org/ ).

Bibliographie :

Chilès, J-P. and Delfiner, P. (1999) Geostatistics : Modeling Spatial Uncertainty. Wiley Series in Probability and Statistics, Wiley, 695 p.
Cressie, N. (1991) Statistics for Spatial Data. Wiley, New-York.
Stein, M. (1999) Interpolation of spatial data : some theory for kriging. Springer-Verlag. 246 p.
Wackernagel, H. (1995) Multivariate Geostatistics. Springer-Verlag, Berlin. 256 p.

 

Estimation non paramétrique et décision :

Alain Berlinet

Le but de ce cours est de donner des notions de base dans un certain nombre de domaines des Probabilités et Statistique, comme les processus stochastiques, l'estimation non paramétrique, l'étude des mesures et mesures aléatoires, les théorèmes limites, la décision statistique, en mettant l'accent sur des outils et concepts fondamentaux qui sont communs à ces domaines. En particulier les structures de covariance (uni, multi ou infini-dimensionnelles) jouent un rôle clé en Statistique. Elles sont liées à des espaces particuliers de fonctions dont l'exploitation s'avère très fructueuse. Le cours traitera des aspects théoriques et pratiques en passant en revue des applications au filtrage, aux splines, à la détection et à l'extraction de signaux, à l'estimation de densité ou de régression ainsi qu' à l'apprentissage. Il s'appuiera sur l'ouvrage suivant :

Bibliographie :

A. Berlinet et C. Thomas-Agnan (2004). Reproducing Kernel Hilbert Spaces in Probability and Statistics, Kluwer Academic Publishers.

 

Théorie et pratique de la statistique bayésienne :

Christophe Abraham

Ce cours propose une étude, à la fois théorique et pratique, des principaux modèles bayésiens. Dans un premier temps, il aborde les modèles paramétriques de bases (observations binomiales ou normales) avec les lois a priori conjuguées ou non-informatives.
Les chapitres suivants sont consacrés au modèles linéaires et linéaires hiérarchiques avec une étude détaillée de la régression et du modèle mixte. Le modèle multinomial sera ensuite l'occasion d'aborder la statistique bayésienne nonparamétrique avec l'étude de la loi de Dirichlet et du processus de Dirichlet. Pour finir, le modèle nonparamétrique hiérarchique (modèle hiérarchique complété par un "étage" supplémentaire non paramétrique) sera abordé.
Suivant la vitesse de progression du cours, certains points importants comme ,par exemple, le choix de modèle, le choix de design ou la classification, pour lesquels le point de vue bayésien apporte une réponse originale, seront étudiés. De même, des sujets plus théoriques, comme la statistique asymptotique, pourront être abordés.
Ce cours est illustré par de nombreux exercices autant théoriques que pratiques. Pour ces derniers, le traitement statistique sera réalisé à l'aide du logiciel R.
Aucun pré-requis n'est, a priori, nécessaire pour suivre ce cours.

 

Statistique des événements extrêmes :

Jean-Noël Bacro

Lorsque l'on s'intéresse au comportement extrême d'un phénomène sous-jacent sur la base d'un échantillon de réalisations de ce phénomène, les approches usuelles de la statistique classique s'avèrent inadaptées : non seulement les réalisations extrêmes sont - par définition- rares, mais encore les questions posées en pratique imposent le plus souvent d'extrapoler à partir de ces réalisations extrêmes ...
Les résultats théoriques sur le comportement stochastique des extrêmes d'échantillon qu'offrent la théorie des valeurs extrêmes permettent de proposer un cadre mathématique rigoureux pour réaliser de telles extrapolations. Le but du cours est de présenter les principales notions de la théorie des valeurs extrêmes et les modélisations utilisées en statistique des extrêmes. Dans un premier temps, nous considérerons le cadre univarié i.i.d., puis nous généraliserons notre approche aux cadres stationnaires et non-stationnaires, plus proches de la réalité des applications. L'aspect multivarié sera abordé au travers des extrêmes bivariés dont l'intérêt pour la modélisation de processus temporels ou spatiaux est réel en pratique. L'accent sera mis sur les méthodes statistiques et leurs applications, et le cours s'appuiera sur un jeu de donnéees de précipitations journalières à Marseille.

Bibliographie :

Coles, S., (2001) : An introduction to statistical modelling of extreme values. Springer.
Embrechts, P., Kluppelburg, C., Mikosh, T. (1998) : Modelling Extremal events for insurance and finance. Springer
.
Galambos, J. (1987) : The asymptotic theory of extreme order statistics. Wiley.

 

Méthodes multivariées d'analyse de données expérimentales :

Robert Sabatier

Le cours débute par des compléments de calcul matriciel, en particulier sur la dérivation matricielle, la recherche d'extrema libres et liés,
ainsi que sur les inverses généralisés. Illustré d'exemples pratiques réels, issus d'expérimentations agronomiques, ou biologiques, ce cours est organisé en trois grands chapitres. Dans le premier les méthodes traditionnelles de l'analyse multivariée sont présentées (ACP, AFC, PM) mais sans oublier les théorèmes d'optimalité associés. La deuxième partie est une présentation de méthodes mettant en jeu deux tableaux, en prenant soin de differencier les méthodes de prédiction (ACP, AFD, PLS) des méthodologies où l'on s'intéresse préferentiellement à la recherche de co-information (AC et AIBT). La dernière partie est une approche des techniques à tableaux multiples et multitableaux avec STATIS, ACIMOG, DO-ACT...

Bibliographie :

Hastie, Tibshirani, Friedman (2001) : The elements of statistical learning. Springer.
Mardia, Kent, Bibby (1979) : Multivariate analysis. Academic Press.
Saporta (1990) : Probabilités Analyse des Données et Statistique. Editions Technip.

 

Traitement statistique de données avec R ou SAS :

Pierre-André Cornillon

Cet enseignement est divisé en 8 cours de 2.5 h.
Cours 1 : Statistique élémentaire (E. Brunel)
Cours 2 : Test (C. Abraham)
Cours 3 : Régression (E. Brunel)
Cours 4 : Analyse de la variance et de la covariance (P.A. Cornillon)
Cours 5 : Régression logistique et discrimination (P.A. Cornillon)
Cours 6 : Arbres (P. Pudlo)
Cours 7 : Classification (P. Pudlo)

 

Méthodes de Monte-Carlo - Algorithmes stochastiques :

Jean-Michel Marin

Objectifs du cours

Le but de ce cours est de présenter les méthodes stochastiques d'approximation d'intégrale d'usage courant : méthodes de Monte-Carlo et méthodes de Monte-Carlo par Chaînes de Markov. De nombreux exemples issus de problématiques statistiques illustrent les développements. La mise en oeuvre des méthodologies exposées est effectuée à l'aide du langage R.

Plan du cours

1) Méthodes standard de simulation
2) Méthodes de Monte-Carlo
3) Rappels et compléments sur les chaînes de Markov
4) Méthodes de Monte-Carlo par Chaînes de Markov

Mots clés

Simulation, Méthodes de Monte-Carlo, Méthodes MCMC

Contrôle des connaissances

Projet : chaque étudiant devra réaliser, en binôme, à partir d'un sujet précis, un projet informatique implémentant les méthodes étudiées. Chaque binôme remettra un rapport et présentera les résultats obtenus lors d'une soutenance.

Bibliographie :

Ripley (1987) : Stochastic Simulation. Wiley.
Robert et Casella (2004) : Monte Carlo Statistical Methods. Springer-Verlag.

 

Processus empiriques :

Bruno Pelletier

Ce cours constitue une introduction à la théorie des processus empiriques en vue d'applications en statistique mathématique.
Les sujets abordés incluent : lois des grands nombres uniformes, inégalités exponentielles, théorèmes limites centraux uniformes, nombre d'entropie et de crochets, classes de Glivenko-Cantelli, classes de Donsker, classes de Vapnik-Cervonenkis, applications à la M-estimation et à la statistique non-paramétrique.

Bibliographie :

Billingsley, P. (1999) : Convergence of Probability Measures, 2nd edition. John Wiley, New-York.
Van der Vaart, A.W. and Wellner, J.A. (1996) : Weak Convergence and Empirical Processes. Springer.
Van de Geer, S (2000) : Empirical Processes in M-Estimation. Cambridge University Press.

Van der Vaart, a.W. (1998) : Asymptotic Statistics. Cambridge University Press.

 

Méthodes statistiques pour la génétique :

Pierre Pudlo - Pierre-André Cornillon

Ce cours se décompose en deux parties.

Dans la première partie, nous abordons les modeles mixtes qui sont à la base de la génétique quantitative. Nous envisagerons une modélisation fréquentiste des modèles hiérarchiques dont la modélisation bayesienne est exposée dans le cours intitulé Théorie et pratique de la statistique bayesienne. Nous présenterons:

i) le modèle utilisé en introduisant les effets aléatoires,
ii) deux méthodes d'estimation (vraisemblance et vraisemblance restreinte),
iii) les prévisions associées ainsi que leur incertitude,
iv) le choix de modèles par critère AIC et les examens des résidus.

Nous illustrerons ces différents points par des exercices tant théoriques que pratiques. Pour ces derniers, le traitement statistique sera réalisé à l'aide du logiciel R.

Dans la seconde partie, nous traiterons de l'inférence du passé. Après une présentation rapide de méthodes de clustering (par exemple, hiérarchique, k-means), nous étudierons la reconstruction d'arbres phylogénétiques. Le cours se terminera par une introduction au processus de coalescence. De nombreux exemples numériques seront traités à l'aide du logiciel R.

Bibliographie :

R.C. Deonier, S. Tavaré, M.S. Waterman (2005) : Computational Genome Analysis, An introduction. Springer, New-York.
J. Hartigan, M. Wong (1979) : A K-means clustering algorithm. Applied Statistics, 28:100-108.
M. Lynch and B. Walsh (1998) : Genetics and Analysis of Quantitative Traits. Sinauer Associates.

S. Tavaré (2004) : Ancestral inference in population genetics. Lecture Notes in Math., 1837, Springer, Berlin