Go to page
 

Bibliographic Metadata

Title
Bayesian modelling of underreported count data / Author Mag. Michaela Dvorzak
AuthorDvorzak, Michaela
CensorWagner, Helga ; Lang, Stefan
PublishedLinz, April 2016
Descriptionvii, 134 Seiten : Illustrationen
Institutional NoteUniversität Linz, Univ., Dissertation, 2016
Bibliographic Source
Teil 1 auch erschienen in: Statistical Modelling, 2016, 1, 23 pages / Teil 2 online unter der URL: http://cran.r-project.org/package=pogit
LanguageEnglish
Bibl. ReferenceOeBB
Document typeDissertation (PhD)
Keywords (DE)bayesianische Statistik / logistische Regression / Markov Chain Monte Carlo (MCMC) Methoden / Pogit Modell / Poisson Regression / Überdispersion / Underreporting / Variablenselektion / Zähldaten
Keywords (EN)Bayesian inference / count data / logistic regression / Markov chain Monte Carlo (MCMC) methods / overdispersion / Pogit model / Poisson regression / underreporting / variable selection
Keywords (GND)Zähldaten / Erfassung / Unvollständigkeit / Bayes-Verfahren / Bayes-Entscheidungstheorie / Logit-Modell / Markov-Ketten-Monte-Carlo-Verfahren
URNurn:nbn:at:at-ubl:1-9208 Persistent Identifier (URN)
Restriction-Information
 The work is publicly available
Files
Bayesian modelling of underreported count data [4.55 mb]
Links
Reference
Classification
Abstract (English)

The analysis of count data within the framework of regression models plays a crucial role in many applied research fields. Due to this widespread use, there is a large scope of count data models considering various features of these data. This dissertation focuses on Bayesian modelling of count data which are subject to potential underreporting.

Underreporting is a common problem in applications, e.g., in criminology or epidemiology, and refers to the fallible mechanism in the data collection process. As a result, inference from the observed (reported) counts, which are only a fraction of the true counts, will be biased. To account for underreporting, the basic concept is to specify a joint model for the data generating process of events and the fallible reporting process, where the responses in both processes are related to a set of regressors. The most popular model for underreported count data is the Poisson-Logistic (Pogit) model. It is based on a standard Poisson regression model for the true counts and assumes a logit regression model for the reporting process. Identification of the Pogit model is an important issue and requires additional information on the reporting process.

In this thesis, Bayesian inference for the Pogit model is considered which is extended in various ways. The proposed extensions allow to model underreported clustered as well as (underreported) overdispersed count data. Furthermore, Bayesian variable selection is incorporated in both parts of the joint model using spike and slab priors to identify relevant regressors. Accounting for underreporting relies on additional information on the reporting process which may be provided by different sources: either by validation data, parameter restrictions (as a result of variable selection) or informative prior distributions.

To deal with overdispersion of count data due to omitted covariates, Poisson mixture models with different heterogeneity distributions are considered in this thesis which are also appropriate alternatives to the count data distribution in the Pogit model. In general, overdispersion may have various potential causes and can result either from the event generating process or the data collection process.

Bayesian inference for the presented models is based on Markov chain Monte Carlo (MCMC) sampling schemes that rely on data augmentation and auxiliary mixture sampling techniques. The main goal is to achieve model representations as conditionally Gaussian regression models in auxiliary variables to allow for more general and complex model specifications and straightforward implementation of variable selection. The sampling schemes are implemented in an R package which is available on the Comprehensive R Archive Network (CRAN). The proposed methods are illustrated in real data applications in the field of epidemiology to account for underreporting of cervical cancer death risk and norovirus infections.

Abstract (German)

Die Analyse von Zähldaten im Rahmen von Regressionsmodellen spielt eine wesentliche Rolle in vielen Forschungsbereichen. Aufgrund der weitverbreiteten Anwendung existiert eine große Bandbreite an Modellen für Zähldaten, die verschiedene Eigenschaften dieser Daten berücksichtigen. Diese Dissertation richtet ihr Hauptaugenmerk auf Bayesianische Ansätze zur Modellierung von Zähldaten, für die Underreporting vorliegt.

Underreporting ist ein häufiges Problem in Anwendungen, beispielsweise in der Kriminologie oder der Epidemiologie, und bezieht sich auf den fehlerhaften Mechanismus bei der Datenerfassung. Demzufolge führt eine Inferenz auf Basis der beobachteten (gemeldeten) Fälle, die lediglich einen Teil der tatsächlichen Fälle darstellen, zu verzerrten Schätzergebnissen. Um Underreporting von Zähldaten zu berücksichtigen, besteht die Grundidee darin, einerseits den Prozess des Auftretens der Fälle, andererseits den fehlbaren Reportingprozess (Meldeprozess) in Abhängigkeit von Kovariablen zu modellieren. Das gängigste Modell für Underreporting von Zähldaten ist das Poisson-Logistische (Pogit) Modell. Es basiert auf einem Poisson-Regressionsmodell für die tatsächliche Anzahl an Fällen und der Annahme eines logistischen Regressionmodells für den Reportingprozess. Die Identizierbarkeit des Pogit Modells ist ein wesentlicher Aspekt und erfordert zusätzliche Information über den Reportingprozess.

In dieser Dissertation wird eine Bayesianische Schätzmethode für das Pogit Modell vorgestellt, das in verschiedener Weise erweitert wird. Die vorgeschlagenen Erweiterungen ermöglichen es, Underreporting sowohl bei gruppierten Zähldaten (in Clustern) als auch bei Zähldaten mit Überdispersion zu berücksichtigen. Außerdem werden in beiden Modellteilen Verfahren der Bayesianischen Variablenselektion zur Auswahl von Prädiktoren eingesetzt. Die Berücksichtigung von Underreporting beruht auf zusätzlicher Information über den Meldeprozess, die aus unterschiedlichen Quellen zur Verfügung gestellt werden kann: etwa durch Validierungsdaten, Parameterrestriktionen (als Ergebnis der Variablenselektion) oder informative a-priori Verteilungen.

Um mit Überdispersion von Zähldaten umzugehen, die auf nicht erklärte Heterogeneität im Modell zurückzuführen ist, werden in dieser Dissertation Poisson-Mischungsmodelle auf Basis unterschiedlicher Heterogenitätsverteilungen verwendet. Diese Modelle stellen auch geeignete Alternativen zur Verteilung der Zähldaten im Pogit Modell dar. Im Allgemeinen kann Überdispersion viele mögliche Gründe haben und sowohl durch den Generierungsprozess der Fälle als auch den Reportingprozess verursacht werden.

Für die Bayesianische Schätzung der Modelle werden Markov Chain Monte Carlo (MCMC) Methoden entwickelt, die auf Datenerweiterungstechniken beruhen. Auf diese Weise werden Modelldarstellungen in Form von konditionalen normalverteilten Regressionsmodellen erzielt, die allgemeinere und komplexere Modellspezifikationen sowie eine einfache Umsetzung der Variablenselektion ermöglichen. Die implementierten MCMC-Methoden werden als R-Package auf CRAN (Comprehensive R Archive Network) öffentlich zur Verfügung gestellt. Die vorgeschlagenen Methoden werden anhand von Anwendungen auf echte Daten auf dem Gebiet der Epidemiologie veranschaulicht, in denen Underreporting bei Gebärmutterhalskrebs und Norovirus-Infektionen berücksichtigt wird.