A Comparison of Six Methods for Missing Data Imputation

Peter  Schmitt; Jonas  M; el; Mickael  Guedj

A Comparison of Six Methods for Missing Data Imputation

Abstract

Peter Schmitt, Jonas Mandel and Mickael Guedj

Missing data are part of almost all research and introduce an element of ambiguity into data analysis. It follows that we need to consider them appropriately in order to provide an efficient and valid analysis. In the present study, we compare 6 different imputation methods: Mean, K-nearest neighbors (KNN), fuzzy K-means (FKM), singular value decomposition (SVD), bayesian principal component analysis (bPCA) and multiple imputations by chained equations (MICE). Comparison was performed on four real datasets of various sizes (from 4 to 65 variables), under a missing completely at random (MCAR) assumption, and based on four evaluation criteria: Root mean squared error (RMSE), unsupervised classification error (UCE), supervised classification error (SCE) and execution time. Our results suggest that bPCA and FKM are two imputation methods of interest which deserve further consideration in practice.

Isenção de responsabilidade: Este resumo foi traduzido usando ferramentas de inteligência artificial e ainda não foi revisado ou verificado

Compartilhe este artigo

Destaques do diário

Indexado em

Índice Copérnico
Google Scholar
Sherpa Romeu
Banco de dados de revistas acadêmicas
Abra o portão J
Genâmica JournalSeek
Chaves Acadêmicas
JornalTOCs
PesquisaBíblia
Infraestrutura Nacional de Conhecimento da China (CNKI)
Diretório de Periódicos de Ulrich
Acesso à Pesquisa Online Global em Agricultura (AGORA)
Biblioteca de Periódicos Eletrônicos
RefSeek
Universidade Hamdard
EBSCO AZ
Diretório de Indexação de Resumos de Periódicos
OCLC – WorldCat
Catálogo online SWB
Biblioteca Virtual de Biologia (vifabio)
Publons
Euro Pub

Jornal de Biometria e Bioestatística