Get access

Size distributions for all cities: Which one is best?


  • The authors acknowledge financial support from the Spanish Ministerio de Educación y Ciencia (ECO2009-09332 and ECO2010-16934 projects, and grant AP2008-03561), the DGA (ADETRE research group), FEDER, and the Generalitat (2009SGR102). Earlier versions of this paper were presented at the 59th Annual North American Meetings of the Regional Science Association International (Ottawa, 2012) and at the XXXVII Symposium of Economic Analysis (Vigo 2012). All the comments made by participants at these events were highly appreciated. We thank Murray Jorgensen for sharing with us his R code.


This paper analyses four statistical distributions used to describe city size distributions: lognormal, double Pareto lognormal, q-exponential, and log-logistic. We use un-truncated city size data for the US, Spain and Italy from 1900 until 2010, and, in addition, the last available year for the remaining countries of the OECD. We estimate the four functions by maximum likelihood. To check the goodness of the fit we use the Kolmogorov-Smirnov and Cramér-von Mises tests, and compute the Akaike information criterion and Bayesian information criterion. The results show that the distribution which best fits data in most of the cases (86.76%) is the double Pareto lognormal.


Este artículo analiza cuatro distribuciones estadísticas utilizadas para describir las distribuciones del tamaño de las ciudades: lognormales, doble Pareto lognormal, q-exponencial y log-logística. Utilizamos datos no truncados del tamaño de ciudades para los EE.UU., España e Italia desde 1900 hasta 2010, y, además, el último año disponible para los demás países de la OCDE. Estimamos las cuatro funciones por máxima verosimilitud. Para comprobar la bondad del ajuste utilizamos las pruebas de Kolmogorov-Smirnov y Cramer-von Mises, y calculamos el criterio de información de Akaike y el criterio de información bayesiano. Los resultados muestran que en la mayoría de los casos (86,76%) la distribución que mejor se ajusta a los datos es la doble Pareto lognormal.