Get access

Validation Tests of Predictive Models of Butterfly Occurrence Based on Environmental Variables

Authors

  • Erica Fleishman,

    Corresponding author
    1. Center for Conservation Biology, Department of Biological Sciences, Stanford University, Stanford, CA
      94305–5020, U.S.A.
    Search for more papers by this author
  • Ralph Mac Nally,

    1. Australian Centre for Biodiversity: Analysis, Policy and Management, School of Biological Sciences,
      Monash University 3800, Clayton, Australia
    Search for more papers by this author
  • John P. Fay

    1. Center for Conservation Biology, Department of Biological Sciences, Stanford University, Stanford, CA
      94305–5020, U.S.A.
    Search for more papers by this author

‡ email efleish@stanford.edu

Abstract

Abstract: Ecologists often seek to predict species distributions as functions of abiotic environmental variables. Statistical models are useful for making predictions about the occurrence of species based on variables derived from remote sensing or geographic information systems. We previously used 14 topographically based environmental variables from 49 locations in the Toquima Range ( Nevada, U.S.A. ) and species inventories conducted over 4 years ( 1996–1999 ) to model logistically the occurrence of resident butterfly species. To test the models, we collected new validation data in 39 locations in the nearby Shoshone Mountains in 2000–2001. We used a series of “classification rules” based on conventional logistic and Bayesian criteria to assess the success rates of predictions. The classification rules represented a gradient of stringency in the “certainty” with which predictions were made. More stringent rules reduced the number of predictions made but greatly increased the success rate of predictions. For comparisons of classification rules making similar numbers of predictions, conventional logistic and Bayesian criteria produced similar outcomes. Success rates for predicted absences were uniformly higher than for predicted presences. Increasing the temporal extent of data from 1 to 2 years elevated success rates for predicted presences but decreased success rates for predicted absences, leaving the overall success rates essentially the same. Although species occurrence rates ( the proportion of locations in which each species was found ) were correlated between the modeling and validation data sets, occurrence rates for many species increased or decreased substantially; erroneous predictions were more likely for those taxa. Model fit ( measured by the explained deviance ) was an indicator of the probable success rate of predicted presences but not of predicted absences or overall success rates. We suggest that classification rules for predicting likely presences and absences may be decoupled to improve overall predictive success. Our general framework for modeling species occurrence is applicable to virtually any taxonomic group or ecosystem.

Abstract

Resumen: A menudo los ecólogos tratan de predecir la distribución de especies en función de variables ambientales abióticas. Los modelos estadísticos son útiles para hacer predicciones sobre la presencia de especies en base a variables derivadas de sistemas de percepción remota o de información geográfica. Previamente utilizamos 14 variables ambientales topográficas de 49 localidades en las Montañas Toquima ( Nevada, EE.UU. ) e inventarios de especies realizados a lo largo de cuatro años ( 1996–1999 ) para modelar logísticamente la presencia de especies de mariposas residentes. Para poner a prueba los modelos, recolectamos nuevos datos de validación en 39 localidades en las Montañas Shoshone cercanas en 2000 y 2001. Utilizamos una serie de “reglas de clasificación” basadas en criterios logísticos convencionales y Bayesianos para evaluar las tasas de éxito de las predicciones. Las reglas de clasificación representaron un gradiente de estrechez en cuanto a la “certidumbre” con la que se hicieron las predicciones. Las reglas más estrechas redujeron el número de predicciones pero incrementaron significativamente las tasas de éxito predictivo. Para comparaciones de reglas de clasificación con números de predicciones similares, los criterios logísticos convencionales y Bayesianos produjeron resultados similares. Las tasas de éxito para ausencias predichas fueron uniformemente superiores que las de presencias predichas. El incremento en la extensión temporal de los datos de un año a dos aumentó las tasas de éxito para presencias predichas pero disminuyó las tasas de éxito para ausencias predichas, con lo que las tasas de éxito en general permanecieron iguales. Aunque las tasas de presencia de especies ( proporción de localidades en la que se encontró a cada especie ) se correlacionaron entre los conjuntos de datos de modelación y los de validación, las tasas de presencia de muchas especies aumentaron o disminuyeron sustancialmente; para esos taxones las predicciones erróneas fueron más probables. El ajuste del modelo ( medido por la desviación explicada ) fue un indicador de la probable tasa de éxito de presencias predichas pero no de ausencias predichas ni tasas de éxito totales. Sugerimos que las reglas de clasificación utilizadas para predecir probables presencias y para predecir probables ausencias pueden ser desacopladas para mejorar el éxito predictivo total. Nuestro marco general para modelar la ocurrencia de especies es aplicable a virtualmente cualquier grupo taxonómico o ecosistema.

Ancillary