Información

Uso del análisis de correspondencia canónico en matrices con datos faltantes


Tengo una matriz de sitios donde no se tomaron muestras de todas las variables ambientales que quiero evaluar. En otras palabras, hay sitios con todo el conjunto de variables muestreadas, y hay otros sitios donde solo se muestrearon algunas variables. ¿El análisis de correspondencia canónico funciona con datos faltantes para las variables ambientales? Si es así, ¿cuál sería el efecto de no incluir los valores perdidos?


Primero, no puede analizar completamente las correlaciones por pares entre sus variables ambientales con valores NA y, por lo tanto, no puede descontar completamente las variables covariantes incluidas. Si este es el caso, no podrá saber cuál de las variables covariantes es responsable de las tendencias en sus datos.

En segundo lugar, no creo que CCA funcione con valores NA; tendrá que eliminar las observaciones que contienen esos valores faltantes o completarlas con promedios de columna. Sin embargo, ambos métodos tendrán un impacto en sus resultados, así que avance con cautela.

En tercer lugar, me pregunto si CCA es el camino a seguir. nMDS (escalamiento multidimensional no métrico) está mucho menos restringido que CCA. Además, no sufre tantas suposiciones / limitaciones como CCA.

De McCune y Grace (2002):

Las siguientes dos preguntas pueden usarse para decidir si la ACC es apropiada: (1) ¿Está interesado solo en la estructura de la comunidad que está relacionada con sus variables ambientales medidas? (2) ¿Es razonable un modelo unimodal de respuestas de especies al medio ambiente? Si, para un problema específico, responde sí a ambos, entonces CCA podría ser apropiado

Sin embargo, la falta de datos ambientales sigue siendo un problema en nMDS.


Puntuaciones de biplot del análisis de correspondencia canónica

Estoy usando el paquete R vegano para realizar análisis de correspondencia canónica (CCA). Como entrada tenemos dos matrices, una es (sitios) x (especie) y la otra es (sitios) x (condiciones).

Los datos de muestra (y la fuente del gráfico) están aquí.

Se puede acceder fácilmente a las cargas de especies con un resumen (cca_model) $ especie. Lo que estoy tratando de encontrar son las cargas para las variables explicativas, las condiciones. El único resumen que puedo encontrar son las puntuaciones biplot. Al revisar la documentación para veganos, no puedo encontrar ninguna descripción de cómo se calculan. ¿Puedo sumarlos en los componentes de CCA para tener una idea de cuánto influyen en los datos?

Esta es una biplot de dos componentes CCA. Las puntuaciones se utilizan como coordenadas para las flechas.

¿Qué son las puntuaciones biplot en el contexto de CCA?

¿Se pueden usar las puntuaciones de biplot para determinar cuánto efecto tienen las condiciones en las variables de respuesta?


Herramientas filogenéticas para biología comparada

Acabo de publicar una nueva función para realizar análisis de correlación canónica filogenética. La correlación canónica es un procedimiento mediante el cual, dados dos conjuntos de variables (digamos, un conjunto de Xsy un conjunto de Y), identificamos las combinaciones lineales ortogonales de cada uno que maximizan las correlaciones entre los conjuntos. Este tipo de análisis se utiliza de forma más natural en un estudio evolutivo para analizar, digamos, un conjunto de variables morfológicas y un conjunto de variables ambientales o ecológicas.

La versión filogenética de este análisis tiene en cuenta la filogenia y un modelo de evolución (explícito o implícito) para encontrar la combinación lineal de Xarena Ys que maximiza la correlaciones evolutivas (es decir, la correlación inferida de cambios evolutivos) entre los dos conjuntos (Revell y Harrison 2008).

El programa es muy sencillo. El enlace directo al código está aquí. Para usar la función, primero cargue la fuente:

Aquí, árbol es un árbol filogenético y X e Y son dos matrices de datos que contienen valores para uno o varios caracteres en columnas y especies en filas. Las filas deben nombrarse por especie.

Los resultados se devuelven como una lista con los siguientes elementos:

> resultado
$ cor
[1] 0.3764753 0.1852836 0.1054606
$ xcoef
CA1 CA2 CA3
[1,] 0.04497549 -0.09956576 -0.45926364
[2,] -0.18997199 0.46065246 -0.07810429
[3,] -0.42425815 -0.16063677 -0.18791902
[4,] 0.25374826 0.29822455 -0.06176255
$ ycoef
CA1 CA2 CA3
[1,] -0.2704762 -0.3841450 0.1029158
[2,] -0.1048448 0.2502089 0.5860655
[3,] 0.3736474 -0.2580132 0.2743137
$ xscores
CA1 CA2 CA3
1 0.27821077 -0.33344726 0.94985154
2 -0.23088044 0.78905936 0.26050453
3 -1.44525534 -0.22803129 -0.64071476
.
$ yscores
CA1 CA2 CA3
1 0.55710619 -0.850905958 0.300282830
2 1.41482268 1.237829442 -0.446763906
3 -1.40453596 0.227361557 -0.964307876
.
$ chisq
[1] 8.9531203 2.0752824 0.5032912
$ p
[1] 0.7069293 0.9126462 0.7775202

Aquí, $ cor es el conjunto de correlación canónica $ xcoef & $ ycoef son los coeficientes canónicos $ xscores & $ yscores son las puntuaciones canónicas, en términos de la especie original y $ chisq & $ p son Y Chi 2 con los valores p correspondientes. Los valores p se interpretan correctamente como la probabilidad de que el Ith y todas las correlaciones posteriores son cero.

Hace unos años lancé un programa en C que hace más o menos lo mismo, sin embargo, hay algunas diferencias.

1) Mi programa C optimiza globalmente el parámetro & lambda. Agregaré esto a la función actual de inmediato.

2) Mi programa C primero transforma los datos en un espacio libre de filogenia y luego calcula las correlaciones canónicas. Esto significa que, aunque las correlaciones son las mismas en ambos métodos, las puntuaciones ya no son en términos de especies y serán diferentes que en esta función.


Descripción de los datos

Para nuestro ejemplo de análisis, vamos a ampliar el ejemplo 1 sobre la investigación de las asociaciones entre las medidas psicológicas y las medidas de rendimiento académico.

Tenemos un archivo de datos, mmreg.dta, con 600 observaciones sobre ocho variables. Las variables psicológicas son locus_of_control, self_concept y motivación. Las variables académicas son pruebas estandarizadas en lectura (lectura), escritura (escritura), matemáticas (matemáticas) y ciencias (ciencias). Además, la variable mujer es una variable indicadora de cero a uno y la que indica una estudiante mujer.


Ver también

Esta página de ayuda describe dos funciones de ordenación restringidas, cca y rda. Un método relacionado, el análisis de redundancia basado en la distancia (dbRDA) se describe por separado (escala de mayúsculas). Todas estas funciones devuelven objetos similares (descritos en cca.object). Existen numerosas funciones de soporte que se pueden utilizar para acceder al objeto de resultado. En la lista siguiente, las funciones de tipo cca manejarán los tres objetos de ordenación restringidos, y las funciones de rda solo manejarán los resultados de rda y capscale.

Las principales funciones de trazado son plot.cca para todos los métodos y biplot.rda para RDA y dbRDA. Sin embargo, las funciones de trazado de gráficos veganos genéricos también pueden manejar los resultados. Se puede acceder a las puntuaciones y escalarlas con scores.cca y resumirlas con summary.cca. Se puede acceder a los valores propios con eigenvals.cca y a los coeficientes de regresión para las restricciones con coef.cca. Los valores propios se pueden trazar con screeplot.cca, y el (ajustado) R-cuadrado se puede encontrar con RsquareAdj.rda. Los puntajes también se pueden calcular para nuevos conjuntos de datos con predict.cca, que permite agregar puntos a las ordenaciones. Los valores de las restricciones se pueden inferir de la ordenación y la composición de la comunidad con calibrate.cca.

Las estadísticas de diagnóstico se pueden encontrar con goodness.cca, inertcomp, spenvcor, intersetcor, tolerancia.cca y vif.cca. La función as.mlm.cca reajusta el objeto de resultado como un objeto de lm múltiple, y esto permite encontrar estadísticas de influencia (lm.influence, cooks.distance, etc.).

La significación basada en permutación para el modelo general, variables o ejes de restricción individuales se puede encontrar con anova.cca. Construcción automática de modelos con R La función de paso es posible con deviance.cca, add1.cca y drop1.cca. Las funciones ordistep y ordiR2step (para RDA) son funciones especiales para la ordenación restringida. Se pueden generar conjuntos de datos aleatorios con simulate.cca.

Los métodos separados basados ​​en el modelo de ordenación restringida son las curvas de respuesta principal (prc) y la partición de la varianza entre varios componentes (varpart).

Las decisiones de diseño se explican en una viñeta sobre "Decisiones de diseño" a las que se puede acceder con navegarVignettes ("vegano").

El paquete ade4 proporciona la función de ordenación restringida alternativa pcaiv.


Escalado: análisis de correspondencia

5 extensiones

Aunque la aplicación principal de CA es una tabla de contingencia bidireccional, el método se aplica regularmente para analizar tablas de múltiples vías, tablas de preferencias, calificaciones, así como datos de medición en escalas de nivel de razón o intervalo. Para las tablas de múltiples vías, hay dos enfoques. El primer enfoque consiste en convertir la tabla en una tabla plana de dos direcciones que sea apropiada para el problema en cuestión. Por lo tanto, si se introduce una tercera variable en el ejemplo anterior, digamos 'sexo del encuestado', entonces una forma adecuada de aplanar la tabla de tres factores sería codificar interactivamente 'país' y 'sexo' como una nueva variable de fila, con 23 × 2 = 46 categorías, tabuladas de forma cruzada con las respuestas a las preguntas. Para cada país ahora habría un punto masculino y otro femenino y se podrían comparar sexos y países en este mapa más rico. Este proceso de codificación interactiva de las variables puede continuar siempre que los datos no se fragmenten demasiado en categorías interactivas de muy baja frecuencia.

Otro enfoque para los datos de múltiples vías, llamado análisis de correspondencia múltiple (MCA), se aplica cuando hay varias variables categóricas que bordean el mismo problema, a menudo llamadas "elementos". MCA generalmente se define como el algoritmo de CA aplicado a una matriz de indicadores Z siendo las filas los encuestados u otras unidades de muestreo, y las columnas las variables ficticias para cada una de las categorías de todas las variables. Los datos son ceros y unos, indicando los unos las categorías elegidas para cada encuestado. El mapa resultante muestra cada categoría como un punto y, en principio, también la posición de cada encuestado. Alternativamente, se puede configurar lo que se llama la matriz de Burt), B=ZZ, la tabla simétrica cuadrada de todas las tabulaciones cruzadas bidireccionales de las variables, incluidas las tabulaciones cruzadas de cada variable consigo misma (nombrada en honor al psicólogo Sir Cyril Burt). La matriz de Burt recuerda a una matriz de covarianza y el CA de la matriz de Burt se puede comparar con un PCA de una matriz de covarianza. El análisis de la matriz de indicadores Z y la matriz de Burt B dan coordenadas estándar equivalentes de los puntos de categoría, pero escalas ligeramente diferentes en las coordenadas principales ya que las inercias principales de B son los cuadrados de los de Z.

Una variante de MCA llamada análisis de correspondencia conjunta (JCA) evita el ajuste de las tablas en la diagonal de la matriz de Burt, que es análoga al análisis factorial de mínimos cuadrados.

En lo que respecta a otros tipos de datos, a saber, clasificaciones, calificaciones, comparaciones pareadas, escalas de razón y medidas de escala de intervalos, la idea clave es recodificar los datos en una forma que justifique las construcciones básicas de CA, a saber, perfil, masa y distancia chi-cuadrado. Por ejemplo, en el análisis de clasificaciones o preferencias, la aplicación del algoritmo CA a las clasificaciones originales de un conjunto de objetos por una muestra de sujetos es difícil de justificar, porque no hay ninguna razón por la que deba asignarse un peso proporcional a un objeto. a su clasificación promedio. Una práctica llamada duplicación resuelve el problema agregando un "anti-objeto" para cada objeto clasificado o un "anti-sujeto" para cada sujeto que responde, en ambos casos con clasificaciones en orden inverso. Esta adición de datos aparentemente redundantes lleva a CA a realizar de manera efectiva diferentes variantes del análisis de componentes principales en las clasificaciones originales.

Un hallazgo reciente de Carroll et al. (1997) es que CA se puede aplicar a una matriz simétrica cuadrada de distancias al cuadrado, transformada restando cada distancia al cuadrado de una constante que es sustancialmente mayor que la distancia al cuadrado más grande en la tabla. Esto produce una solución que se aproxima a la solución de escala clásica de la matriz de distancias.

Todas estas extensiones de CA se ajustan estrechamente a la concepción original de Benzécri & # x27s de CA como una técnica universal para explorar muchos tipos diferentes de datos a través de operaciones como la duplicación u otras transformaciones juiciosas de los datos.

Los últimos avances sobre el tema, incluidas las discusiones sobre las propiedades de muestreo de las soluciones de CA y una lista de referencia completa, se pueden encontrar en los volúmenes editados por Greenacre y Blasius (1994) y Blasius y Greenacre (1998).


Estadísticas de calidad en el análisis de correspondencia canónica

El análisis de correspondencia canónica es una importante herramienta multivariante en ecología. Un aspecto clave del análisis es la representación de especies óptimas, donde estas óptimas se estiman por los promedios ponderados de las especies con respecto a las variables ambientales. Este artículo muestra que, estrictamente hablando, el análisis de correspondencia canónica no optimiza la representación de la especie optima sino la inercia de la matriz de abundancia bajo restricciones lineales. Se argumenta que los autovalores obtenidos en el análisis, usualmente reportados en estudios aplicados, son una medida de la calidad de visualización de la matriz de abundancia, y solo indican la calidad de representación de la especie optima cuando las variables ambientales no están correlacionadas. En la práctica, las variables ambientales a menudo están correlacionadas. Por lo tanto, se necesitan estadísticas de calidad adicionales para expresar qué tan bien están representadas las especies óptimas. En este artículo derivamos estadísticas de calidad para la representación de las especies óptimas y las variables ambientales, y utilizamos datos artificiales y empíricos para ilustrar su uso. Copyright © 2001 John Wiley & Sons, Ltd.


Uso del análisis de correspondencia canónico en matrices con datos faltantes - Biología

Una alternativa sería utilizar un enfoque similar pero reemplazar el cálculo de la matriz de correlación con algo más adecuado y luego proyectar la matriz a dimensiones más bajas. Esta idea ha llevado a uno de los métodos más productivos y ampliamente utilizados en la historia del análisis multivariado en ecología: el análisis de correspondencia canónica o CCA. Así como RDA se relaciona con PCA, CCA se relaciona con CA. Es decir, (1) comience con una matriz de vegetación Chi-cuadrado [(real - predicho) / sqrt (predicho)], (2) haga una regresión de las diferencias de las expectativas sobre las variables ambientales para obtener valores ajustados, utilizando una regresión ponderada donde la abundancia total por parcelas se utiliza como ponderaciones, y (3) calcular la distancia euclidiana de la matriz de vegetación ajustada y proyectar mediante análisis propio. La importancia de las variables ambientales específicas se evalúa luego por su correlación con el diagrama de dispersión proyectado.

Al igual que CA, hay varios algoritmos disponibles para calcular CCA. El enfoque descrito anteriormente sigue el enfoque de Legendre y Legendre (1988). Ter Braak (19xx) describe un algoritmo basado en promedios recíprocos que es empleado por el popular programa CANOCO. El resultado es el mismo de cualquier manera.

Además, también hay más de un algoritmo S-Plus / R para calcular CCA. Stephane Dray contribuyó con CAIV, mientras que Jari Oksanen contribuyó con una función cca () como parte de su paquete vegano (versión 1-3.9 o posterior). Los dos difieren ligeramente en las convenciones para escalar los resultados. Debido a que la función vegan cca () devuelve resultados idénticos a CANOCO, y debido a que ya cargamos la biblioteca vegana, usaremos la función vegan cca (). Sin embargo, para mantener las gráficas producidas por cca () más comparables a las que hemos producido de otros programas, reemplazaremos las rutinas de gráficas provistas con la función vegana cca () por otras.

Ejecutando cca ()

Para calcular un CCA, seleccione aquellas variables ambientales que tenga motivos para creer que son importantes e introdúzcalas en el cca () funcionan en notación de fórmulas, al igual que lo hicimos para GLM y GAMS. La matriz de taxones completa va en el lado izquierdo de la ecuación, con las variables ambientales seleccionadas a la derecha.

En este ejemplo particular, el CCA no tuvo mucho éxito. En el CCA solo se capturó 0,6975 / 10,8656 o 0,064 de la variabilidad total. Claramente, el paso de regresión ponderado no fue muy exitoso para capturar la variabilidad en la composición de la vegetación, pero después de glm () y gam () no deberíamos sorprendernos demasiado.

El siguiente conjunto de líneas da los valores propios asociados con la proyección. La línea superior da los valores propios "restringidos". Debido a que solo teníamos tres variables en nuestro marco de datos ambientales, solo podemos tener tres valores propios restringidos. Los tres valores suman 0,69755. asi que

Trazando el CCA

En cuanto a CA, las especies se muestran como cruces rojas y las muestras como círculos negros. En este análisis, el primer eje está asociado con una elevación creciente, mientras que el segundo eje está asociado con una pendiente decreciente y un valor de aspecto creciente (av).

Como puede ver, las especies están bastante bien condensadas en el centro de la ordenación. Para ver mejor, podemos especificar "escala = 1" para que signifique "muestras como promedios ponderados de las especies".

El paquete vegano proporciona una serie de funciones gráficas para ordiplots, que incluyen puntos() y identificar(). Podemos usar el identificar() función para identificar muestras o especies específicas. Dependiendo de si desea una imagen más clara de las muestras de especies, puede trazar usando la escala apropiada y luego usar las funciones de identificación con la misma escala.

Adición de variables categóricas al análisis

Observe cuán diferente es esta trama de la primera. Si bien la variabilidad total explicada no aumentó mucho (y no puede disminuir con un aumento de grados de libertad), la regresión de la vegetación contra la posición topográfica además de las otras variables da como resultado una perspectiva bastante diferente sobre la variabilidad. Cada posible posición topográfica se traza en el centroide de las muestras de ese tipo, que se muestra como una "X". Para saber cuál es cuál, mire el último elemento del resumen del objeto cca.

Discusión

Funciones auxiliares

"Las funciones encuentran estadísticas que se asemejan a 'desviación' y 'AIC' en ordenación restringida. En realidad, los métodos de ordenación restringida no tienen una probabilidad logarítmica, lo que significa que no pueden tener AIC y desviación. Por lo tanto, no debe usar estas funciones y si las usa, no debe confiar en ellas. Si usa estas funciones, es su responsabilidad verificar la idoneidad del resultado ".

La siguiente función no utiliza directamente la probabilidad logarítmica, sino que emplea un enfoque de permutación bastante brutal y prueba si la adición de una variable explica más inercia de la esperada al azar. No obstante, estoy seguro de que Jari lo desaprueba y lo incluyo aquí por el bien que pueda servir.


El análisis de correspondencia canónica es una técnica desarrollada, creo, por la gente de ecología comunitaria. Un papel de fundación es Análisis de correspondencia canónica: una nueva técnica de vectores propios para el análisis de gradiente directo multivariante por Cajo J.F. Ter Braak (1986). El método implica un análisis de correlación canónico y un análisis de gradiente directo. La idea es relacionar las prevalencias de un conjunto de especies con una colección de variables ambientales.

Tradicionalmente, CCA (correlación) busca encontrar esa combinación lineal de las variables X y esa combinación lineal de las variables Y que tienen la mayor correlación entre sí. Se basa en la descomposición propia de $ Sigma_ <12> Sigma_ <22> ^ <-1> Sigma_ <21> $, donde las matrices Sigma son matrices de correlación de las variables. Ver Mardia, Kent y Bibby (Análisis multivariante).

Por tanto, CCA asume una relación lineal entre los dos conjuntos de variables. El análisis de correspondencia asume una relación diferente: las especies tienen una distribución gaussiana a lo largo de una dirección determinada por los factores ambientales.

Tenga en cuenta que CCA es simétrico en las variables X y las variables Y. El análisis de correspondencia no presupone simetría, ya que queremos explicar la especie en términos de su entorno, no al revés.


Análisis integrativo de dos conjuntos de datos

Los métodos de reducción de dimensiones de una tabla se han extendido a la EDA de dos matrices y pueden descomponer e integrar simultáneamente un par de matrices que miden diferentes variables en las mismas observaciones (Tabla 3). Los métodos incluyen SVD generalizada [42], Análisis de Co-Inercia (CIA) [43, 44], extensiones escasas o penalizadas de Mínimos Cuadrados Parciales (PLS), Análisis de Correspondencia Canónica (CCA) y Análisis de Correlación Canónica (CCA) [36, 45 –47]. Tenga en cuenta que tanto el análisis de correspondencia canónico como el análisis de correlación canónica se denominan mediante el acrónimo CCA. El análisis de correspondencia canónica es una forma restringida de AC que se utiliza ampliamente en las estadísticas ecológicas [46], sin embargo, aún no ha sido adoptado por la comunidad genómica en el análisis de pares de datos ómicos. Por el contrario, varios grupos han aplicado extensiones del análisis de correlación canónica a la integración de datos ómicos. Por lo tanto, en esta revisión, usamos CCA para describir el análisis de correlación canónica.


Ver el vídeo: Análisis de correspondencia (Enero 2022).