Información

¿Cuál es el vector de respuesta en el modelo GLM de resonancia magnética funcional?

¿Cuál es el vector de respuesta en el modelo GLM de resonancia magnética funcional?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

En fMRI, el análisis univariante normalmente hace uso del modelo lineal general (GLM), donde la relación entre la condición experimental y la actividad BOLD se estima con un modelo de regresión lineal para cada vóxel por separado ("modelo univariado de masa"). Sin embargo, me resultó sorprendentemente difícil averiguar qué contiene el vector de respuesta $ Y $. Soy consciente de que es una medida de la señal dependiente del nivel de oxigenación de la sangre (señal BOLD), pero ¿qué se mide exactamente, es decir, cuáles son las unidades? ¿Es la relación oxi / desoxi o es otra propiedad?


Respuesta corta

Las unidades no son importantes y normalmente están normalizadas.

Respuesta más larga

El nombre "BOLD" es en realidad muy instructivo: Contraste (o señal) dependiente del nivel de oxigenación en sangre. BOLD no mide directamente nada como la relación oxigenado / desoxigenado, o probablemente lo llamaríamos algo más similar a eso: relación oxi / desoxi.

En cambio, "NEGRITA" es solo la imagen de resonancia magnética que obtiene cuando configura las propiedades del escáner de una manera que resulta estar influenciada por el nivel de oxigenación de la sangre. El nivel de oxigenación está lejos de ser el único factor que contribuye a la señal BOLD, pero experimentalmente intenta descartar cualquier influencia que varíe en el tiempo pero no sea interesante, e ignora los niveles de referencia que no cambian.

La fMRI funciona porque el tiempo de relajación transversal T2 del agua en la sangre depende de la oxigenación de la sangre. Del artículo original que muestra un contraste BOLD en un cerebro de rata, Ogawa et al. 1990:

A la intensidad de campo de 7-T utilizada en este estudio, T2 varía de 50 mseg al 100% de oxigenación a 4 mseg al 0% de oxigenación. La señal de la sangre venosa se vuelve muy débil cuando el valor de T2 se vuelve comparable o más corto que el tiempo de eco de la adquisición de la señal. A un nivel de oxigenación del 60%, el valor de T2 estimado es de 18 ms, similar al tiempo de eco utilizado en este informe.

En otras palabras, si produce imágenes de eco de gradiente con un tiempo de eco de 18 ms, las imágenes que obtiene muestran niveles de señal muy diferentes al 100% frente al 60% de oxigenación. Dependiendo de la fuerza de su imán, puede ajustar este tiempo para buscar las diferencias que desea ver.

No existe una forma sencilla de comparar imágenes grabadas en diferentes condiciones (es decir, diferentes escáneres, diferentes parámetros) en cualquier escala de medición útil. En cambio, las personas suelen informar valores relativos, ya sea en el tiempo o en el espacio. Por esta razón, a menudo ve señales NEGRITAS expresadas como un% de cambio o en términos de desviación estándar (es decir, puntajes z).

En última instancia, para ajustar un modelo lineal general no importa: puede escalar libremente una variable dependiente sin cambiar la estructura del ajuste del modelo, todo lo que influye es la interpretación de las magnitudes de la intersección y los coeficientes.

Referencias


Ogawa, S., Lee, T. M., Kay, A. R. y Tank, D. W. (1990). Imagen de resonancia magnética cerebral con contraste dependiente de la oxigenación sanguínea. Actas de la Academia Nacional de Ciencias, 87 (24), 9868-9872.


El modelo lineal general (GLM)

El descrito t La prueba para evaluar la diferencia de dos valores medios es un caso especial de un análisis de una variable independiente cualitativa (categórica). Una variable cualitativa se define por niveles discretos, por ejemplo, "estímulo desactivado" frente a "estímulo activado". Si un diseño contiene más de dos niveles asignados a uno o varios factores, se puede realizar un análisis de varianza (ANOVA), que puede considerarse como una extensión de la prueba t. El coeficiente de correlación descrito, por otro lado, es adecuado para el análisis de variables independientes cuantitativas. Una variable cuantitativa puede definirse por cualquier curso temporal gradual. Si se debe considerar más de un curso de tiempo de referencia, se puede realizar un análisis de regresión múltiple, que puede considerarse como una extensión del análisis de correlación lineal simple.

El modelo lineal general (GLM) es matemáticamente idéntico a un análisis de regresión múltiple, pero enfatiza su idoneidad para múltiples variables cualitativas y múltiples cuantitativas. El GLM es adecuado para implementar cualquier prueba estadística paramétrica con una variable dependiente, incluido cualquier diseño ANOVA factorial, así como diseños con una mezcla de variables cualitativas y cuantitativas (análisis de covarianza, ANCOVA). Debido a su flexibilidad para incorporar múltiples variables independientes cuantitativas y cualitativas, el GLM se ha convertido en la herramienta central para el análisis de datos de fMRI después de su introducción en la comunidad de neuroimagen por Friston y sus colegas (Friston et al. 1994, 1995). Las siguientes secciones describen brevemente los antecedentes matemáticos del GLM en el contexto del análisis de datos de fMRI. Se puede encontrar un tratamiento completo del GLM en la literatura estadística estándar, p. Draper y Smith (1998) y Kutner et al. (2005).

Nota: En la literatura sobre fMRI, el término "Modelo lineal general" se refiere a su versión univariante. El término "univariado" en este contexto no se refiere al número de variables independientes, sino al número de variables dependientes. Como se mencionó anteriormente, se realiza un análisis estadístico separado para cada serie temporal de vóxeles (variable dependiente). En su forma general, el Modelo Lineal General se ha definido para múltiples variables dependientes, es decir, abarca pruebas tan generales como el análisis de covarianza multivariante (MANCOVA).

Desde la perspectiva del análisis de regresión múltiple, el GLM tiene como objetivo "explicar" o "predecir" la variación de una variable dependiente en términos de una combinación lineal (suma ponderada) de varias funciones de referencia. La variable dependiente corresponde al curso de tiempo observado de fMRI de un vóxel y las funciones de referencia corresponden a cursos de tiempo de respuestas de fMRI esperadas (idealizadas) para diferentes condiciones del paradigma experimental. Las funciones de referencia también se denominan predictores, regresores, variables explicativas, covariables o funciones de base. Un conjunto de predictores específicos forma la matriz de diseño, también llamada modelo. Un curso de tiempo predictor se obtiene típicamente mediante la convolución de un curso de tiempo de vagón de caja de condición con una función de respuesta hemodinámica estándar (HRF de dos gamma o HRF de un solo gamma). Se puede definir un curso temporal de condición de vagón de caja estableciendo valores en 1 en los puntos de tiempo en los que se define la condición modelada ("activada") y 0 en todos los demás puntos de tiempo. Cada curso de tiempo predictor X obtiene un coeficiente asociado o peso beta b, que cuantifica su contribución potencial para explicar el curso de tiempo de vóxel y. El curso de tiempo del vóxel y se modela como la suma de los predictores definidos, cada uno multiplicado por el peso beta asociado b. Dado que esta combinación lineal no explicará perfectamente los datos debido a las fluctuaciones de ruido, se agrega un valor de error e al sistema de ecuaciones GLM con n puntos de datos yp predictores:

La variable y en el lado izquierdo corresponde a los datos, es decir, el curso temporal medido de un solo vóxel. El tiempo corre de arriba a abajo, es decir, y1 es el valor medido en el punto de tiempo 1, y2 el valor medido en el punto de tiempo 2 y así sucesivamente. El curso del tiempo del vóxel (columna de la izquierda) se "explica" por los términos en el lado derecho de la ecuación. La primera columna del lado derecho corresponde al primer peso beta b0. El curso de tiempo del predictor correspondiente X0 tiene un valor de 1 para cada punto de tiempo y, por lo tanto, también se denomina "constante". Dado que la multiplicación por 1 no altera el valor de b0, este curso temporal del predictor (X0) no aparece explícitamente en la ecuación. Después de la estimación (ver más abajo), el valor de b0 típicamente representa el nivel de señal de la condición de línea base y también se llama intercepción. Si bien su valor absoluto no es informativo, es importante incluir el predictor constante en una matriz de diseño, ya que permite que los otros predictores modelen pequeñas fluctuaciones relacionadas con la condición como aumentos o disminuciones en relación con el nivel de señal de la línea base. Los otros predictores en el lado derecho modelan los cursos de tiempo esperados de diferentes condiciones. Para diseños multifactoriales, los predictores pueden definirse codificando combinaciones de niveles de condición para estimar los efectos principales y de interacción. El peso beta de un predictor de condición cuantifica la contribución de su curso temporal a la explicación del curso temporal del vóxel. Si bien la interpretación exacta de los valores beta depende de los detalles de la matriz de diseño, un gran peso beta positivo (negativo) normalmente indica que el vóxel exhibe una fuerte activación (desactivación) durante la condición experimental modelada en relación con la línea de base. Todos los valores beta juntos caracterizan una "preferencia" de vóxeles por una o más condiciones experimentales. La última columna del sistema de ecuaciones contiene valores de error, también llamados residuales, errores de predicción o ruido. Estos valores de error cuantifican la desviación del curso temporal del vóxel medido del curso temporal predicho, la combinación lineal de predictores.

El sistema de ecuaciones GLM puede expresarse elegantemente usando notación matricial. Para ello, representamos el curso temporal del vóxel, los valores beta y los residuos como vectores, y el conjunto de predictores como una matriz:

Representando los vectores y la matriz indicados con letras simples, obtenemos esta forma simple del sistema de ecuaciones GLM:

En esta notación, la matriz X representa la matriz de diseño que contiene los cursos de tiempo del predictor como vectores de columna. Los valores beta ahora aparecen en un vector separado B. El término Xb indica multiplicación matriz-vector. La figura anterior muestra una representación gráfica del GLM. Los cursos de tiempo de la señal, los predictores y los residuos se han organizado en forma de columna con el tiempo de arriba hacia abajo como en el sistema de ecuaciones.

Dados los datos y y la matriz de diseño X, el procedimiento de ajuste de GLM tiene que encontrar un conjunto de valores beta que expliquen los datos de la mejor manera posible. Los valores del curso temporal predichos por el modelo se obtienen mediante la combinación lineal de los predictores:

Se lograría un buen ajuste con valores beta que conduzcan a valores predichos que estén lo más cerca posible de los valores medidos. y. Al reordenar el sistema de ecuaciones, es evidente que una buena predicción de los datos implica pequeños valores de error:

Una idea intuitiva sería encontrar esos valores beta minimizando la suma de los valores de error. Dado que los valores de error contienen valores tanto positivos como negativos (y debido a consideraciones estadísticas adicionales), el procedimiento GLM no estima los valores beta minimizando la suma de los valores de error, pero encuentra esos valores beta minimizando la suma de los valores de error al cuadrado:

El término mi'mi es la notación vectorial para la suma de cuadrados (Sigma e 2). El símbolo del apóstrofo denota la transposición de un vector o matriz. Las ponderaciones beta óptimas que minimizan los valores de error al cuadrado (las "estimaciones de mínimos cuadrados") se obtienen de forma no iterativa mediante la siguiente ecuación:

El término entre paréntesis contiene una multiplicación matriz-matriz del transpuesto, X', y no transpuesto, X, matriz de diseño. Este término da como resultado una matriz cuadrada con un número de filas y columnas correspondientes al número de predictores. Cada celda del X'X La matriz contiene el producto escalar de dos vectores predictores. El producto escalar se obtiene sumando todos los productos de las entradas correspondientes de dos vectores correspondientes al cálculo de la covarianza. Esta X'X La matriz, por tanto, corresponde a la matriz de varianza-covarianza del predictor. La matriz de varianza-covarianza se invierte como se indica con el símbolo "-1". La matriz resultante (X'X) -1 juega un papel esencial no solo para el cálculo de los valores beta, sino también para probar la importancia de los contrastes (ver más abajo). El término restante en el lado derecho, X'y, se evalúa como un vector que contiene tantos elementos como predictores. Cada elemento de este vector es el producto escalar (covarianza) de un curso de tiempo predictor con el curso de tiempo de vóxel observado.

Una propiedad interesante del método de estimación de mínimos cuadrados es que la varianza del curso temporal medido se puede descomponer en la suma de la varianza de los valores predichos (varianza relacionada con el modelo) y la varianza de los residuos:

Dado que la varianza del curso temporal del vóxel es fija, minimizar la varianza del error por mínimos cuadrados corresponde a maximizar la varianza de los valores explicados por el modelo. El cuadrado del coeficiente de correlación múltiple R proporciona una medida de la proporción de la varianza de los datos que puede ser explicada por el modelo:

Los valores del coeficiente de correlación múltiple varían entre 0 (sin varianza explicada) a 1 (toda varianza explicada por el modelo). Un coeficiente de R = 0,7, por ejemplo, corresponde a una varianza explicada del 49% (0,7x0,7). Una forma alternativa de calcular el coeficiente de correlación múltiple consiste en calcular un coeficiente de correlación estándar entre los valores predichos y los valores observados: R = raa. Esta ecuación ofrece otro punto de vista sobre el significado del coeficiente de correlación múltiple que cuantifica la interrelación (correlación) del conjunto combinado de variables predictoras con el curso temporal observado.


¿Cuál es el vector de respuesta en el modelo GLM de resonancia magnética funcional? - biología

Se han propuesto muchas técnicas para analizar estadísticamente los datos de fMRI, y una variedad de estas son de uso general. El objetivo de dicho análisis es producir una imagen que identifique las regiones que muestran un cambio de señal significativo en respuesta a la tarea. A cada píxel se le asigna un valor que depende de la probabilidad de la hipótesis nula, que los cambios de señal observados pueden explicarse puramente por una variación aleatoria en los datos consistente con su varianza, que es falsa. Esta imagen se denomina mapa paramétrico estadístico. El objetivo de esta sección es mostrar cómo se pueden producir estos mapas.

Todos los métodos que se describen a continuación se han utilizado, en un momento u otro, en el análisis de los datos presentados en esta tesis. La mayoría se han implementado como programas 'C', con la notable excepción del uso de SPM[10] implementación del modelo lineal general.

A lo largo de esta sección, las técnicas de análisis descritas se muestran en un conjunto de datos de ejemplo. El experimento realizado estaba destinado a detectar activaciones resultantes de una tarea motora con indicaciones visuales. Se tomaron imágenes de todo el cerebro del sujeto, en 16 cortes coronales de resolución 3 x 3 x 10 mm 3, cada cuatro segundos. Como indica una pantalla LED, se les pidió que apretaran una bola a una velocidad de 2 Hz. El experimento implicó 16 s de descanso, seguidos de 16 s de ejecución de la tarea, repetidos 32 veces.

Se pueden encontrar más detalles de las estadísticas mencionadas en este capítulo en muchos libros de texto de estadística, por ejemplo, los de Zar [11] y Miller y Freund [12].

6.3.1 Técnicas de resta

Uno de los métodos más simples para obtener resultados de un experimento de resonancia magnética funcional de dos estados es realizar una resta simple. Esto se lleva a cabo promediando todas las imágenes adquiridas durante la fase "activada" de la tarea y restando la media de todas las imágenes "desactivadas". La desventaja de esta técnica es que es extremadamente sensible al movimiento de la cabeza, lo que genera grandes cantidades de artefactos en la imagen. La figura 6.7a muestra un solo corte a través de la corteza motora del conjunto de datos de ejemplo, y la figura 6.7b muestra el resultado de restar las imágenes "desactivadas" de las imágenes "activadas". Aunque se puede ver un aumento de la señal en la corteza motora primaria, también hay una gran cantidad de artefactos, particularmente en los límites de la imagen.

Un método de este tipo no produce una estadística que pueda contrastarse con la hipótesis nula, por lo que, en lugar de una resta directa, es más común utilizar una prueba t de Student. Esto pondera la diferencia en las medias, por la desviación estándar en los valores "desactivados" o "activados", dando puntuaciones t altas a diferencias grandes con desviaciones estándar pequeñas y puntuaciones t bajas a diferencias pequeñas con desviaciones estándar grandes. La puntuación t se calcula píxel por píxel, para una serie de tiempo X, utilizando la fórmula

y es la varianza agrupada

El sufijo '1' se refiere al norte 1 imágenes adquiridas durante el período 'on' de la tarea, y '2' se refiere a la norte 2 imágenes adquiridas durante el período de descanso. La figura 6.7c muestra el mapa paramétrico estadístico de puntuaciones t para el conjunto de datos de muestra. Nuevamente se ve claramente la activación de la corteza motora, pero el artefacto de movimiento se reduce en comparación con la técnica de sustracción.

Figura 6.7 Uso de técnicas de resta para analizar datos de fMRI. (a) Una imagen de EPI coronal de un solo corte a través de la corteza motora primaria. (b) La media de las imágenes adquiridas durante el período "apagado" del experimento de resonancia magnética funcional restada de la media de las imágenes adquiridas durante el período "encendido". (c) El mapa paramétrico estadístico t correspondiente a la imagen (b).

6.3.2 Técnicas de correlación

Como sabemos que la respuesta BOLD está mediada por el flujo sanguíneo, es posible mejorar la detección de activaciones prediciendo la forma de la respuesta al estímulo y calculando los coeficientes de correlación entre cada ciclo de tiempo de píxel y esta forma de onda de referencia. Esto es menos sensible a otros cambios fisiológicos durante el experimento y al movimiento. Para un curso de tiempo X, y una forma de onda de referencia Y, el coeficiente de correlación se calcula como

y tiene un valor de 1 para una correlación perfecta, un valor de cero para que no haya correlación y un valor de -1 para una anticorrelación perfecta.

La elección de una forma de onda de referencia adecuada es vital para el éxito de esta técnica en la búsqueda de activaciones. La primera aproximación podría ser una onda cuadrada, que es alta para las exploraciones adquiridas durante la tarea y baja para las exploraciones adquiridas durante el reposo (figura 6.8a). Sin embargo, tal forma de onda no tiene en cuenta el retraso y la suavidad de la respuesta hemodinámica que regula el contraste BOLD. Una mejora de esto sería cambiar la fase de la onda cuadrada (Figura 6.8b), con un retraso de entre 3 y 6 segundos.

Para mejorar aún más la forma de onda de referencia, es necesario observar más de cerca la respuesta hemodinámica real. En un experimento como el que se usó para el conjunto de datos de ejemplo, donde hay activación visual y motora, es posible usar la respuesta a un tipo de estímulo para formar la forma de onda de referencia para encontrar el otro. En este caso, se extrae la serie de tiempo para uno o más píxeles en, digamos, la corteza visual (Figura 6.8c), y se calculan los coeficientes de correlación entre esta forma de onda y la de todos los demás píxeles de la imagen.Dicho análisis detecta solo aquellas regiones del cerebro que responden al estímulo de la misma manera que la corteza visual. La principal desventaja de esta técnica es que es particularmente sensible al artefacto de movimiento, ya que si dicho artefacto está presente en la forma de onda de referencia, el movimiento de otras regiones estará altamente correlacionado. Para intentar reducir esto, la respuesta en la corteza visual a cada estímulo se puede promediar en conjunto, produciendo una respuesta media al ciclo único. La forma de onda de referencia se compone de una repetición de estas respuestas promedio de ciclo único (Figura 6.8d).

Figura 6.8. Varias funciones de referencia que se pueden utilizar para correlacionar con un curso de tiempo de píxeles para detectar activaciones (consulte el texto para obtener descripciones)

Para predecir de forma más general la respuesta hemodinámica, de modo que se pueda construir una forma de onda de referencia para cualquier longitud de estímulo, es necesario conocer la respuesta a un único estímulo. Friston [13] sugirió que una función de respuesta hemodinámica podría considerarse como una función de dispersión puntual, que suaviza y desplaza la función de entrada. Deconvirtiendo la respuesta de un área conocida de activación con la función de estímulo, se puede obtener la función de respuesta hemodinámica. Sin embargo, la función de respuesta hemodinámica no es completamente uniforme en todo el cerebro y la forma obtenida de una región puede no ser óptima para otra. Como alternativa, la respuesta puede modelarse mediante una función matemática, como una función de Poisson o beta. La función de Poisson

con ancho l = 6 segundos, parece ajustarse bien a las respuestas hemodinámicas observadas (Figura 6.8e).

Dado que, en general, cada segmento del volumen de la imagen no se adquiere en el mismo instante, es necesario acomodar las diferencias de tiempo en la correlación con la forma de onda de referencia. Para hacer esto, se predice la magnitud relativa de la activación en el momento en que se adquirió cada corte, convolucionando el estímulo de entrada con una función de Poisson. Luego, a partir de esta serie, los coeficientes de correlación se pueden calcular corte por corte, construyendo la forma de onda de referencia a partir de los puntos apropiados en la serie de tiempo predicha.

En la Figura 6.9 se muestran ejemplos del efecto de la forma de onda de referencia en el resultado. Aquí, los píxeles en la cabeza que se correlacionan con las formas de onda de referencia (mostradas en la Figura 6.8), con r> 0.20 se muestran en rojo, en la parte superior de la imagen base. La correlación de onda cuadrada es la menos eficaz para detectar activaciones (a), sin embargo se obtiene una mejora considerable retrasando la forma de onda en 4 segundos (b). La correlación de la corteza visual consigo misma (c) es, como era de esperar, alta, pero el uso de la respuesta media de la corteza visual (d) mejora la correlación en la corteza motora. El modelo de función de Poisson de la respuesta hemodinámica (e) mejora ligeramente en la onda cuadrada retardada y es un buen modelo.

(a) Onda cuadrada
(b) Onda cuadrada retardada
(c) Respuesta de la corteza visual
(d) Respuesta promedio de la corteza visual
(e) Modelo de distribución de Poisson

Figura 6.9 Imágenes de activación obtenidas al correlacionar los conjuntos de datos de prueba con las formas de onda de referencia que se muestran en la Figura 6.8.

6.3.3 El modelo lineal general

Las técnicas estadísticas descritas anteriormente son pruebas paramétricas. Es decir, asumen que las observaciones se toman de poblaciones normales. La mayoría de las técnicas de modelado paramétrico son casos especiales del modelo lineal general. Este marco para analizar datos de imágenes funcionales, primero desarrollado para PET y luego ampliado para fMRI, se implementa en el paquete de software SPM[14]. El modelo lineal general sólo se describe aquí, ya que la teoría está ampliamente cubierta en la literatura [15].

El objetivo del modelo lineal general es explicar la variación del curso del tiempo y 1. y yo. y n, en términos de una combinación lineal de variables explicativas y un término de error. Para un modelo simple con una sola variable explicativa X 1. x i. x n, el modelo lineal general se puede escribir

dónde B es el parámetro de escala o pendiente, y e yo es el término de error. Si el modelo incluye más variables es conveniente escribir el modelo lineal general en forma matricial

donde ahora Y es el vector de valores de píxeles observados, B es el vector de parámetros y mi es el vector de términos de error. La matriz X se conoce como matriz de diseño. Tiene una fila para cada punto temporal en los datos originales y una columna para cada variable explicativa del modelo. Al analizar un experimento de resonancia magnética funcional, las columnas de X contienen vectores correspondientes a los elementos "on" y "off" del estímulo presentado. Al encontrar la magnitud del parámetro en B correspondiente a estos vectores, se puede detectar la presencia o ausencia de activación.

B se puede determinar resolviendo las 'ecuaciones normales'

¿Dónde está la mejor estimación lineal de B. Siempre que (X T X) es invertable entonces viene dado por

Tales estimaciones de parámetros se distribuyen normalmente y, dado que se puede determinar el término de error, se puede hacer inferencia estadística sobre si el B El parámetro correspondiente al modelo de una respuesta de activación es significativamente diferente de la hipótesis nula.

El modelo lineal general proporciona un marco para la mayoría de los tipos de modelado de los datos y puede eliminar los efectos que pueden confundir el análisis, como la deriva o la respiración, siempre que se puedan modelar.

6.3.4 La prueba T en serie

Todas las técnicas descritas anteriormente requieren la predicción del curso temporal que seguirán las regiones activas. Para muchos experimentos, el uso de imágenes rápidas y paradigmas cuidadosamente diseñados hace posible la separación del orden de los eventos cognitivos. Un ejemplo de este tipo, que forma parte de nuestro estudio de la enfermedad de Parkinson y que se describe con más detalle en el capítulo 7, es un paradigma que implica el inicio del movimiento. En este experimento, se requirió que el sujeto respondiera, presionando un botón de mano, a la presentación visual del número '5', y que no respondiera a la presentación de un '2'. Este paradigma presentaba dos diferencias con los experimentos convencionales basados ​​en épocas. En primer lugar, las activaciones de interés, que son las responsables de la pulsación del botón, se produjeron de forma irregular. En segundo lugar, todos los procesos cognitivos involucrados en la tarea, incluyendo tanto la planificación como la ejecución del movimiento, ocurrieron en un período de tiempo de unos pocos cientos de milisegundos, a diferencia de la activación sostenida utilizada en los paradigmas basados ​​en la época. Tal experimento requiere una nueva forma de análisis. Se han evaluado dos técnicas, las cuales no hacen suposiciones sobre el curso temporal de las activaciones durante la tarea: la prueba t en serie, que se describe aquí, y una técnica de análisis de varianza, que se explica en la siguiente sección.

La base de la prueba t en serie es definir una línea de base del estado de reposo y comparar las imágenes adquiridas en cada punto de tiempo antes, durante y después de la tarea con esta línea de base. La figura 6.10 ilustra la técnica. Para cada punto de tiempo que sigue al estímulo, se construye una imagen de desviación estándar y media, al igual que una imagen de desviación estándar y media de referencia. Luego, se forma un conjunto de mapas paramétricos estadísticos t calculando, píxel por píxel, la puntuación t (usando las ecuaciones 6.5 - 6.7) para la diferencia entre la imagen media uno y la imagen inicial media, la imagen dos media y la línea base , etcétera.

Figura 6.10. Análisis de fMRI utilizando la prueba t en serie

La figura 6.11 muestra el resultado de analizar el conjunto de datos de ejemplo utilizando esta técnica. Este conjunto de datos no muestra realmente el beneficio del análisis de la prueba t en serie. Los resultados que se muestran en el Capítulo 7 ilustran mejor su uso para observar los tiempos de los eventos y las formas de onda impredecibles.

Figura 6.11 Resultados del procesamiento del conjunto de datos de prueba utilizando la prueba t en serie. Se muestran ocho conjuntos de imágenes de volumen como filas, los cuatro primeros corresponden a los períodos de "descanso" del experimento y los cuatro siguientes a los períodos de "tarea". La activación se puede ver tanto en la corteza motora primaria como en la visual.

La técnica tiene dos grandes desventajas. La primera es que, para lograr una relación señal / ruido suficiente, es necesario tener muchos más ciclos que en un paradigma basado en la época, lo que conduce a experimentos más largos. Esto puede resultar incómodo para el sujeto y supone exigencias adicionales para el hardware del escáner. Existe cierto margen para acercar las tareas de un solo evento, pero debe haber un intervalo suficiente para permitir que la señal BOLD vuelva a la línea de base. Este retraso es de al menos diez segundos de duración. La segunda desventaja es que el análisis da como resultado muchos mapas paramétricos estadísticos, que deben interpretarse en su conjunto. Sin embargo, el hecho de que la técnica haga pocas suposiciones sobre el curso del tiempo de los datos la convierte en una técnica sólida y abre la posibilidad de un diseño experimental más diverso y un alejamiento de los paradigmas basados ​​en la época.

6.3.5 Análisis de varianza

Una segunda técnica que no requiere ninguna suposición sobre la forma del curso del tiempo de activación, analiza los cambios en la varianza al promediar. La técnica se basa en una teoría simple de promediado de señales [16]. Tomemos, por ejemplo, la respuesta medida a una señal repetida como se muestra en la Figura 6.12. La serie de tiempo contiene dos componentes, uno es una respuesta genuina a la señal y el otro son las fluctuaciones aleatorias debido a eventos fisiológicos no correlacionados y ruido en la imagen. Al promediar 32 ciclos juntos, la magnitud del componente ruidoso se reduce pero la de la señal repetida no. La reducción del componente ruidoso se puede medir calculando la varianza del conjunto de datos promediados y no promediados.

Figura 6.12. Promedio de señal. La varianza del ruido en la señal promedio es norte veces menos que en la señal original, donde norte es el número de ciclos.

Para detectar regiones de activación, se calcula la relación entre la variación del conjunto de datos promediados y la variación del conjunto de datos no promediados para cada píxel de la imagen. Para píxeles en regiones de variaciones de intensidad puramente aleatorias, esta relación será de alrededor de 1 /norte, dónde norte es el número de ciclos promediados juntos. Sin embargo, los píxeles en las regiones de activación tendrán una proporción significativamente más alta que esta, ya que la varianza de los conjuntos de datos promediados y no promediados está dominada por las variaciones de intensidad bloqueadas por estímulo del efecto BOLD, que no se reduce al promediar.

La técnica se explica más formalmente como un análisis de varianza (ANOVA) [17]. Si X ij se refiere a la Iel punto de tiempo después del estímulo, de la jel ciclo de un experimento

tiempo t X 11, X 12, . X 1j, . X 1n X 1
tiempo 2t X 21, X 22, . X 2j, . X 2n X 2
. . . . . . . .
tiempo eso X i1, X i2, . X ij, . X en X I
. . . . . . . .
tiempo kt X k1, X k2, . X kj, . X kn X k
X

con norte ciclos y k puntos por ciclo. La hipótesis nula es que no hay diferencia significativa en las medias,. Esto se puede probar comparando dos estimaciones de la varianza de la población, s 2, una basada en variaciones en las mediciones del mismo punto de tiempo y otra basada en la varianza entre puntos de tiempo.

La varianza dentro de la medición de cualquier punto de tiempo se puede calcular mediante

y entonces la varianza media dentro de los puntos de tiempo viene dada por

y se basa en k (n-1) grados de libertad. La varianza de las medias de los puntos temporales está dada por

entonces s 2 se puede estimar por

que se basa en k-1 grados de libertad. Bajo la hipótesis nula, ambos y estiman independientemente la varianza de la población s 2. Esto significa que la relación

tendrá una distribución F con k-1 y k(norte-1) grados de libertad. Si hay algún cambio de señal que esté bloqueado en el tiempo con el estímulo, el valor de será mayor de lo esperado bajo la hipótesis nula.

En el análisis de los datos de fMRI, las ecuaciones 6.15 - 6.19 se utilizan para formar un mapa paramétrico estadístico F. Estas ecuaciones se implementan utilizando las siguientes fórmulas de atajo

Para evaluar la validez de este enfoque en datos reales, se analizaron imágenes fantasma y de la cabeza. El conjunto de datos fantasma consistió en 256 imágenes de volumen, cada una con un tamaño de matriz de 128 x 128 x 16, obtenidas a una tasa de repetición de 4 segundos. El conjunto de datos de la cabeza consistió en 256 imágenes de la cabeza, del mismo tamaño de matriz, sin que el sujeto realizara una tarea específica. Ambos conjuntos de datos se preprocesaron de la misma manera que lo haría un conjunto de datos de imágenes funcionales, y luego se llevó a cabo el análisis de varianza asumiendo 16 puntos por ciclo y 16 ciclos. Histogramas de F para cada conjunto de datos se muestran en la Figura 6.13, con la distribución F apropiada, mostrada como una línea de puntos, dada por

dónde norte 1 es el número de puntos por ciclo menos uno, y norte 2 es el número total de puntos de datos menos el número de puntos por ciclo [18]. Los tres histogramas muestran un buen ajuste a la distribución F, lo que confirma la validez de aplicar esta técnica a los datos de fMRI.

Figura 6.13 Gráficos de puntuaciones F calculadas (línea continua) y la distribución F apropiada (línea de puntos) para (a) datos simulados, (b) datos fantasma y (c) datos de cabeza.

Los resultados del análisis del conjunto de datos de activación de ejemplo utilizando la técnica ANOVA se muestran en la Figura 6.14. Al igual que con la prueba t en serie, tal conjunto de datos no muestra mejor el potencial de esta técnica. Un mejor ejemplo proviene del análisis de un estudio para investigar la memoria a corto plazo.

Figura 6.14 Resultados del procesamiento del conjunto de datos de prueba utilizando la técnica de análisis de varianza. Los píxeles sombreados en rojo corresponden a regiones que varían de alguna manera que están bloqueadas en el tiempo por el estímulo.

El paradigma de estímulo para este experimento tuvo tres etapas. Se presentaron al sujeto los primeros tres dígitos seguidos. Ocho segundos después se presentó un cuarto dígito, y se le pidió al sujeto que respondiera presionando un botón en su mano derecha si este último dígito era el mismo que cualquiera de los tres presentados anteriormente, o presionando el botón en su mano izquierda si no es así. [19]. La etapa final fue un período de descanso, para proporcionar una línea de base. La prueba completa se repitió 32 veces.

Se esperaría que algunas regiones del cerebro solo estuvieran activas durante la presentación de los dígitos, algunas durante el período de retención, algunas solo en la etapa de recuerdo y otras durante toda la tarea de memoria. Analizar dichos datos utilizando una técnica de correlación significaría predecir un conjunto completo de formas de onda de referencia. Sin embargo, la técnica ANOVA detectó las respuestas de diferentes formas en una prueba. La figura 6.15 muestra los mapas de activación obtenidos del análisis ANOVA del experimento de memoria a corto plazo, junto con gráficos de curso temporal de varias de las áreas.

Figura 6.15 Técnica de análisis de varianza aplicada a los datos del experimento de memoria a corto plazo descrito en el texto, junto con gráficos de ciclo promedio para varias regiones de interés. Las áreas del cerebro que actúan de diferentes maneras al estímulo se pueden ver en una sola imagen de activación.

La imagen final de un análisis ANOVA, muestra esencialmente todas las regiones que varían de alguna manera sincrónica a la presentación del estímulo. Es igualmente bueno para recoger desactivaciones como activaciones. Esto hace que estas imágenes sean un buen punto de partida para otras formas de análisis, como el análisis de componentes principales o el análisis de conglomerados, con el fin de recopilar toda la información disponible.

6.3.6 Implementación de software

Debido a la diversidad de pruebas que se pueden realizar en un conjunto de datos, el software para implementar las pruebas descritas anteriormente se escribió como un conjunto de programas separados.

El programa correlación construye una forma de onda de referencia, a partir de valores especificados por el usuario, y opcionalmente convoluciona esto con una función de Poisson de ancho especificado por el usuario. Los coeficientes de correlación se calculan mediante la ecuación 6.8. Si se hace que la forma de onda de referencia varíe entre 0 y 1, entonces se puede obtener una medida del cambio porcentual tras la activación calculando una regresión lineal de la forma

El cambio porcentual se puede calcular como (licenciado en Letras) x 100%.

El software también calcula la imagen apropiada de las puntuaciones z utilizando la transformada Z de Fishers y los grados de libertad reducidos, como se explica en las siguientes secciones. Los nombres de archivo para cada una de estas salidas son

cc_& ltfile>.img coeficientes de correlación guardados como 'cortos' x 10,000
ordenador personal_& ltfile>.img cambio de porcentaje guardado como 'cortos' x 1,000 (tal que 1% de cambio de señal x 1,000)
cz_& ltfile>.img puntuaciones z guardadas como 'flotantes' (sin escalar)

Las pruebas t seriadas son realizadas por tmap y tmapnc, el primero apropiado para experimentos cíclicos y el segundo para experimentos no cíclicos. Para la versión no cíclica, los tiempos de estímulo se obtienen de un archivo de texto, y ambos mapas de puntaje t de salida se guardan como 'cortos', escalados por 1000, en un archivo llamado tt_& ltfile>.img.

Las pruebas ANOVA las realizan los programas. anova, y anovanc, que generan puntuaciones f escaladas en 1000, en un archivo llamado va_& ltfile>.img.


2 respuestas 2

Esta es una pregunta bastante amplia, básicamente la traduciría en: qué es un GLM y qué es un modelo mixto. En primer lugar, escribe que desea ajustar un GLM, pero sospecho que se refiere a LM, porque la fórmula

normalmente denotaría un LM. Para el GLM, tendríamos una función de enlace adicional.

En la fórmula anterior, $ Y $ es su respuesta, $ X $ son sus predictores (matriz de diseño) y $ beta $ son los coeficientes de regresión para estos predictores (contrasta si es categórico).

Su notación para un modelo de efectos aleatorios es un poco poco ortodoxa (no estoy seguro de dónde se toma esto), pero sospecho

$ Y = X beta + epsilon $ $ beta = X ' beta' + epsilon '$

significa que desea ajustar un modelo de pendiente aleatorio, en el que los coeficientes / contrastes de regresión pueden diferir para cada factor de agrupación. El supuesto del modelo de pendiente aleatoria es que las diferencias en $ beta $ entre los grupos se extraen de una distribución normal $ epsilon '$, que es la variabilidad entre grupos. Entonces, el vector final completo de predictores $ beta $ está compuesto por el $ beta '$ total y los efectos aleatorios $ epsilon' $.

En general, no estoy seguro de si esta notación es sumamente útil para comprender cómo funciona un modelo mixto; sugeriría comenzar con un libro de texto general o un tutorial sobre modelos mixtos.

  • Un tutorial simple en R es Bates, D. Mächler, M. Bolker, B. & amp Walker, S. (2014) Ajuste de modelos lineales de efectos mixtos usando lme4.
  • Una referencia más estadística es Gelman, A. & amp Hill, J. (2006) Análisis de datos utilizando modelos de regresión y multinivel / jerárquicos. Cambridge University Press, en particular cap. 11,12
  • Para obtener una explicación básica sobre los métodos computacionales, puede consultar Bates, D. M. (2010) lme4: Modelado de efectos mixtos con R.

Por supuesto que hay muchos otros buenos libros, depende de tu campo y del nivel de matemáticas que estés buscando.


Un enfoque híbrido de SVM-GLM para el análisis de datos de fMRI

Los métodos de análisis de datos de fMRI basados ​​en hipótesis, representados por el modelo lineal general convencional (GLM), tienen un marco estadístico estrictamente definido para evaluar activaciones regionales específicas, pero requieren un modelo de respuesta cerebral previo que generalmente es difícil de ser preciso. Por el contrario, los métodos exploratorios, como la máquina de vectores de soporte (SVM), son independientes de la función de respuesta hemodinámica previa (HRF), pero generalmente carecen de un marco de inferencia estadística. Para aprovechar las ventajas de ambos tipos de métodos, este artículo presenta un enfoque compuesto mediante la combinación de GLM convencional con SVM. Este concepto híbrido de SVM-GLM es utilizar el poder de SVM para obtener una función de referencia derivada de datos e ingresarla en el GLM convencional para la inferencia estadística. La función de referencia derivada de datos se extrajo del clasificador SVM utilizando un nuevo método de extracción de perfil temporal. En simulaciones con datos sintéticos de fMRI, SVM-GLM demostró un mejor rendimiento de sensibilidad y especificidad para detectar las activaciones sintéticas, en comparación con el GLM convencional. Con datos de fMRI reales, SVM-GLM mostró una mejor sensibilidad que GLM regular para detectar las activaciones sensoriomotoras.

Cifras

Clasificación basada en SVM y perfil temporal ...

Clasificación basada en SVM y extracción de perfil temporal. A) Clasificación de datos bidimensionales utilizando un lineal…

A) Definición de CNR, B) el curso de tiempo de activación del cerebro artificial para simulaciones ...

Un SDPtp extraído de un…

Un SDPtp extraído de los datos de resonancia magnética funcional BOLD sensoriomotora de un sujeto representativo. A) el ...

AUC promediadas (n = 8) de regular…

Promedio (n = 8) AUC de GLM regular y SVM-GLM sobre los datos sintéticos generados ...

Resultados del análisis estadístico a nivel de grupo ...

Resultados del análisis estadístico a nivel de grupo de los datos de resonancia magnética funcional BOLD sensoriomotora izquierda. Los…

Histogramas de puntuación T del nivel de grupo ...

Histogramas de puntuación T del análisis a nivel de grupo basados ​​en resultados individuales de GLM y SVM-GLM ...

Resultados del análisis estadístico a nivel de grupo ...

Resultados del análisis estadístico a nivel de grupo de los datos de IRMf de perfusión ASL sensoriomotora derecha.…


Cómo crear un modelo de revestimiento generalizado (GLM)

  • age: edad del individuo. Numérico
  • educación: Nivel educativo del individuo. Factor.
  • marital.status: Estado civil del individuo. Factor, es decir, nunca casado, casado-civil-cónyuge,.
  • género: género del individuo. Factor, es decir, masculino o femenino
  • ingresos: Variable objetivo. Ingresos por encima o por debajo de 50K. Factoriza, es decir, & gt50K, & lt = 50K
  • Paso 1: Verifique las variables continuas
  • Paso 2: Verifique las variables de los factores
  • Paso 3: ingeniería de funciones
  • Paso 4: Estadística de resumen
  • Paso 5: Entrenar / probar el equipo
  • Paso 6: construye el modelo
  • Paso 7: evaluar el desempeño del modelo
  • paso 8: mejorar el modelo

Su tarea es predecir qué individuo tendrá un ingreso superior a 50K.

En este tutorial, se detallará cada paso para realizar un análisis en un conjunto de datos real.

Paso 1) Verifique las variables continuas

En el primer paso, puede ver la distribución de las variables continuas.

  • continuo & lt- select_if (data_adult, is.numeric): Use la función select_if () de la biblioteca dplyr para seleccionar solo las columnas numéricas
  • resumen (continuo): imprime la estadística de resumen

En la tabla anterior, puede ver que los datos tienen escalas y horas por semana totalmente diferentes. Por semana tiene valores atípicos grandes (es decir, observe el último cuartil y el valor máximo).

  • 1: Trace la distribución de horas por semana
  • 2: Estandarizar las variables continuas
  1. Trazar la distribución

Veamos más de cerca la distribución de horas por semana.

La variable tiene muchos valores atípicos y una distribución no bien definida. Puede abordar parcialmente este problema eliminando el 0.01 por ciento superior de las horas por semana.

Calculamos el percentil 2 superior

El 98 por ciento de la población trabaja menos de 80 horas semanales.

Puede eliminar las observaciones por encima de este umbral. Utiliza el filtro de la biblioteca dplyr.

Puede estandarizar cada columna para mejorar el rendimiento porque sus datos no tienen la misma escala. Puede utilizar la función mutate_if de la biblioteca dplyr. La sintaxis básica es:

Puede estandarizar las columnas numéricas de la siguiente manera:

Paso 2) Verifique las variables de los factores

  • Seleccione las columnas categóricas
  • Almacene el gráfico de barras de cada columna en una lista
  • Imprime las gráficas

Podemos seleccionar las columnas de factores con el siguiente código:

  • data.frame (select_if (data_adult, is.factor)): Almacenamos las columnas de factor en factor en un tipo de marco de datos. La biblioteca ggplot2 requiere un objeto de marco de datos.

El conjunto de datos contiene 6 variables categóricas

El segundo paso es más hábil. Desea trazar un gráfico de barras para cada columna en el factor de marco de datos. Es más conveniente automatizar el proceso, especialmente en situaciones en las que hay muchas columnas.

  • lapply (): use la función lapply () para pasar una función en todas las columnas del conjunto de datos. Almacena la salida en una lista
  • function (x): La función se procesará para cada x. Aquí x son las columnas
  • ggplot (factor, aes (get (x))) + geom_bar () + theme (axis.text.x = element_text (angle = 90)): crea un gráfico de caracteres de barras para cada elemento x. Tenga en cuenta que para devolver x como una columna, debe incluirlo dentro de get ()

El último paso es relativamente sencillo. Quieres imprimir los 6 gráficos.

Nota: Utilice el botón siguiente para navegar al siguiente gráfico.

Paso 3) Ingeniería de funciones

Educación refundida

En el gráfico anterior, puede ver que la variable educación tiene 16 niveles. Esto es sustancial y algunos niveles tienen un número relativamente bajo de observaciones. Si desea mejorar la cantidad de información que puede obtener de esta variable, puede modificarla a un nivel superior. Es decir, crea grupos más grandes con un nivel de educación similar. Por ejemplo, el bajo nivel de educación se convertirá en deserción. Los niveles superiores de educación se cambiarán a máster.

  • Usamos el verbo mutate de la biblioteca dplyr. Cambiamos los valores de la educación con la declaración ifelse

En la siguiente tabla, crea una estadística resumida para ver, en promedio, cuántos años de educación (valor z) se necesitan para obtener la licenciatura, la maestría o el doctorado.

Refundición del estado civil

Paso 4) Resumen estadístico

Es hora de comprobar algunas estadísticas sobre nuestras variables objetivo. En el gráfico a continuación, cuenta el porcentaje de personas que ganan más de 50k según su género.

A continuación, compruebe si el origen del individuo afecta sus ingresos.

El número de horas trabajadas por género.

El diagrama de caja confirma que la distribución del tiempo de trabajo se ajusta a diferentes grupos. En el diagrama de caja, ambos sexos no tienen observaciones homogéneas.

Puede consultar la densidad del tiempo de trabajo semanal por tipo de educación. Las distribuciones tienen muchas selecciones distintas. Probablemente se pueda explicar por el tipo de contrato en los EE. UU.

  • ggplot (recast_data, aes (x = hours.per.week)): una gráfica de densidad solo requiere una variable
  • geom_density (aes (color = education), alpha = 0.5): El objeto geométrico para controlar la densidad

Para confirmar sus pensamientos, puede realizar una prueba ANOVA unidireccional:

La prueba ANOVA confirma la diferencia de promedio entre grupos.

No linealidad

Antes de ejecutar el modelo, puede ver si el número de horas trabajadas está relacionado con la edad.

  • ggplot (recast_data, aes (x = age, y = hours.per.week)): establece la estética del gráfico
  • geom_point (aes (color = ingresos), tamaño = 0.5): Construye el diagrama de puntos
  • stat_smooth (): agregue la línea de tendencia con los siguientes argumentos:
    • método = 'lm': grafica el valor ajustado si la regresión lineal
    • fórmula = y

    En pocas palabras, puede probar los términos de interacción en el modelo para detectar el efecto de no linealidad entre el tiempo de trabajo semanal y otras características. Es importante detectar en qué condiciones difiere el tiempo de trabajo.

    Correlación

    La siguiente comprobación es visualizar la correlación entre las variables. Convierte el tipo de nivel de factor en numérico para poder trazar un mapa de calor que contenga el coeficiente de correlación calculado con el método de Spearman.

    • data.frame (lapply (recast_data, as.integer)): convierte datos en numéricos
    • ggcorr () traza el mapa de calor con los siguientes argumentos:
      • método: método para calcular la correlación
      • nbreaks = 6: Número de pausas
      • hjust = 0.8: Posición de control del nombre de la variable en el gráfico
      • label = TRUE: agrega etiquetas en el centro de las ventanas
      • label_size = 3: Etiquetas de tamaño
      • color = "grey50"): Color de la etiqueta

      Paso 5) Equipo de entrenamiento / prueba

      Cualquier tarea de aprendizaje automático supervisada requiere dividir los datos entre un conjunto de trenes y un conjunto de prueba. Puede utilizar la "función" que creó en los otros tutoriales de aprendizaje supervisado para crear un conjunto de entrenamiento / prueba.

      Paso 6) Construye el modelo

      Para ver cómo funciona el algoritmo, use el paquete glm (). los Modelo lineal generalizado es una colección de modelos. La sintaxis básica es:

      Está listo para estimar el modelo logístico para dividir el nivel de ingresos entre un conjunto de características.

      • AIC (Akaike Information Criteria): este es el equivalente de R2 en regresión logística. Mide el ajuste cuando se aplica una penalización al número de parámetros. Menor AIC Los valores indican que el modelo está más cerca de la verdad.
      • Desviación nula: se ajusta al modelo solo con la intersección. El grado de libertad es n-1. Podemos interpretarlo como un valor de Chi-cuadrado (valor ajustado diferente de la prueba de hipótesis del valor real).
      • Desviación residual: Modelo con todas las variables. También se interpreta como una prueba de hipótesis de Chi-cuadrado.
      • Número de iteraciones de puntuación de Fisher: número de iteraciones antes de la convergencia.

      La salida de la función glm () se almacena en una lista. El siguiente código muestra todos los elementos disponibles en la variable logit que construimos para evaluar la regresión logística.

      # La lista es muy larga, imprima solo los primeros tres elementos

      Cada valor se puede extraer con el signo $ seguido del nombre de las métricas. Por ejemplo, almacenó el modelo como logit. Para extraer los criterios AIC, utiliza:

      Paso 7) Evaluar el desempeño del modelo

      Matriz de confusión

      los matriz de confusión es una mejor opción para evaluar el rendimiento de la clasificación en comparación con las diferentes métricas que vio antes. La idea general es contar el número de veces que las instancias verdaderas se clasifican como falsas.

      Para calcular la matriz de confusión, primero debe tener un conjunto de predicciones para poder compararlas con los objetivos reales.

      • predict (logit, data_test, type = 'response'): calcula la predicción en el conjunto de prueba. Establezca type = 'response' para calcular la probabilidad de respuesta.
      • table (data_test $ ingresos, predecir & gt 0.5): Calcule la matriz de confusión. predecir & gt 0.5 significa que devuelve 1 si las probabilidades pronosticadas están por encima de 0.5, en caso contrario 0.

      Cada fila en una matriz de confusión representa un objetivo real, mientras que cada columna representa un objetivo previsto. La primera fila de esta matriz considera los ingresos inferiores a 50k (la clase Falso): 6241 se clasificaron correctamente como personas con ingresos inferiores a 50k (Verdadero negativo), mientras que el restante se clasificó erróneamente como por encima de 50k (Falso positivo). La segunda fila considera los ingresos por encima de 50k, la clase positiva fue 1229 (Verdadero positivo), mientras que la Verdadero negativo era 1074.

      Puedes calcular el modelo precisión sumando el verdadero positivo + verdadero negativo sobre la observación total

      El modelo parece tener un problema: sobreestima el número de falsos negativos. Esto se llama paradoja de la prueba de precisión. Dijimos que la precisión es la relación entre las predicciones correctas y el número total de casos. Podemos tener una precisión relativamente alta pero un modelo inútil. Ocurre cuando hay una clase dominante. Si mira hacia atrás en la matriz de confusión, puede ver que la mayoría de los casos están clasificados como verdaderos negativos. Imagínese ahora, el modelo clasificó todas las clases como negativas (es decir, inferiores a 50k). Tendría una precisión del 75 por ciento (6718/6718 + 2257). Su modelo funciona mejor, pero tiene dificultades para distinguir el verdadero positivo del verdadero negativo.

      Precisión vs recuperación

      Precisión analiza la precisión de la predicción positiva. Recordar es la proporción de instancias positivas que el clasificador detecta correctamente

      • mat [1,1]: Devuelve la primera celda de la primera columna del marco de datos, es decir, el verdadero positivo
      • mat [1,2] Devuelve la primera celda de la segunda columna del marco de datos, es decir, el falso positivo
      • mat [1,1]: Devuelve la primera celda de la primera columna del marco de datos, es decir, el verdadero positivo
      • mat [2,1] Devuelve la segunda celda de la primera columna del marco de datos, es decir, el falso negativo

      Puedes probar tus funciones

      Cuando el modelo dice que es un individuo por encima de 50k, es correcto en solo el 54 por ciento de los casos, y puede reclamar individuos por encima de 50k en el 72 por ciento de los casos.

      Puede crear la puntuación /> en función de la precisión y la recuperación. El /> es una media armónica de estas dos métricas, lo que significa que le da más peso a los valores más bajos.

      Equilibrio entre precisión y recuperación

      Es imposible tener una alta precisión y una alta recuperación.

      • Imagínese, necesita predecir si un paciente tiene una enfermedad. Quieres ser lo más preciso posible.
      • Si necesita detectar posibles personas fraudulentas en la calle a través del reconocimiento facial, sería mejor atrapar a muchas personas etiquetadas como fraudulentas aunque la precisión sea baja. La policía podrá liberar al individuo no fraudulento.

      La curva ROC

      los Característica Operativa del Receptor La curva es otra herramienta común que se utiliza con la clasificación binaria. Es muy similar a la curva de precisión / recuperación, pero en lugar de representar la precisión frente a la recuperación, la curva ROC muestra la tasa de verdaderos positivos (es decir, la recuperación) frente a la tasa de falsos positivos. La tasa de falsos positivos es la proporción de casos negativos que se clasifican incorrectamente como positivos. Es igual a uno menos la tasa negativa verdadera. La verdadera tasa negativa también se llama especificidad. Por lo tanto, los gráficos de la curva ROC sensibilidad (recordar) versus 1-especificidad

      Para trazar la curva ROC, necesitamos instalar una biblioteca llamada RORC. Lo podemos encontrar en la biblioteca de conda. Puede escribir el código:

      conda install -c r r-rocr --sí

      Podemos graficar la ROC con las funciones de predicción () y rendimiento ().

      • predicción (predecir, prueba_datos $ ingresos): la biblioteca ROCR necesita crear un objeto de predicción para transformar los datos de entrada
      • rendimiento (ROCRpred, 'tpr', 'fpr'): Devuelve las dos combinaciones para producir en el gráfico. Aquí, se construyen tpr y fpr. Tot trazar precisión y recordar juntos, use "prec", "rec".

      Paso 8) Mejora el modelo

      Debe utilizar la prueba de puntuación para comparar ambos modelos.

      La puntuación es ligeramente superior a la anterior. Puede seguir trabajando en los datos para intentar superar la puntuación.


      Admite análisis de grupos de datos de resonancia magnética funcional basada en aprendizaje automático de vectores ☆

      Para explorar la naturaleza multivariante de los datos de resonancia magnética funcional y considerar las discrepancias en la respuesta cerebral entre sujetos, se requiere fundamentalmente un método multivariante y sin modelo de respuesta cerebral. En este documento se presentan dos de estos métodos mediante la integración de un algoritmo de aprendizaje automático, la máquina de vectores de soporte (SVM) y el modelo de efectos aleatorios. Sin ningún modelo de respuesta cerebral, se utilizó SVM para extraer un mapa de discriminación espacial (SDM) de todo el cerebro, que representa la diferencia de respuesta cerebral entre las condiciones experimentales contrastadas. A continuación, se obtuvo la inferencia de la población mediante el análisis de efectos aleatorios (RFX) o la prueba de permutación (PMU) en los sujetos individuales & # x27 SDM. Aplicado a los datos de IRMf de perfusión de marcado de espín arterial (ASL), SDM RFX arrojó tasas más bajas de falsos positivos en la prueba de hipótesis nula y una mayor sensibilidad de detección para activaciones sintéticas con diferentes tamaños de agrupación y potencias de activación, en comparación con el modelo lineal general univariante (GLM) RFX basado en. Para un estudio sensorial-motor de ASL fMRI, tanto SDM RFX como SDM PMU arrojaron patrones de activación similares a GLM RFX y GLM PMU, respectivamente, pero con mayor t valores y extensiones de conglomerados al mismo nivel de significancia. Aprovechando la ausencia de correlación de ruido temporal en los datos de ASL, este estudio también incorporó PMU en los análisis de GLM y SVM a nivel individual acompañados de análisis a nivel de grupo a través de RFX o PMU a nivel de grupo. Al proporcionar inferencias sobre la probabilidad de ser activado o desactivado en cada vóxel, estos métodos de análisis grupal basados ​​en PMU a nivel individual se pueden usar para establecer un umbral de los resultados del análisis de GLM RFX, SDM RFX o SDM PMU.


      Análisis de vectores independientes (IVA): enfoque multivariado para el estudio grupal de resonancia magnética funcional

      El análisis de componentes independientes (ICA) de los datos de fMRI genera mapas de activación cerebral específicos de sesión / individuales sin suposiciones a priori con respecto al tiempo o patrón de las respuestas de señal dependientes del nivel de oxigenación en sangre (BOLD). Sin embargo, debido a una permutación aleatoria entre los componentes de salida, ICA no ofrece una solución sencilla para la inferencia de la activación a nivel de grupo. En este estudio, presentamos un método de análisis de vector independiente (IVA) para abordar el problema de permutación durante el análisis de datos del grupo de resonancia magnética funcional. En comparación con ICA, IVA ofrece un análisis de componentes dependientes adicionales, que fueron asignados para su uso en la agrupación automatizada de patrones de activación dependientes entre sujetos. Después de realizar pruebas con datos de resonancia magnética funcional simulados basados ​​en ensayos, nuestro método propuesto se aplicó a datos de resonancia magnética funcional reales empleando un paradigma de tarea de ensayo único (tareas de generación de voz interna y apretar el motor de la mano derecha) y un paradigma de tarea de tres ensayos (mano derecha tarea de imaginería motora). También se aplicaron un modelo lineal generalizado (GLM) y el grupo ICA de la caja de herramientas de fMRI (GIFT) al mismo conjunto de datos para compararlos con IVA. En comparación con GLM, IVA capturó con éxito los patrones de activación incluso cuando las áreas funcionales mostraron respuestas hemodinámicas variables que se desviaron de una respuesta hipotética. También demostramos que IVA infería de manera efectiva patrones de activación de grupo de origen desconocido sin el requisito de una etapa de preprocesamiento (como la concatenación de datos en GIFT basado en ICA). El IVA se puede utilizar como una alternativa potencial o un complemento de los métodos actuales de procesamiento de grupos de resonancia magnética funcional basados ​​en ICA.


      1.4 Selección de variable

      La selección de variables para un modelo GLM es similar al proceso para un modelo OLS. Se prefieren las pruebas de modelo anidado para determinar la significancia de un coeficiente a la prueba de coeficientes de Wald. Esto se debe a que los errores estándar de los coeficientes GLM son sensibles incluso a pequeñas desviaciones de los supuestos del modelo.También es más preciso obtener valores p para los coeficientes GLM a partir de pruebas de modelos anidados.

      La prueba de razón de verosimilitud (LRT) se usa generalmente para probar modelos anidados. Para modelos de cuasi familia, se usa una prueba F para pruebas de modelos anidados (o cuando el ajuste está sobredispersado o subdispersado). Este uso de la estadística F es apropiado si los tamaños de los grupos son aproximadamente iguales.

      La variable que se seleccione para un modelo puede depender de la familia que se utilice en el modelo. En estos casos, la selección de variables está relacionada con la selección de familias. Los criterios de selección de variables como AIC y BIC generalmente no son aplicables para seleccionar entre familias.


      Resultados

      Reconstrucción y decodificación facial

      Usamos el modelo VAE-GAN pre-entrenado descrito en la Fig. 1 (con parámetros "congelados") para entrenar un sistema de decodificación cerebral. Durante el entrenamiento (Fig. 2a), el sistema aprendió la correspondencia entre los patrones de actividad cerebral en respuesta a numerosas imágenes faciales y la correspondiente representación latente 1024-D de las mismas caras dentro de la red VAE. Se utilizaron más de 8000 ejemplos distintos en promedio (rango entre sujetos: 7664–8626), lo que implicó 12 h de exploración en ocho sesiones separadas para cada tema. El procedimiento de aprendizaje asumió que la activación de cada vóxel cerebral podría describirse como una suma ponderada de los 1024 parámetros latentes, y simplemente estimamos los pesos correspondientes mediante regresión lineal (función GLM en SPM ver Métodos). Después del entrenamiento (Fig.2b), invertimos el sistema lineal, de modo que al decodificador se le dio el patrón cerebral del sujeto que veía una imagen de cara novedosa y específica como entrada (una cara que no estaba incluida en el conjunto de entrenamiento), y su La salida fue una estimación del vector de características latentes de 1024 dimensiones para esa cara. La imagen del rostro se generó (o “reconstruyó”) a través de la red neuronal generativa (VAE-GAN).

      Decodificación cerebral de imágenes faciales basadas en representaciones latentes VAE-GAN. a Fase de formación. Cada sujeto vio

      8000 caras (una presentación cada una) en un diseño rápido relacionado con eventos. Las mismas imágenes faciales también se ejecutaron a través de la red "Encoder" (como se describe en la Fig. 1) o una descomposición de PCA, para obtener una descripción de la cara latente de 1024 dimensiones. El "decodificador cerebral" era una regresión lineal simple, entrenada para asociar el vector latente de 1024 dimensiones con el patrón de respuesta cerebral correspondiente. Esta regresión lineal, con 1024 regresores paramétricos para la señal BOLD (y un término de "sesgo" constante adicional), produjo una matriz de ponderaciones W (1025 por nortevoxels dimensiones) optimizadas para predecir patrones cerebrales en respuesta a estímulos faciales. B Fase de prueba. También presentamos 20 caras de "prueba" distintas (que no forman parte del conjunto de entrenamiento, al menos 45 presentaciones intercaladas aleatoriamente cada una) a los sujetos. Los patrones de actividad cerebral resultantes simplemente se multiplicaron por la matriz de peso transpuesta W T (nortevoxels por 1025 dimensiones) y su matriz de covarianza inversa para producir una estimación lineal de las dimensiones de la cara latente. Luego se aplicó la red del generador (Fig. 1a) o una transformada PCA inversa para traducir el vector latente predicho en una imagen facial reconstruida

      Contrastamos los resultados obtenidos de este modelo de red neuronal profunda con los producidos por otro modelo más simple de descomposición de imágenes faciales: análisis de componentes principales (PCA, conservando solo los primeros 1024 componentes principales del conjunto de datos de entrenamiento, ver Fig.1 complementaria). El modelo PCA también describe cada rostro mediante un vector en un espacio latente de 1024 dimensiones, y también se puede utilizar para reconstruir rostros en base a una estimación de este vector de características de 1024-D, como se demostró en estudios recientes 13,14.

      Tanto para la red neuronal profunda como para los modelos basados ​​en PCA, definimos un subconjunto de vóxeles de materia gris como nuestra “región de interés” (ROI). De hecho, muchas partes del cerebro realizan cálculos que no están relacionados con el procesamiento de rostros o el reconocimiento que ingresa a tales regiones en nuestro análisis, lo que afectaría negativamente la relación señal-ruido. Nuestro criterio de selección combinó dos factores: (i) se esperaba que los vóxeles respondieran a los estímulos faciales (según lo determinado por un t prueba entre las condiciones de la cara y la línea de base, es decir, la fijación de una pantalla vacía), y (ii) se esperaba que la varianza explicada de la respuesta BOLD de los vóxeles mejorara cuando las 1024 características de la cara latente se ingresaron como regresores en el modelo lineal (en comparación con un modelo de línea de base con solo un regresor de rostro binario: rostro presente / ausente). La distribución de vóxeles a lo largo de estas dos dimensiones, y el criterio de selección correspondiente, se ilustran para un tema representativo en la Fig.2 complementaria. En los cuatro temas, el número de vóxeles resultantes en la selección fue

      100,000 (media: 106,612 rango: 74,388-162,388). Los vóxeles seleccionados se muestran en la Fig. 3 e incluyen las regiones occipital, temporal, parietal y frontal. Se hizo una selección separada basada en los parámetros faciales de PCA, y se usó para el "decodificador cerebral" basado en PCA (número medio de voxels seleccionados: rango de 106,685: 74,073-164,524) las regiones seleccionadas fueron virtualmente idénticas para los dos modelos. Es importante destacar que los criterios de selección de vóxeles anteriores se aplicaron en función de las respuestas BOLD a las imágenes de la cara de entrenamiento únicamente, pero no a las 20 imágenes de prueba, por lo tanto, el análisis de decodificación no sufre problemas de "razonamiento circular" causados ​​por esta selección de vóxeles. dieciséis .

      Voxels seleccionados para decodificación cerebral. Los vóxeles se seleccionaron en función de una combinación de su capacidad de respuesta visual y su bondad de ajuste GLM durante la etapa de entrenamiento del decodificador cerebral (Fig. 2a). El código de color (rojo a amarillo) indica el número de sujetos (1–4) para los que se seleccionó cada vóxel en particular. Las líneas de color indican los límites de las regiones corticales estándar 43

      En la figura 4a se muestran ejemplos de las imágenes faciales reconstruidas del conjunto de imágenes de prueba de cada uno de los cuatro sujetos. Aunque los modelos VAE-GAN y PCA podrían reconstruir una semejanza aceptable de las caras originales, las imágenes reconstruidas a partir de la red neuronal generativa profunda (VAE-GAN) parecen más realistas y más cercanas a la imagen original. Cuantificamos el rendimiento de nuestro sistema de decodificación cerebral al correlacionar los vectores latentes estimados por el cerebro de las 20 caras de prueba con los 20 vectores reales, y usamos los valores de correlación por pares para medir el porcentaje de clasificación correcta. Para cada sujeto, para cada una de las 20 caras de prueba, comparamos el vector decodificado 1024-D con el vector de verdad del suelo de la imagen de prueba real y con el de otra imagen de prueba (distractor): la decodificación del cerebro era "correcta" si la correlación con el vector objetivo real fue mayor que con el vector distractor. Esto se repitió para todos (20 × 19) pares de imágenes de prueba, y el rendimiento promedio se comparó con el azar (50%) con una prueba de Monte-Carlo no paramétrica (ver Métodos: Estadísticas). Las reconstrucciones del modelo GAN lograron una clasificación del 95,5% (rango: 91,3-98,7%, todos pag & lt 10 −6), mientras que el modelo PCA sólo alcanzó el 87,5% (rango 76,6-92,4%, todavía muy por encima de la probabilidad, todos pag & lt 10 −4, pero muy por debajo del modelo GAN, prueba no paramétrica de Friedman, χ 2 (1) = 4, pag & lt 0,05). También probamos la capacidad del decodificador cerebral para elegir la cara exacta correcta entre las 20 caras de prueba: esta tarea de "reconocimiento completo" se consideró correcta si y solo si el vector latente reconstruido estaba más correlacionado con el vector objetivo verdadero que con todos los los 19 vectores distractores. Esta es una prueba más estricta de reconocimiento facial, con un nivel de probabilidad del 5%: el modelo VAE-GAN logró un 65% correcto (rango: 40-75%, prueba binomial, todos pag & lt 10 −6), mientras que el modelo PCA resultó en un 41,25% de reconocimiento correcto solamente (rango 25-50%, todos pag & lt 10 −3) nuevamente, el rendimiento del modelo VAE-GAN fue significativamente mayor que el PCA (χ 2 (1) = 4, pag & lt 0,05).

      Reconstrucción facial. a Ejemplos de imágenes faciales reconstruidas. Para cada uno de nuestros cuatro sujetos (S1–4), la primera columna muestra cuatro rostros de ejemplo (dos hombres + dos mujeres, elegidos entre los 20 rostros de prueba) que realmente se muestran al sujeto durante las sesiones de escaneo. Las siguientes dos columnas son las reconstrucciones faciales basadas en los patrones de activación de fMRI correspondientes para el sistema de decodificación cerebral entrenado usando el espacio latente VAE-GAN (columna central) o la descomposición PCA (columna derecha). B Reconocimiento por parejas. La calidad de la decodificación del cerebro se cuantificó con una clasificación de patrones por pares (que opera en las estimaciones del vector latente) y el rendimiento promedio se comparó con el azar (50%). La decodificación cerebral del modelo VAE-GAN logró un 95,5% de rendimiento correcto en promedio (pag & lt 10 −6), el modelo PCA solo 87,5% (pag & lt 10 −4) la diferencia entre los dos modelos fue significativa (χ 2 (1) = 4, pag & lt 0,05). C Reconocimiento total. También se aplicó un criterio de rendimiento más estricto, según el cual la decodificación se consideró correcta si y solo si el procedimiento identificaba la cara objetivo exacta entre las 20 caras de prueba (probabilidad = 5%). Una vez más, el rendimiento del modelo VAE-GAN (65%) estuvo muy por encima del azar (pag & lt 10 −6) y superó (χ 2 (1) = 4, pag & lt 0.05) el modelo PCA (41.25% pag & lt 10 −3)

      Como los modelos de regresión lineal normalmente requieren muchas más muestras de datos que sus dimensiones de entrada, inicialmente habíamos decidido entrenar el sistema de decodificación cerebral con

      8000 caras por sujeto (en comparación con las 1024 dimensiones latentes). Para establecer si los conjuntos de entrenamiento más pequeños podrían ser suficientes, repetimos el paso de regresión lineal (cálculo de la W matriz en la Fig. 2a) utilizando solo la mitad, un cuarto o un octavo del conjunto de datos de entrenamiento (ver la Fig. 3 complementaria). Para las medidas de reconocimiento total y por pares, el rendimiento por encima de la probabilidad ya podría obtenerse con

      1000 caras de entrenamiento, sin embargo, el rendimiento de decodificación siguió creciendo a medida que aumentaba el tamaño del conjunto de entrenamiento, y fue más alto para

      8000 caras de entrenamiento. Es importante destacar que el modelo PCA se mantuvo por debajo del modelo VAE-GAN para todos los tamaños de conjuntos de entrenamiento.

      Estas comparaciones indican que es más fácil y más eficiente crear un mapeo lineal de las activaciones del cerebro humano al espacio latente VAE-GAN que al espacio PCA. Esto es compatible con nuestra hipótesis de que la red neuronal generativa profunda es más similar al espacio de las representaciones del rostro humano. Además, esta precisión de clasificación se midió aquí con base en la distancia (o correlación vectorial) en el espacio latente de cada modelo, incluso es posible que la diferencia entre los dos modelos se agrave si su precisión se evalúe con una métrica común, como como la calidad perceptiva de las imágenes reconstruidas. Para apoyar esta idea, pedimos a observadores humanos ingenuos que compararan la calidad de los rostros reconstruidos por los dos modelos: cada imagen de prueba original de cada uno de los cuatro sujetos se mostró junto con las correspondientes reconstrucciones VAE-GAN y PCA; el observador decidió qué reconstrucción era perceptualmente más similar al original. Cada par fue calificado 15 veces en general, por al menos 10 participantes distintos, y al menos cinco participantes vieron las dos opciones de respuesta en cualquier orden, primero VAE-GAN o PCA primero. La reconstrucción VAE-GAN se eligió en el 76,1% de los ensayos, mientras que la reconstrucción PCA sólo en el 23,9% de los ensayos. Es decir, los observadores tenían tres veces más probabilidades de preferir la calidad de las caras reconstruidas VAE-GAN que las reconstrucciones PCA, una diferencia que era muy poco probable que ocurriera por casualidad (prueba binomial, 1200 observaciones, pag & lt 10 −10).

      Contribuciones de distintas regiones del cerebro

      Para determinar qué regiones cerebrales contribuyeron más a las capacidades de reconstrucción facial de los dos modelos de decodificación cerebral, para cada sujeto dividimos nuestra selección de vóxeles en tres subconjuntos de igual tamaño, como se ilustra en la Fig. 5a. El procedimiento de decodificación cerebral y reconstrucción facial se aplicó luego por separado para estos tres subconjuntos. Los resultados del reconocimiento por pares revelaron que los vóxeles occipitales y, en menor medida, los temporales, proporcionaban la mayor parte de la información necesaria para la decodificación del cerebro (Fig. 5b). El rendimiento de decodificación de los vóxeles occipitales fue muy superior al azar (50%) para ambos modelos (VAE-GAN: 91,8%, todos pag & lt 10 −6 PCA: 87,2%, todos pag & lt 10 −4), y de manera similar para vóxeles temporales (VAE-GAN: 78,8%, todos pag & lt 10 −3 PCA: 73,6%, todos pag & lt 0,01). Por otro lado, aunque los vóxeles frontoparietales cumplían con nuestros criterios de selección (ver Fig.3), no llevaban información suficientemente confiable por sí mismos para permitir una clasificación precisa (VAE-GAN: 60,1%, un sujeto con pag & lt 10 −6, todos los demás pag & gt 0,2 PCA: 56,4%, un sujeto con pag & lt 10 −6, todos los demás pag & gt 0,05 véase, sin embargo, Lee et al. 14). El patrón de resultados fue idéntico para los modelos de decodificación basados ​​en VAE-GAN y PCA: una prueba de Friedman no paramétrica sugirió que el rendimiento difería en los tres subconjuntos (para VAE-GAN: χ 2 (2) = 8, pag & lt 0.02 para PCA: χ 2 (2) = 6.5, pag & lt 0.04), con pruebas post hoc que revelaron que los vóxeles occipitales se desempeñaron significativamente mejor que los frontoparietales, con vóxeles temporales en el medio (no significativamente diferente de ninguno de los otros dos). En todas las selecciones de vóxeles, PCA siempre produjo precisiones más bajas que VAE-GAN, aunque esta diferencia no alcanzó significación estadística dado nuestro número limitado de sujetos (en las tres selecciones de vóxeles, χ 2 (1) ≥ 3, pag & gt 0,08).

      Contribuciones de distintas regiones del cerebro. a Procedimiento de segmentación de vóxeles. Para investigar las regiones cerebrales que apoyaron más fuertemente nuestro desempeño de decodificación cerebral, mientras manteníamos comparables los diferentes subconjuntos, separamos linealmente nuestra selección de vóxeles en tres subconjuntos de igual tamaño. Primero, el 1/3 de la mayoría de los vóxeles posteriores de cada sujeto se etiquetaron como "occipital". Entre los vóxeles restantes, la mitad más rostral (1/3 del número inicial) se etiquetó como "temporal" y la mitad caudal restante como "frontoparietal". Se eligió esta segmentación de tres vías, diferente para cada sujeto, porque el rendimiento de nuestro procedimiento de decodificación cerebral es muy sensible al número de vóxeles incluidos. B Rendimiento de reconocimiento por pares para las diferentes regiones de interés. La selección completa se refiere al conjunto de vóxeles representados en la Fig. 3; son los mismos datos que en la Fig. 4b, promediados sobre los sujetos (las barras de error reflejan el error estándar de la media). Los círculos representan el desempeño de sujetos individuales. La línea punteada es la pag & lt 0.05 umbral de significancia para el desempeño de sujetos individuales. Entre los tres subconjuntos, y para los modelos VAE-GAN y PCA, el rendimiento es máximo en vóxeles occipitales, seguidos de vóxeles temporales. Los vóxeles frontoparietales por sí mismos no apoyan el desempeño por encima del azar (excepto para uno de los cuatro sujetos). En todos los casos, el rendimiento del modelo VAE-GAN sigue siendo superior al del modelo PCA

      Para distinguir aún más las contribuciones relativas de las tres regiones del cerebro al rendimiento de la decodificación del cerebro, también empleamos un enfoque de partición de varianza (Fig. 4 complementaria). Compatible con los resultados ya descritos en la Fig. 5b, encontramos que las predicciones de vectores latentes derivadas de vóxeles occipitales representaron la mayor parte de la varianza de los correspondientes vectores latentes de verdad fundamental, seguidos de los vóxeles temporales y, finalmente, los vóxeles frontoparietales. Cada una de las tres áreas también tuvo una contribución única e independiente a la varianza explicada, que fue considerablemente mayor para el modelo VAE-GAN que para el modelo PCA. Es decir, aunque los vóxeles occipitales proporcionaron las reconstrucciones más precisas, los vóxeles temporales no transmitían simplemente información redundante.

      Posibles aplicaciones: decodificación de género como ejemplo

      El mapeo aprendido entre los patrones de activación cerebral y el espacio latente de la red neuronal generativa profunda (es decir, la matriz W en la Fig. 2a) puede servir como una poderosa herramienta para sondear la representación de rostros del cerebro humano, sin tener que realizar necesariamente costosos experimentos adicionales. Una aplicación sencilla, por ejemplo, podría ser la visualización de la selectividad de las características faciales de cualquier vóxel o ROI en el cerebro. El vóxel o ROI define un subconjunto de columnas en el W matriz (Fig. 2), cada columna almacena un vector latente que representa la selectividad facial del vóxel. Simplemente ejecutando este vector latente (o su promedio sobre el ROI) en la red del generador de rostros, la selectividad del vóxel o del ROI se puede revelar como una imagen de rostro real.

      Otra extensión sería explorar la representación cerebral de rasgos faciales importantes para el comportamiento, como género, raza, emoción o edad. Cualquiera de estas propiedades faciales se puede expresar como un vector latente, que se puede calcular fácilmente en base a una serie de ejemplos de caras etiquetadas (restando el vector latente promedio para las caras sin la etiqueta de atributo del vector latente promedio para las caras con la etiqueta ver Fig. . 1b para ejemplos de vectores latentes calculados con caras que tienen una etiqueta de "sonrisa" o una etiqueta de "hombre"). El conjunto de datos de rostros de celebridades disponible públicamente (CelebA 17) utilizado en nuestros experimentos ya está asociado con 40 etiquetas de este tipo que describen el género, las expresiones, el color de la piel o el cabello, y muchas otras propiedades de cada rostro. Tenga en cuenta que estas 40 etiquetas binarias (característica presente / ausente) se recopilaron mediante un procedimiento de anotación manual para cada estímulo facial en el conjunto de datos faciales, y se eligieron para ser representativas de la variabilidad en el conjunto de datos. Dado el vector latente que describe tal propiedad facial, podemos usar el modelo de decodificación cerebral para descubrir qué vóxeles cerebrales son más sensibles a la propiedad facial asociada. Este procedimiento se ilustra en la Fig. 5 complementaria para el ejemplo del atributo "género" (etiqueta "masculino"). Los vóxeles más sensibles a esta propiedad facial se recuperan calculando la correlación por columnas de la matriz. W con el vector latente “masculino”: los vóxeles selectivos de género deben tener valores de correlación fuertemente positivos o fuertemente negativos (dependiendo de su preferencia por rostros masculinos o femeninos). Los vóxeles con correlaciones más grandes (valor absoluto) se encuentran en las regiones occipital y temporal, notablemente tanto en las áreas visuales tempranas como en la corteza fusiforme (Fig. 5 complementaria), en consonancia con un informe anterior de representación distribuida de información de género 6.

      Finalmente, otra forma de investigar la representación cerebral de un atributo facial específico es crear un clasificador simple para etiquetar los vectores latentes decodificados por el cerebro de acuerdo con esta propiedad de la cara. Esto se ilustra en la Fig. 6, nuevamente para el ejemplo del atributo de rostro "género". Cada vector latente decodificado por el cerebro se proyecta sobre el eje "género" del espacio latente (Fig. 6a), y el signo de la proyección determina el resultado de la clasificación ("masculino" para positivo, "femenino" para signos negativos). Este clasificador rudimentario proporciona información suficiente para clasificar el género facial con un 70% de precisión (prueba binomial, pag = 0,0001 Fig. 6b). Una prueba de Friedman no paramétrica indica que el rendimiento de decodificación de género difiere en los tres subconjuntos de vóxeles (χ 2 (2) = 7.6, pag & lt 0.03), y una prueba post hoc revela que los vóxeles occipitales funcionan significativamente mejor que los frontoparietales, con vóxeles temporales en el medio (no significativamente diferente de ninguno de los otros dos). Los intentos anteriores de clasificar el sexo de la cara mediante el análisis de patrones de múltiples vóxeles habían logrado un éxito limitado, con una precisión de clasificación máxima por debajo del 60% 6,8. Nuestro decodificador cerebral lineal simple (Fig. 6a) ya mejora estos métodos anteriores, al tiempo que deja espacio para mejoras futuras, por ejemplo, utilizando técnicas de clasificación más poderosas (como SVM) en los vectores latentes decodificados por el cerebro.

      Decodificación de género. a Clasificador lineal básico. Se implementó un clasificador de género simple como prueba de principio. El eje de "género" se calculó restando la descripción latente promedio de 10,000 rostros femeninos de la descripción latente promedio de 10,000 rostros masculinos. Cada vector latente se proyectó simplemente sobre este eje de "género", y las proyecciones positivas se clasificaron como masculinas, las proyecciones negativas como femeninas. B Precisión de decodificación. Cuando se aplica a los verdaderos vectores latentes para las caras de prueba de cada sujeto, este clasificador básico se desempeñó correctamente al 85% (rango: 80-90%). Este es el rendimiento del techo del clasificador, representado como una región gris horizontal (media ± sem entre los sujetos). Cuando se opera en los vectores latentes estimados a través de nuestro procedimiento de decodificación cerebral, el mismo clasificador de género funcionó con un 70% de precisión, muy por encima de la probabilidad (prueba binomial, pag = 0,0001 barras representan la precisión promedio del grupo ± sem entre los sujetos, los círculos representan el desempeño de los sujetos individuales). La clasificación de género también fue precisa al restringir el análisis a vóxeles occipitales (71,25%, pag = 0,00005) o vóxeles temporales (66,25%, pag & lt 0,001), pero no vóxeles frontoparietales (51,25%, pag = 0,37). Los símbolos de estrella indican la importancia a nivel de grupo: ***pag & lt 0.001, **pag & lt 0.01. La línea punteada es la pag & lt 0.05 umbral de significancia para el desempeño de sujetos individuales

      Decodificación de imágenes

      Para demostrar aún más la versatilidad de nuestro método de decodificación cerebral, a continuación lo aplicamos a otro problema notoriamente difícil: recuperar información sobre estímulos que el sujeto no experimenta directamente, sino que solo imagina en su "ojo mental". Estudios previos han demostrado que este problema de clasificación puede resolverse cuando las diferentes clases de estímulos a imaginar son visualmente distintivos 18, como imágenes de diferentes categorías 19,20,21,22,23,24. Sin embargo, hasta donde sabemos, no se ha informado antes de la capacidad de distinguir entre objetos muy similares visualmente, como rostros diferentes, durante las imágenes.

      Antes del experimento, cada sujeto eligió una cara entre un conjunto de 20 imágenes posibles (diferentes de sus conjuntos de imágenes de entrenamiento y de prueba). Durante el experimento, se les pidió que imaginaran esta cara específica, siempre que apareciera un gran cuadrado gris en el medio de la pantalla (presentación de 12 segundos). Estos ensayos de imágenes se repitieron 52 veces en promedio (rango entre sujetos: 51–55) durante las sesiones de exploración de resonancia magnética funcional, intercaladas con presentaciones de estímulo normales. La respuesta BOLD promedio durante las imágenes se usó luego para estimar un vector de cara latente (usando el decodificador cerebral ilustrado en la Fig.2b), y este vector se comparó con los 20 posibles vectores latentes por pares, como se describió anteriormente para las imágenes de prueba ( Figuras 4b, 5b). Como se ilustra en la Fig.7 (ver también la Fig.6 complementaria), el rendimiento de decodificación por pares no fue diferente del azar (50%) en cada una de nuestras regiones de interés predefinidas (selección completa pag = 0,53, occipital pag = 0,30 o regiones frontoparietales pag = 0,43), con la única excepción de la selección del vóxel temporal, que produjo un 84,2% de decodificación correcta (pag = 0,012). Una prueba de Friedman no paramétrica indicó que el rendimiento de decodificación de imágenes difería en los tres subconjuntos (χ 2 (2) = 6.5, pag & lt 0.04), y una prueba post hoc reveló que los vóxeles temporales se desempeñaron significativamente mejor que los frontoparietales, con vóxeles occipitales en el medio (no significativamente diferentes de ninguno de los otros dos). En conjunto, las regiones temporales, pero no las occipitales o frontoparietales, pueden apoyar la reconstrucción de imágenes mentales. Este desempeño podría reflejar la fuerte participación de las regiones temporales del cerebro en el procesamiento facial de alto nivel 25,26,27, así como la naturaleza principalmente de arriba hacia abajo de las imágenes mentales 28. En cualquier caso, la capacidad de clasificar rostros imaginados a partir de patrones de respuesta cerebral destaca nuevamente la flexibilidad y el potencial de nuestro enfoque.

      Decodificación de imágenes. El patrón de respuesta fMRI BOLD registrado durante las imágenes mentales de una cara específica (no visible en la pantalla) pasó a través de nuestro sistema de decodificación cerebral. El vector latente estimado resultante se comparó con el vector verdadero y 19 vectores distractores, por pares. Solo la selección de vóxeles temporales admitió la decodificación de imágenes por encima del azar, con un rendimiento correcto del 84,2% (pag = 0,012). Ni las regiones occipital, ni frontoparietal, ni la selección completa de voxel se realizó por encima del azar (todos pag & gt 0,30). Las barras representan la precisión promedio del grupo (± sem entre los sujetos), los círculos representan el desempeño de los sujetos individuales. Los símbolos de estrella indican la importancia a nivel de grupo: * para pag & lt 0.05


      Acceso al documento

      • APA
      • Estándar
      • Harvard
      • Vancouver
      • Autor
      • BIBTEX
      • RIS

      En: NeuroImage, vol. 40, núm. 1, 1 de marzo de 2008, pág. 86-109.

      Resultado de la investigación: Contribución a la revista ›Artículo› revisión por pares

      T1 - Análisis de vectores independientes (IVA)

      T2: enfoque multivariado para el estudio de grupo de resonancia magnética funcional

      N1 - Información de financiamiento: Este trabajo fue parcialmente financiado en parte por subvenciones de NIH R01-NS048242 a Yoo, SS y NIH U41RR019703 a Jolesz FA.

      N2: el análisis de componentes independientes (ICA) de los datos de fMRI genera mapas de activación cerebral específicos de sesión / individuales sin suposiciones a priori con respecto al tiempo o patrón de las respuestas de señal dependientes del nivel de oxigenación en sangre (BOLD). Sin embargo, debido a una permutación aleatoria entre los componentes de salida, ICA no ofrece una solución sencilla para la inferencia de la activación a nivel de grupo. En este estudio, presentamos un método de análisis de vector independiente (IVA) para abordar el problema de permutación durante el análisis de datos del grupo de resonancia magnética funcional. En comparación con ICA, IVA ofrece un análisis de componentes dependientes adicionales, que fueron asignados para su uso en la agrupación automatizada de patrones de activación dependientes entre sujetos. Después de realizar pruebas con datos de resonancia magnética funcional simulados basados ​​en ensayos, nuestro método propuesto se aplicó a datos de resonancia magnética funcional reales empleando un paradigma de tarea de ensayo único (tareas de generación de voz interna y apretar el motor de la mano derecha) y un paradigma de tarea de tres ensayos (mano derecha tarea de imaginería motora). También se aplicaron un modelo lineal generalizado (GLM) y el grupo ICA de la caja de herramientas de fMRI (GIFT) al mismo conjunto de datos para compararlos con IVA. En comparación con GLM, IVA capturó con éxito los patrones de activación incluso cuando las áreas funcionales mostraron respuestas hemodinámicas variables que se desviaron de una respuesta hipotética. También demostramos que IVA infería de manera efectiva patrones de activación de grupo de origen desconocido sin el requisito de una etapa de preprocesamiento (como la concatenación de datos en GIFT basado en ICA). El IVA se puede utilizar como una alternativa potencial o un complemento de los métodos actuales de procesamiento de grupos de resonancia magnética funcional basados ​​en ICA.

      AB: el análisis de componentes independientes (ICA) de los datos de fMRI genera mapas de activación cerebral específicos de sesión / individuales sin suposiciones a priori con respecto al tiempo o patrón de las respuestas de la señal dependiente del nivel de oxigenación en sangre (BOLD). Sin embargo, debido a una permutación aleatoria entre los componentes de salida, ICA no ofrece una solución sencilla para la inferencia de la activación a nivel de grupo. En este estudio, presentamos un método de análisis de vector independiente (IVA) para abordar el problema de permutación durante el análisis de datos del grupo de resonancia magnética funcional. En comparación con ICA, IVA ofrece un análisis de componentes dependientes adicionales, que fueron asignados para su uso en la agrupación automatizada de patrones de activación dependientes entre sujetos. Después de realizar pruebas con datos de resonancia magnética funcional simulados basados ​​en ensayos, nuestro método propuesto se aplicó a datos de resonancia magnética funcional reales empleando un paradigma de tarea de ensayo único (tareas de generación de voz interna y apretar el motor de la mano derecha) y un paradigma de tarea de tres ensayos (mano derecha tarea de imaginería motora). También se aplicaron un modelo lineal generalizado (GLM) y el grupo ICA de la caja de herramientas de fMRI (GIFT) al mismo conjunto de datos para compararlos con IVA. En comparación con GLM, IVA capturó con éxito los patrones de activación incluso cuando las áreas funcionales mostraron respuestas hemodinámicas variables que se desviaron de una respuesta hipotética. También demostramos que IVA infería de manera efectiva patrones de activación de grupo de origen desconocido sin el requisito de una etapa de preprocesamiento (como la concatenación de datos en GIFT basado en ICA). El IVA se puede utilizar como una alternativa potencial o un complemento de los métodos actuales de procesamiento de grupos de resonancia magnética funcional basados ​​en ICA.


      Ver el vídeo: Cómo ayudar en la relajación del paciente en la prueba de Resonancia Magnética (Febrero 2023).