Información

¿Qué significan las letras 'p' y 'c' en las descripciones de mutaciones?


Ejemplo:

NM_000525.3 (KCNJ11):C. 67A> G ( pag. Lys23Glu) Y diabetes mellitus neonatal permanente

¿"P" significa "polimorfismo"?

¿Qué significa la letra "c"?


De acuerdo con las pautas de HGVS, se debe usar un prefijo de letra para indicar la secuencia de referencia utilizada. Los prefijos aceptados son:

  • "gramo." para una secuencia de referencia genómica
  • "metro." para una secuencia de referencia mitocondrial
  • "C." para una secuencia de referencia de ADN codificante
  • "norte." para una secuencia de referencia de ADN no codificante
  • "R". para una secuencia de referencia de ARN (transcripción)
  • "pag." para una secuencia de referencia de proteína

¿Qué significan las letras 'p' y 'c' en las descripciones de mutaciones? - biología

Subtotal (artículos) .00

¿Tienes un código de promoción? ¡Ingrese durante el proceso de pago!

¡Los accesorios más populares para su nuevo telescopio!

Empiece aquí para encontrar el perfecto
telescopio para ti!

NUEVO: Prismáticos Nature DX ED

El galardonado binocular Nature DX de Celestron obtiene una mejora importante con la adición de lentes de objetivo ED.

NUEVO: Elements ThermoTank 3

En el camino, en el lugar de trabajo, en el aula o simplemente sentado en casa relajándose: el Celestron Elements ThermoTank 3 le mantendrá las manos calentitas.

NUEVO: Elements ThermoTorch 5

Este resistente dispositivo 3 en 1 cuenta con una verdadera linterna táctica de 3 modos, un calentador de manos y un banco de energía portátil para recargar sus dispositivos electrónicos personales mientras viaja.


El genoma del coronavirus

El coronavirus es una membrana aceitosa repleta de instrucciones genéticas para hacer millones de copias de sí mismo. Las instrucciones están codificadas en 30.000 "letras" de ARN (a, c, gyu) que la célula infectada lee y traduce en muchos tipos de proteínas víricas.

Instrucciones de ARN para producir la proteína ORF1a

Inicio del genoma del coronavirus

Inicio del genoma del coronavirus


¿Qué es una mutación MTHFR?

La metilenotetrahidrofolato reductasa, o MTHFR, es una enzima que descompone el aminoácido homocisteína. El gen MTHFR que codifica esta enzima tiene el potencial de mutar, lo que puede interferir con la capacidad de la enzima para funcionar normalmente o inactivarla por completo.

La gente tiene dos MTHFR genes, heredando uno de cada uno de sus padres. Las mutaciones pueden afectar a uno (heterocigotos) o ambos (homocigotos) de estos genes.

Hay dos tipos o variantes comunes de MTHFR mutación: C677T y A1298C.

Mutaciones en MTHFR los genes se encuentran en aproximadamente el 25% de las personas de ascendencia hispana y entre el 10 y el 15% de los caucásicos de América del Norte.

Estas mutaciones en raras ocasiones conducen a niveles altos de homocisteína en la sangre, lo que puede contribuir a numerosas afecciones de salud, como:

En este artículo, analizamos MTHFR mutaciones con más detalle, incluidas las condiciones de salud relacionadas, el diagnóstico y las opciones de tratamiento. También discutimos cómo MTHFR las mutaciones pueden afectar el embarazo.

Share on Pinterest Un médico puede examinar el historial médico de una persona al diagnosticar una mutación de MTHFR.

Mutaciones en el MTHFR El gen puede afectar la capacidad del cuerpo para procesar los aminoácidos, a saber, la homocisteína, lo que puede provocar resultados adversos para la salud.

Condiciones con las que los investigadores se han asociado MTHFR las mutaciones genéticas incluyen:

    , que es el término para los niveles anormalmente altos de homocisteína en la sangre u orina, una afección neurológica que afecta la coordinación
  • neuropatía periférica, una afección neurológica que daña los nervios, una afección presente al nacer en la que la cabeza es más pequeña de lo habitual, una curvatura anormal de la columna vertebral, lo que significa que una persona carece de glóbulos rojos sanos
  • enfermedades cardiovasculares, como coágulos de sangre, accidentes cerebrovasculares y ataques cardíacos
  • trastornos de la salud mental y del comportamiento, como la depresión y el trastorno por déficit de atención con hiperactividad (TDAH)

Los síntomas varían tanto entre individuos como según el tipo de mutación. Las personas generalmente no saben que tienen un MTHFR mutación a menos que experimenten síntomas graves o se sometan a pruebas genéticas.

Tener uno o dos MTHFR las mutaciones pueden aumentar ligeramente los niveles de homocisteína presentes en la sangre. Esta condición se llama homocistinemia.

La homocisteína es un aminoácido que el cuerpo produce al descomponer las proteínas de la dieta. Los niveles altos de homocisteína pueden dañar los vasos sanguíneos y provocar coágulos de sangre. Las personas que tienen niveles altos de homocisteína tienden a tener niveles bajos de vitamina B-12.


Reordenamientos cromosómicos en neurospora y otros hongos filamentosos

David D. Perkins, en Avances en genética, 1997

Antecedentes de las reordenaciones en Neurospora

Barbara McClintock fue pionera en la citogenética fúngica en 1944 durante una visita de 10 semanas a la Universidad de Stanford por invitación de G. W. Beadle (McClintock, 1945). Anteriormente, cuando McClintock y Beadle eran estudiantes en Cornell, ella había revolucionado la citogenética del maíz utilizando la técnica de calabaza de Belling (1927) para preparar los microsporocitos para su examen, un método más informativo y conveniente que la incrustación y seccionamiento tradicionales. Ella adaptó el método para Neurospora asci y logró demostrar que los siete Neurospora los cromosomas podrían distinguirse por su tamaño y morfología, aunque (como sabemos ahora) su contenido de ADN es dos órdenes de magnitud más pequeño que el del maíz.

En su primera Neurospora En el estudio, McClintock describió el cariotipo en el paquiteno y en la metafase posmeiótica y mostró que la meiosis es esencialmente la misma que en plantas y animales. También examinó tres translocaciones recíprocas putativas, identificó los cuadrivalentes de la profase I y la segregación relacionada en los heterocigotos estructurales con los patrones de aborto de ascosporas en el asci lineal. En los años siguientes, los estudios citológicos y genéticos de Neurospora Las translocaciones fueron ampliadas por sus estudiantes Singleton (1948) y St. Lawrence (1953), y por Barry (1960b, 1967) y Phillips (1967). Para una evaluación del trabajo de McClintock con Neurospora, ver Perkins (1992a).

Reordenamientos utilizados en los primeros Neurospora Los estudios se detectaron debido a vínculos genéticos inesperados. Desde entonces, sin embargo, los reordenamientos generalmente se han reconocido como aberrantes porque una fracción de las ascosporas de cruces de Reordenamiento × Normal no están pigmentadas (llamadas "blancas"), en contraste con las ascosporas de cruces estructuralmente homocigotos, que son casi todas negras. La falta de pigmentación se debe a las deficiencias generadas por la recombinación meiótica. Estos conducen a la maduración detenida y la muerte temprana de cualquier ascospora que reciba un genoma deficiente. No solo la heterocigosidad para un reordenamiento es señalada visualmente por las ascosporas no pigmentadas, sino que también las esporas pigmentadas y no pigmentadas ocurren en patrones y frecuencias que son característicos de diferentes tipos de aberraciones.

Los patrones de aborto de ascosporas pueden verse en ascos lineales cuando se abren los peritecios. Este fue el método utilizado por McClintock. Los reordenamientos cromosómicos también se pueden detectar inspeccionando las ascosporas que se disparan desde los peritecios en maduración. Las esporas se expulsan como grupos desordenados de ocho que se originan en asci individuales. El tipo de reordenamiento generalmente se puede inferir de las frecuencias relativas de ascos desordenados con diferentes números de ascosporas abortadas no pigmentadas (Perkins, 1966, 1974). Se han identificado cientos de reordenamientos en Neurospora utilizando este enfoque. Estos se han confirmado genéticamente y se han mapeado sus puntos de ruptura.

los Neurospora los reordenamientos se han utilizado para muchos usos.

Asignación de genes y grupos de ligamiento a cromosomas y segmentos cromosómicos distinguibles citológicamente (St. Lawrence, 1953 Phillips, 1967 Barry, 1967 Perkins y Barry, 1977).

Estudiar la polaridad de la recombinación intragénica (Murray, 1968).

Demostrar que un recombinador actúa solo en cis (Catcheside y Angel, 1974).

El uso de cepas con múltiples translocaciones para aumentar la eficiencia de la detección de ligamiento (Perkins et al., 1969 ).

Construir un equilibrador y usarlo para examinar cepas de la naturaleza en busca de la presencia de alelos recesivos letales o perjudiciales en la fase sexual (Leslie, 1985).

Producir duplicaciones y deficiencias de contenido definido (ver Perkins, 1974 Perkins y Barry, 1977). (Los términos "duplicación" o "duplicación segmentaria" se utilizarán para designar un segmento cromosómico que está presente como dos copias no tándem o una cepa que contiene dicho segmento. Una cepa de duplicación también puede denominarse "diploide parcial").

Uso de reordenamientos que generan duplicaciones para mapear genes, centrómeros y extremos de grupos de ligamiento (Perkins, 1974, 1986 Perkins y Barry, 1977 para otros ejemplos, ver Davis, 1979 Metzenberg et al., 1985 ). (Tsu método preciso es análogo al mapeo de deleciones en fagos. La base para el mapeo por cobertura de duplicación se muestra en la Figura 1.)

Figura 1 . Un ejemplo de cómo se mapean los genes y los puntos de corte mediante el promedio de duplicación. Genotipos de progenie viable en asci de un cruce de translocación insercional (centrómeros negros) × Normal (centrómeros blancos), donde el padre de secuencia normal contenía un marcador recesivo (d) dentro del segmento translocado y otro marcador recesivo (b) fuera del segmento . El segmento translocado se muestra sin aparear con su homólogo posicionado normalmente. Los dos diagramas superiores muestran las consecuencias de la segregación ditipo parental y ditipo no parental de centrómeros y puntos de ruptura, sin cruces. El cruce en cualquiera de las regiones intersticiales entre centrómeros y puntos de ruptura da como resultado un tetratipo asci, cuya constitución se muestra en los dos diagramas inferiores. La progenie de la duplicación son heterocigotos D / d, fenotípicamente D +. Los productos deficientes son inviables. La relación fenotípica dominante: recesiva entre la progenie viable es 1: 2 para b, que no está cubierta, y 2: 1 para d, que está cubierta. Las expectativas serían similares para las translocaciones cuasiterminales. Estas proporciones se aplican a marcadores que no se recombinan con un punto de ruptura de translocación. Cruzar entre by la translocación cambiaría la relación B: b hacia la igualdad. Para una translocación insercional o cuasiterminal con 60% de tetratipos, los tipos de ascus desordenados esperados serían 20% 8B: 0 W, 60% 6B: 2 W, 20% 4B: 4 W, 0% 2B: 6 W y 0% 0B : 8 W.

Usar duplicaciones para identificar genes que determinan la incompatibilidad vegetativa (Newmeyer y Taylor, 1967 Perkins, 1975 Perkins et al., 1993a Mylyk, 1975, 1976 Arganoza et al., 1994 Glass y Kuldau, 1992 Leslie, 1995). (Si D y D en la Figura 1, si los alelos se encuentran en dicho locus, la heterocigosidad en la progenie de duplicación estaría señalada por un fenotipo anormal característico).

Determinación de dominancia y efectos de dosificación en estudios de regulación (Metzenberg et al., 1974 Metzenberg y Chia, 1979). Demostrar diferencias en el dominio entre las fases sexual y vegetativa ( Turner, 1977).

Aclarar la base de los efectos de posición transgénica que conducen a la expresión independiente del activador de genes regulados positivamente (Versaw y Metzenberg, 1996).

Búsqueda de un efecto de posición de tipo variegación (Johnson, 1979).

Determinación del efecto de mutantes sensibles a mutágenos sobre la estabilidad cromosómica (Schroeder, 1970, 1986 Newmeyer y Galeazzi, 1977, 1978).

Determinación de la relación entre el centrómero y la distancia del punto de ruptura con la no disyunción de los cuadrivalentes de translocación (Perkins y Raju, 1995).

Estudiar el organizador del nucleolo (NOR), su ubicación en el mapa genético, la recombinación dentro del NOR y entre el NOR y los bloques desplazados de ADNr, los cambios en el número de repeticiones del ADNr, la propensión del ADNr a romperse y la cobertura de las rupturas con nuevos telómeros ( Phillips, 1967 Barry y Perkins, 1969 Perkins et al., 1980, 1984, 1986, 1995a Rodland y Russell, 1982, 1983 Russell y Rodland, 1986 Butler y Metzenberg, 1989, 1990 Butler, 1992).

Determinación de la orientación 3′-5 ′ de genes secuenciados en relación con mapas de ligamiento (Paluh et al., 1990 Schmidhauser et al., 1990 ).

Proporcionar el punto de partida para un recorrido cromosómico y determinar su dirección (Smith y Glass, 1996).

Determinación de secuencias de nucleótidos a través de uniones de puntos de ruptura (Asch et al., 1992 Cambareri y Kinsey, 1997 ver Perkins, 1995).

Identificación de ADN cromosómicos separados por electroforesis en gel de campo pulsado (Orbach et al., 1988 ).

Proporcionar cromosomas truncados con los que preparar bibliotecas específicas de región para construir contigs y clonar genes de interés (Ballario et al., 1989, 1996 ).

Demostrar ajuste sináptico en inversiones heterocigotas (Bojko, 1990).

Estudio de la mutación puntual inducida por repetición premeiótica (RIP) de genes contenidos en duplicaciones segmentarias (Perkins et al., 1997 ).

Obtención de heterocariones con duplicaciones complementarias y deficiencias en los núcleos constituyentes (D. D. Perkins, inédito).

Los métodos y los primeros resultados con reordenamientos fueron descritos por Perkins (1966, 1974) y fueron revisados ​​en un contexto citogenético más amplio por Perkins y Barry (1977). Una recopilación de información sobre 167 Neurospora reordenamientos se adjuntó a la revisión de 1977. En ese momento, solo se conocían un puñado de reordenamientos cromosómicos en microorganismos eucariotas distintos de Neurospora crassa y Aspergillus nidulans.


Discusión

El número de secuencias de proteínas y genomas disponibles ha aumentado enormemente en la última década debido a los avances en las tecnologías de secuenciación de próxima generación. En esta gran cantidad de nuevos datos, hemos descubierto una gran cantidad de variantes de codificación nunca antes vistas de significado funcional desconocido. Para ayudarnos a analizar estos nuevos datos, se han desarrollado predictores computacionales, pero el entrenamiento y la evaluación de estos predictores a menudo adolecen de sesgos. Los experimentos de DMS proporcionan un punto de referencia ideal para probar predictores, asegurando que ninguno de los datos de entrenamiento se incluya en la evaluación. La disponibilidad de un gran número de estos conjuntos de datos DMS experimentales ha facilitado este estudio.

Somos conscientes de que numerosos factores técnicos y computacionales pueden afectar la calidad de los datos de los estudios de DMS. Estos pueden derivar de un procedimiento experimental y, por lo tanto, evaluarse mediante la reproducibilidad en réplicas biológicas o la incertidumbre de la medición evaluada mediante réplicas técnicas. La mayor fuente de error de DMS se encuentra en la etapa de secuenciación, donde la secuenciación de próxima generación normalmente lee incorrectamente entre 1/100 y 1 / 1,000 bases (Ma et al, 2019). Muchos grupos adoptan una estrategia de códigos de barras para abordar este problema, de modo que se asocia una secuencia artificial única de múltiples bases con cada variante. Además, las lecturas por debajo de un determinado umbral de calidad se rechazan y las variantes que están presentes a una velocidad por debajo de un determinado umbral de detección se eliminan. Varios grupos proporcionan tanto sus puntuaciones completas de fitness como un filtro para obtener resultados de alta calidad (Starita et al, 2015 Mighell et al, 2018). En estos casos, encontramos que los resultados filtrados de alta calidad tienen una correlación promedio más alta con los VEPs (Tablas EV12 y EV13), así como un poder predictivo superior para mutaciones de la enfermedad (Fig 3).

De los 46 predictores diferentes evaluados en este estudio, encontramos que un solo programa, DeepSequence, se destaca claramente de todos los demás, tanto en términos de rendimiento como en términos de metodología. DeepSequence mostró las correlaciones más fuertes con los datos de DMS en humanos y bacterias y fue el principal predictor computacional de mutaciones de enfermedades humanas. La mayoría de los métodos de aprendizaje automático hacen uso de varias características, que a menudo incluyen alguna medida de conservación de la secuencia en el sitio de interés, y luego aprenden los patrones de estas características que dan como resultado que una mutación se clasifique como dañina o benigna. DeepSequence utiliza modelos generativos profundos para integrar factores de toda la secuencia a la vez, en lugar de solo uno o unos pocos sitios. Este tipo de problema es en gran parte intratable para el aprendizaje automático tradicional, dada la cantidad de parámetros involucrados, sin embargo, DeepSequence lo supera aprendiendo los factores latentes que subyacen a la secuencia de proteínas. Este enfoque también produce ventajas en términos de sesgos inherentes a los métodos supervisados. Podemos esperar que un método de aprendizaje automático se enfrente a un ejemplo en el que fue entrenado para clasificarlo correctamente la mayor parte del tiempo, produciendo una evaluación no representativa de su precisión. DeepSequence hace uso de múltiples alineaciones de secuencia y nunca ve datos de proteínas etiquetados, lo que da como resultado puntuaciones que no están sesgadas por los ejemplos de entrenamiento. Sin embargo, esto no quiere decir que DeepSequence sea un método completamente imparcial. Las puntuaciones que se generan dependen completamente de la base de datos de la que se extraen múltiples alineaciones de secuencia. Si ciertas secuencias están subrepresentadas, entonces las predicciones para ellas serán de menor calidad, como los resultados que observamos para las proteínas virales extraídas de la base de datos UniRef100. El éxito que DeepSequence ha logrado en la predicción de efectos de mutación para proteínas humanas muestra que los modelos generativos profundos pueden ser el camino a seguir en este campo, eliminando la dependencia de conjuntos de datos etiquetados para hacer predicciones.

Uno de los PEV que evaluamos, Envision, está capacitado con un enfoque de aprendizaje supervisado que utiliza datos de DMS en lugar de variantes patogénicas y benignas etiquetadas. Este método utiliza varios de los mismos conjuntos de DMS que usamos en este análisis para el entrenamiento (BRCA1 (a), HSP82, UBI4 (ayb), PAB1 y bla (a)) por lo tanto, la clasificación de este método en la Tabla EV7 es casi con certeza sujeto a sesgos de formación. Sin embargo, es interesante que, a pesar de esta ventaja, Envision solo produce un rendimiento general moderado para conjuntos de datos de DMS humanos (aunque ocupa el primer lugar para TPK1). En cuanto a la predicción de mutaciones patógenas sin sentido, Envision se desempeña bien para BRCA1 en el tercer lugar entre los VEP y P53 en el cuarto lugar, pero su desempeño no es notable para las otras proteínas. En particular, aunque Envision no se entrenó en un conjunto de datos P53, se evaluó utilizando uno (aunque no el mismo conjunto de datos DMS utilizado en este estudio). Si bien el enfoque utilizado por Envision es innovador, evaluar su desempeño con DMS tiene las mismas advertencias que evaluar el desempeño de otros VEP supervisados ​​utilizando bases de datos de mutaciones patógenas.Por lo tanto, es notable que, a pesar de esta ventaja, Envision mostró solo un rendimiento modesto frente a los datos de DMS.

La mayoría de los predictores, supervisados ​​o no, se someten a una optimización de hiperparámetros, un proceso para ajustar variables internas como la tasa de aprendizaje, la arquitectura de red o la regularización para obtener un mejor rendimiento. Este proceso invariablemente implica probar repetidamente el desempeño del predictor contra un determinado conjunto de datos de "prueba" y tiene el potencial de introducir otra fuente de sesgo, incluso en métodos no supervisados. Nuestro uso de datos de DMS para evaluar estos métodos debería reducir en gran medida el impacto de este efecto para todos los métodos, excepto Envision y posiblemente DeepSequence, que posiblemente podrían haberse optimizado contra los datos de DMS utilizados en su evaluación original. Envision no tiene un rendimiento excepcional independientemente, y mostramos que DeepSequence todavía funciona bien cuando se evalúa con datos que definitivamente no ha visto (Tabla EV9).

Ciertos experimentos de DMS parecen mostrar un rendimiento sobresaliente en la identificación de mutaciones de enfermedades. Es interesante comparar el desempeño con respecto a los fenotipos experimentales utilizados, ya que la utilidad de un fenotipo experimental para identificar mutaciones patogénicas debe estar relacionada con el mecanismo por el cual las mutaciones causan enfermedad. Observamos que esos experimentos de DMS basados ​​en ensayos de crecimiento competitivo parecen funcionar particularmente bien, ubicándose por encima de todos los predictores computacionales para tres de las cuatro proteínas en las que están disponibles. Para BRCA1, donde hay conjuntos de datos de DMS basados ​​en tres fenotipos experimentales diferentes, el ensayo basado en la tasa de crecimiento (Findlay et al, 2018) funciona mucho mejor que los basados ​​en la actividad de ligasa de ubiquitina E3 o de dos híbridos de levadura (Starita et al, 2015). Es probable que la tasa de crecimiento sea un fenotipo experimental muy general que reflejará cualquier pérdida de función que se produzca a nivel molecular. Por el contrario, si algunas de las mutaciones patógenas de BRCA1 actuaron por algún mecanismo distinto de la perturbación de su interacción con compañeros de unión específicos (BARD1) o la interrupción de la actividad de E3, esto podría explicar el bajo rendimiento de los datos de DMS basados ​​en estos fenotipos alternativos. Sin embargo, es interesante que los datos HRAS DMS, que también son superiores a todos los predictores computacionales, se basan en una sonda de dos híbridos de su interacción con RasGAP (Bandaru et al, 2017), lo que sugiere que la interrupción de esta interacción refleja los mecanismos moleculares subyacentes a la enfermedad.

PTEN también es digno de mención, ya que también tiene diferentes conjuntos de datos de DMS disponibles basados ​​en diferentes fenotipos experimentales. La pantalla del conjunto de datos PTEN (b) evalúa la interrupción de un circuito genético artificial en la levadura, esencialmente sondeando la actividad de la fosfatasa. Este conjunto de datos es superior a todos los PEV excepto a cuatro, lo que sugiere que refleja razonablemente los mecanismos de las enfermedades moleculares. Por el contrario, el cribado fenotípico de PTEN (a) mide la abundancia de proteínas en la célula mediante la fluorescencia de EGFP unida a la proteína (Matreyek et al, 2018). Esta técnica, denominada VAMP-seq, identifica variantes termodinámicamente inestables; sin embargo, es posible que no capture los mecanismos de la enfermedad que actúan a través de la interrupción de la interacción y la pérdida o ganancia de función no relacionada con la desestabilización. De hecho, se observó en este estudio que las variantes dominantes-negativas no eran significativamente diferentes del tipo salvaje, de acuerdo con nuestra observación previa de que las mutaciones dominantes-negativas tienden a ser muy leves a nivel estructural de la proteína (McEntagart et al, 2016). Por tanto, se debe tener mucho cuidado al seleccionar un fenotipo experimental. En ausencia de un mejor ensayo fenotípico relacionado específicamente con un mecanismo de enfermedad conocido, los experimentos basados ​​en el crecimiento pueden ser la forma más general de sondear la pérdida de función de la proteína y, por tanto, la más útil para predecir la enfermedad.

Nuestros resultados en el análisis de la capacidad predictiva de los conjuntos de datos DMS recapitulan en gran medida los resultados presentados en los estudios originales. El conjunto de datos CALM1 (Weile et al, 2017) tiene un rendimiento de recuperación de precisión superior que PolyPhen-2 y PROVEAN, que también encontramos (para los puntajes brutos en lugar de los puntajes invertidos). El conjunto de datos TPK1 (Weile et al, 2017) permitió la separación completa de los alelos neutrales y de la enfermedad al igual que PolyPhen-2 y PROVEAN, pero solo después de un filtrado adicional para los alelos recesivos de la enfermedad, que no realizamos. El conjunto de datos BRCA1 (a) (Starita et al, 2015) es utilizado por los autores para entrenar un modelo para predecir el rescate de reparación de ADN directa por homología; sin embargo, las predicciones se realizan principalmente fuera de la región de cobertura de DMS que no podemos evaluar. BRCA1 (b) (Findlay et al, 2018) es informado por los autores para separar mutaciones patógenas y benignas en ClinVar casi a la perfección, un resultado que también vemos en nuestro análisis. El PTEN (a) (Matreyek et al, 2018) se establece que el conjunto de datos identifica más del 90% de las variantes patógenas de PTEN, aunque no se proporciona una tasa de falsos positivos ya que ninguna variante de PTEN se clasificó oficialmente como benigna. Nuevamente, nuestros resultados son similares, dada la alta precisión-recuperación AUC del conjunto de datos de PTEN (a), pero el AUC de ROC considerablemente más bajo indica una tasa significativa de falsos positivos. Finalmente, los autores de PTEN (b) (Mighell et al, 2018) emplearon un enfoque similar para nosotros, utilizando variantes de gnomAD para sustituir sustituciones benignas. Sus resultados indican que sus datos tienen un valor predictivo positivo superior al de PROVEAN, SIFT y PolyPhen-2 que también encontramos.

Los dos VEP más utilizados son probablemente PolyPhen-2 y SIFT, que todavía se utilizan mucho en la priorización de variantes. Ninguno mostró un rendimiento excepcional en este estudio, clasificándose en el puesto 14 y 25 frente a los datos de DMS humanos (aunque SIFT4G, una implementación del algoritmo SIFT basada en la conservación genómica (Vaser et al, 2016) en el puesto 9). Por lo tanto, recomendamos otros VEP basados ​​en nuestros análisis. Desafortunadamente, DeepSequence es muy intensivo en computación y podría ser bastante difícil de ejecutar para un usuario final típico. Tampoco tiene umbrales de enfermedad definidos, estos deberían evaluarse proteína por proteína, probablemente mediante el análisis de variantes supuestamente benignas (por ejemplo, gnomAD). Por lo tanto, destacamos SNAP2, DEOGEN2, SNPs & GO y SuSPect, que también tendieron a funcionar bien con los conjuntos de datos DMS y tienen interfaces web fáciles de usar. Además, recomendamos REVEL: aunque carece de una interfaz web, se ha calculado previamente para todos los cromosomas humanos y está disponible en línea para descargar. Sugerimos que estos métodos serían buenas opciones para la priorización de variantes de rutina. Sin embargo, es importante destacar que todos mostraron una gran variación en su rendimiento entre diferentes proteínas, lo que sugiere que aún no se debe confiar demasiado en los resultados de un solo predictor.

Si bien se acepta ampliamente que la conservación evolutiva es la característica más predictiva utilizada en la predicción de efectos variantes, algunos VEP también integran características derivadas de estructuras de proteínas determinadas experimentalmente (PolyPhen-2, S3D-PROF, SNP & GOs3D, DEOGEN2 y MPC). Es interesante que la inclusión de modelos estructurales de proteínas no pareció ser particularmente útil para los VEP. En principio, dado que los mecanismos de la enfermedad a menudo se pueden explicar por los efectos estructurales de las proteínas (Steward et al, 2003) uno podría esperar que la estructura de la proteína fuera útil. Puede ser que el valor de la información evolutiva simplemente eclipsa cualquier contribución de la inclusión de la estructura, es decir, si una mutación es dañina a nivel estructural, es probable que esto se refleje en la conservación evolutiva de ese residuo. Además, muchas mutaciones patógenas no son muy dañinas a nivel estructural de proteínas, por ejemplo, aquellas asociadas con un efecto dominante negativo en complejos proteicos (Bergendahl et al, 2019) o aquellos que afectan la especificidad de unión al factor de transcripción (Williamson et al, 2019). Es posible que las estrategias futuras que tengan en cuenta los diversos mecanismos moleculares que subyacen a la enfermedad genética humana y las propiedades estructurales únicas de las proteínas individuales puedan hacer un mejor uso de la enorme cantidad de datos estructurales de proteínas disponibles en la actualidad.

El valor de los datos de DMS para identificar directamente mutaciones patógenas es especialmente interesante, según los resultados que observamos aquí. Dada la elección adecuada del fenotipo experimental, es probable que los experimentos de DMS sean mejores que (o al menos competitivos con) los mejores VEP computacionales. La aplicabilidad de los datos de DMS para la priorización de variantes directas está actualmente limitada por la pequeña fracción de residuos de proteínas humanas para los que se han realizado experimentos con DMS. En los próximos años, a medida que se estudien más proteínas y se mejoren las estrategias experimentales, esperamos que la utilización de dichos datos para la identificación de variantes dañinas se convierta en una rutina.


¿Qué quiso decir Erwin? La física de la información desde la genómica de los materiales de los cristales aperiódicos y el agua hasta los catalizadores de información molecular y la vida.

Erwin Schrödinger atribuyó de manera famosa y profética el vehículo que transmite la información hereditaria subyacente a la vida a un "cristal aperiódico". Comparamos y contrastamos esto, que solo más tarde se descubrió que estaba almacenado en el ADN de la biomolécula lineal, con los materiales cuasi unidimensionales en capas que contienen información investigados por el campo emergente de cristalografía caótica. A pesar de las diferencias en la funcionalidad, las mismas medidas de información capturan la estructura y la novedad en ambos, lo que sugiere una íntima coherencia entre el carácter informativo de la materia biótica y abiótica, una física de la información ampliamente aplicable. Revisamos los sólidos en capas y consideramos tres ejemplos de cómo se están aplicando las técnicas teóricas de la información y el cálculo para comprender su estructura. En particular, (i) revisamos los esfuerzos recientes para aplicar nuevos tipos de medidas de información para cuantificar cristales desordenados (ii) discutimos la estructura del hielo I en términos de teoría de la información y (iii) contamos investigaciones recientes sobre la estructura de tris ( biciclo [2.1.1] hexeno) benceno, que muestra cómo un análisis de la teoría de la información proporciona información adicional sobre su estructura. Luego ilustramos una nueva Segunda Ley de la Termodinámica que describe el procesamiento de información en materiales activos de baja dimensión, revisando el Demonio de Maxwell y una nueva clase de dispositivos moleculares que actúan como catalizadores de información. Por último, concluimos especulando sobre cómo estas ideas de la ciencia de los materiales informativos pueden afectar a la biología.

1. Introducción

Para tener en cuenta las "propiedades especiales" de la vida, por ejemplo. movimiento, metabolismo, reproducción, desarrollo: la sabiduría predominante desde la época de Aristóteles hasta el siglo XIX fue que la materia orgánica difería de alguna manera fundamental de la materia inorgánica. Si bien esta noción, llamada vitalismo, puede parecer pintoresco para los científicos del siglo XXI, prevaleció hasta que el químico Friedrich Wöhler demostró que, inesperadamente, un compuesto orgánico conocido, la urea, podía sintetizarse artificialmente a partir de ácido ciánico y amoníaco [1]. Este proceso de fabricación, aunque diferente al utilizado en los sistemas biológicos, sirvió como una pista importante de que la división entre materia viva y no viva no era absoluta. Los procesos abióticos podrían producir sustancias que hasta ahora solo se encontraban en materiales de origen biológico. Además, vemos que, y no por última vez, los resultados obtenidos de una disciplina, la química, han tenido importantes consecuencias en otra, la biología. Esta confluencia de diversas vías de investigación que se fusionan en una imagen conceptual cada vez más amplia de la naturaleza es, por supuesto, un tema que se repite con frecuencia en las ciencias. Otros ejemplos famosos incluyen el descubrimiento de Newton de que el movimiento de los cuerpos celestes, como la luna y los planetas, y el de los terrestres bajo la influencia de la gravedad, como la proverbial manzana, son manifestaciones de una ley universal de atracción gravitacional James Clerk Maxwell's la unificación de la electricidad y el magnetismo en sus famosas ecuaciones y la demostración de James Prescott Joule de que el calórico no era más que energía con otro nombre, ahora formalizado en la Primera Ley de la Termodinámica. De hecho, E. O. Wilson adopta la posición extrema de que todos el conocimiento humano, desde las ciencias más concretas hasta las artes liberales menos precisas, está en última instancia interrelacionado [2].

No necesitamos ir tan lejos como Wilson. Es suficiente para nuestros propósitos darnos cuenta de que, si bien las ciencias "abióticas" como la física, la química, la astronomía y la geología comparten fuertes interconexiones obvias, la biología se ha mantenido relativamente distante. Esto no quiere decir que la biología no se haya beneficiado mucho del conocimiento que le han transferido otras ciencias físicas. Además del ejemplo de urea anterior, tenga en cuenta que el metabolismo es, en esencia, una cuestión de utilización y transformación de la energía, una noción concreta y operativa en física. Además, la biología se ha beneficiado enormemente de las técnicas y descubrimientos realizados en otras ciencias. De hecho, en 1937 Max Delbrück (Premio Nobel de Fisiología o Medicina 1969) adaptó su formación en astrofísica y física teórica para investigar la susceptibilidad genética a las mutaciones, estimulando el interés de los físicos por la biología y estableciendo la biología molecular. Más familiar, sin embargo, fue la infame imagen de difracción de rayos X conocida como 'fotografía 51' del laboratorio de Rosalind Franklin la que proporcionó una idea clave que el genetista líder James Watson y el físico Francis Crick (Premio Nobel de Fisiología o Medicina 1962) propusieron la estructura de doble hélice del ADN [3]. A pesar de lo anterior, la biología es claramente la menos integrada en la familia de las ciencias. Podemos especular que la gran complejidad de la vida y los fenómenos novedosos que muestra son, al menos en parte, responsables de esto. Incluso uno de los organismos más básicos, Mycoplasma genitalium, tiene un genoma de "sólo" 580 070 pares de bases [4]. La biología es complicada.

Y es quizás debido a esta complicación que las "ciencias" matemáticas 1 han tenido su menor impacto en la biología teórica. En general, las técnicas matemáticas avanzadas que saturan cualquier texto de física teórica no tienen contrapartida en los textos de biología. Hay un área, sin embargo, donde posiblemente la biología ha superado a sus ciencias hermanas: la incorporación de Teoría de la información [5,6] en la descripción de sistemas físicos. Y sugeriremos que la biología ha creado un camino conceptual que las ciencias físicas abióticas harían bien en emular. Sin embargo, antes de avanzar demasiado, comencemos a principios del siglo XX y visitemos uno de los muchos avances revolucionarios que marcaron el comienzo de la era de la física "moderna" y que sigue siendo hoy una prueba clave de la estructura biológica molecular.

2. Estructura, cristales aperiódicos e información

Los inmensos avances conceptuales en física realizados en el primer tercio del siglo XX son innumerables, pero aquí nos centramos en las contribuciones a la estructura de la materia. Si bien es Max von Laue (Premio Nobel de Física 1914) a quien se le atribuye el descubrimiento de la difracción de rayos X por cristales, es el equipo de padre e hijo, Sir William Henry Bragg y William Lawrence Bragg (Premio Nobel de Física 1915), quienes reciben gran parte del crédito por explotarlo como herramienta para determinar la estructura cristalina. Para una repetición periódica de algún patrón, como se puede encontrar en los cristales simples como el NaCl, el patrón de difracción está dominado por reflejos muy fuertes en ángulos particulares, llamados Reflexiones de Bragg. Se sabe que se produce una dispersión difusa mucho más débil entre las reflexiones de Bragg y Walter Friedrich la había observado ya en 1912. Si bien esta dispersión difusa puede explicarse por el movimiento térmico de los átomos constituyentes, realmente podría ser un presagio de desviaciones del orden periódico perfecto. Pero el supuesto de periodicidad simplifica enormemente el análisis de los patrones de difracción, y los primeros años de la cristalografía estuvieron marcados con un enorme éxito en la resolución de las estructuras periódicas que parecían tan comunes. De hecho, se puede argumentar que este programa de investigación, que tuvo tanto éxito en la descripción de un tipo particular de estructura, la estructura periódica, "la repetición infinita en el espacio de unidades estructurales idénticas", tuvo el costo de desarrollar herramientas teóricas alternativas.

En el frente de la biología, consciente de los resultados de Delbrück sobre las mutaciones, el destacado físico Erwin Schrödinger (Premio Nobel de Física 1933) estaba ocupado considerando la vida desde el punto de vista de la física. En su ahora clásico libro de 1944, ¿Qué es la vida? [7], Schrödinger introduce aquí dos conceptos que nos interesan. El primero es negentropía, o la entropía que un organismo exporta a su entorno para mantener baja su entropía interna. Si uno ve la entropía como una medida del desorden, entonces la Segunda Ley de la Termodinámica deja en claro que, para que un organismo mantenga alguna estructura, debe deshacerse del desorden que acompaña a los procesos de mantenimiento de la vida. El segundo, e igualmente importante, es la idea de que el mecanismo hereditario que debe existir para que los rasgos de los individuos puedan transmitirse a la descendencia podría alojarse en lo que él llamó un cristal aperiódico. Aunque H. L. Müller hizo una propuesta similar más de 20 años antes, fue la defensa de Schrödinger la que capturó la imaginación de Crick y Watson para investigar seriamente esta posibilidad. El cristal aperiódico de Schrödinger era un sustrato material, tal vez una molécula, que carecía de una periodicidad estricta. La razón de esto es que la repetición exacta de un motivo, en otras palabras, un cristal, es información pobre, demasiado pobre para transmitir la herencia. Sin algo de imprevisibilidad o novedad, no se aprende ni se comunica nada nuevo. Es notable que Schrödinger hiciera esta predicción antes de que se articulara una comprensión cuantitativa de la información.

En 1947, tres físicos de Bell Telephone Laboratories, John Bardeen, Walter Brattain y William Shockley (Premio Nobel de Física 1956), inventaron un pequeño dispositivo que revolucionó el diseño de circuitos eléctricos: el transistor, que marcó el comienzo de la era de la electrónica.Su importancia fue reconocida de inmediato y el año siguiente se emitió debidamente un comunicado de prensa. Sin embargo, podría decirse [8], esto fue solo el segundo anuncio más importante de Bell Laboratories en 1948. El primero vino de un matemático, ingeniero y criptógrafo de 32 años, Claude E. Shannon, 2 en forma de un artículo en el Revista técnica de Bell System con el sencillo título "Una teoría matemática de la comunicación" [5].

La premisa principal de Shannon es que la información es un grado de sorpresa. Dado un Fuente de informaciónX—Un conjunto de mensajes <X> que ocurren con probabilidades: un mensaje individual autoinformación es . Por lo tanto, los eventos predecibles () no son informativos — H (X) = 0, ya que no son sorprendentes. Los eventos totalmente impredecibles, como el lanzamiento de una moneda justa, son muy informativos:. Cuando se utilizan logaritmos en base 2, la unidad de información es una poco o dígito binario. El primer resultado importante de Shannon fue mostrar que la autoinformación promedio, lo que él llamó la entropía paralelamente a Boltzmann y Gibbs en vocabulario y notación, mide qué tan comprimibles son los mensajes de una fuente. Sin embargo, cuantificar la información fue simplemente preliminar a la principal motivación de Shannon. Trabajando para Bell Telephone Company, una empresa de comunicaciones, su objetivo principal era establecer las limitaciones operativas para comunicar información a través de equipos de transmisión ruidosos y propensos a errores, que formalizó como un canal de comunicación. El resultado fue su resultado más famoso y de mayor alcance: siempre que la entropía de la fuente sea menor que la capacidad de transmisión del canal, entonces, incluso si se introducen errores, hay una manera de codificar los mensajes de origen de tal manera que el receptor que observa la la salida de canal ruidoso puede exactamente reconstruir los mensajes originales. Este único resultado es clave para casi todas las tecnologías de la comunicación que impulsan las economías modernas de hoy.

El propio Shannon tuvo mucho cuidado de distanciar su teoría cuantitativa sobre la cantidad de información en una fuente de las discusiones sobre el significado o contenido semántico de esa información [9]. Su objetivo era el resultado operacional recién relatado, que no requería saber qué información se estaba comunicando. Sin embargo, como explicaremos, su medida de información y su semántica resultan proporcionar una herramienta central y cuantitativa para comprender la organización de materiales que son más que cristales periódicos, materiales que no son repeticiones regulares de celdas unitarias idénticas. Llamamos a esta aplicación de la teoría de la información de Shannon a la estructura material "cristalografía caótica", por razones que se harán evidentes.

¿Qué tipo de materiales no son cristales? Una clase obvia son aquellas en las que los átomos de tipos aleatorios se colocan aleatoriamente en el espacio. La dicotomía resultante —los materiales son periódicos o aleatorios— es una visión demasiado simple. Hay un espectro. Un primer ejemplo, controvertido en su momento, vino con el descubrimiento de cuasi-cristales [10]: metales con orden de orientación de largo alcance, una fase icosaédrica, pero sin simetría de traslación. Esto quedó tan lejos de la dicotomía periódica-aleatoria que fue algunos años después de la detección experimental que los cuasicristales fueron ampliamente aceptados (Premio Nobel de Química 2011). 3

Dado este amplio espectro, se necesitan herramientas que describan fácilmente los procesos que van desde la periodicidad hasta la aleatoriedad y que capturen las estructuras intermedias semi-ordenadas y semi-desordenadas. La teoría de la información es una de esas herramientas. Describiremos cómo se aplica a la estructura material, formando el esfuerzo de la cristalografía caótica. Una idea convincente es que, aunque comenzamos con un enfoque solo en la sorpresa y la predicción, nos conducen a nociones novedosas de estructura, simetrías parciales y almacenamiento de información.

3. De las medidas de información a la estructura

Aunque es fundamental para la práctica de la ciencia, solo recientemente se ha examinado en detalle una comprensión profunda de la información obtenida de las mediciones individuales [15, 16]. Las cuestiones clave en cuestión se enuncian fácilmente: dada la historia de tales mediciones, ¿cuánto se aprende de una observación en particular? ¿Cuánto del pasado es útil para predecir los resultados de las mediciones futuras? ¿Hasta qué punto una medida es simplemente aleatoriedad y no estructura? ¿Cuánta información obtenida en el presente se transmite al futuro? Quizás no sea sorprendente que considerar estas preguntas a la luz de la teoría de la información [6] reveló una serie de nuevas medidas computacionales e informativas que brindan importantes conocimientos sobre cómo se manifiestan las correlaciones en diferentes tipos de estructura.

Como se señaló anteriormente, el caballo de batalla de la teoría de la información es el Entropía de Shannon [5] de una variable aleatoria X: , donde el X son las posibles realizaciones de la variable discreta X y es la probabilidad de observar X. Si bien la entropía de Shannon tiene muchas interpretaciones, lo más útil aquí es que es la cantidad promedio de información que revela una observación al medir esa variable. Las mediciones reales suelen ser secuenciales en el tiempo y se podría esperar que existan correlaciones entre las mediciones. La extensión de la entropía de Shannon a una serie de medidas sigue naturalmente al reemplazar la única variable aleatoria X con la secuencia X1,X2,…XL de variables aleatorias, a menudo escritas X L —Y la realización de una única medición X por la serie de medidas X1,X2,…XL, este último convenientemente denotado X L . Por lo tanto, al considerar pasados ​​sucesivamente más largos:X−1, luego X−2X−1, etc., se puede cuantificar cuán menos incierta es una medición de X0 es. O, dicho de otra manera, podemos cuantificar cuánto conocimiento del pasado reduce la información aprendida en el presente: H [X0] ≥H [X0 | X−1] ≥H [X0 | X−1,X−2] ≥ ⋯, donde introdujimos la entropía condicional de Shannon H [X | ⋅]. También es útil considerar la tasa de entropía. hμ, la información aprendida en promedio por observación, habiendo visto un pasado infinito: hμ= H [X0 | …X−3X−2X−1].

Dado que la teoría de la información se desarrolló originalmente en el contexto de la comunicación, imaginada como una progresión temporal de símbolos, una noción natural de pasado, presente y futuro impregnó la teoría. Operar bajo este prejuicio introdujo una flecha preferida del tiempo. Como consecuencia, la utilidad del acondicionamiento Actual mediciones, o símbolos observados, en futuro Las observaciones no eran obvias. Desde un punto de vista matemático, por supuesto, no existe ningún impedimento inherente para hacer esto. Sin embargo, la sustitución de una serie temporal por una espacial elimina el prejuicio direccional, abriendo un camino para identificar otras medidas de información que tratan el pasado y el futuro en pie de igualdad [15,17-20].

Como ejemplo, considere una sola medida de la variable aleatoria X. La cantidad máxima teórica de información que uno posiblemente puede aprender es simplemente H [X] (Figura 1a). Sin embargo, si hay correlaciones o regularidades en los datos, algo de esto podría haberse anticipado a partir de observaciones anteriores. Llamemos a esta parte la tasa de redundanciaρμ= Yo [X0:…X−3X−2X−1] —El compartido o información mutua entre el presente X0 y el pasado ...X−3X−2X−1. La otra parte de la información no se pudo anticipar, realmente es aleatoria y es simplemente hμ. Por tanto, la cantidad de información H [X0] disponible en una sola medida X0 se descompone naturalmente en estas dos partes, como se muestra en la figura 1B.

Figura 1. Diseccionando la información H [X] aprendido de la medición de una sola variable aleatoria X. (Adaptado de James et al. [15], con permiso.) (Versión en línea en color).

Sin embargo, un acondicionamiento adicional produce una descomposición adicional de cada uno de estos. Primero, la porción aleatoria hμ se divide en dos partes: el tasa de información efímerarμ y el tasa de información consolidadaBμ. La tasa de información efímera rμ= H [X0 | …X−3X−2X−1,X1X2X3…] Es la información que existe solo en el presente. No es predecible desde el pasado ni se comunica al futuro. Existente sólo en el presente, es efímero. La tasa de información consolidada Bμ= Yo [X0:X1X2X3… | …X−3X−2X−1] es la información compartida entre el presente y el futuro, pero no está en el pasado. Como tal, mide la velocidad a la que la información generada espontáneamente (hμ) es almacenado activamente por un sistema. En segundo lugar, la tasa de redundancia también se divide en dos partes, siendo la primera Bμ y una segunda parte llamada tasa de información enigmáticaqμ. Este último es información mutua de tres vías I […X−3X−2X−1:X0:X1X2X3…] Compartido entre el pasado, el presente y el futuro.

La "descomposición" neta de la información H [X0] en una sola medición se ilustra en la figura 1C. Esta es solo una muestra de las posibles formas en que la información puede dividirse semánticamente entre el pasado, el presente y el futuro. Figura 1D, por ejemplo, es una descomposición en disipados rμ e información útil wμ. Además, otras medidas adicionales, discutidas por James et al. [15,16,21], se han definido y explorado. Es importante destacar que ahora todos pueden calcularse analíticamente a partir de la ϵ-máquina [22,23], una vez que esté en la mano.

4. Cristalografía caótica

Armado con este nuevo arsenal de medidas de información estructural, se aclara una imagen detallada y cuantitativa de cómo se comparte la información entre el pasado, el presente y el futuro. Con esto en mente, computación intrínseca se define como la forma en que los sistemas almacenan, organizan y transforman información histórica y espacial [24, 25]. Los diferentes procesos pueden tener diferentes tipos de cálculo intrínseco cuantitativa y cualitativamente, y la comprensión de estas diferencias da una idea de cómo está estructurado un sistema [26].

Cristalografía caótica (ChC) [23,27-33] 4 entonces es la aplicación de estos métodos teóricos de la información y el cálculo para descubrir y caracterizar la estructura en los materiales. Reinterpreta el eje del tiempo, utilizado anteriormente por razones pedagógicas, para una coordenada espacial unidimensional a lo largo de alguna dirección en un material. La elección del nombre tiene la intención de ser evocadora: conservamos el término 'cristalografía' para enfatizar la continuidad con los objetivos pasados ​​de comprender la estructura material e introducimos el término 'caótico' para asociar este nuevo enfoque con las nociones de desorden, complejidad y procesamiento de la información. . Usando la cristalografía caótica, podemos describir las formas en que esta descomposición de información captura cuantitativamente la estructura cristalina, distinguiendo la estructura que podría esperarse, es decir, la estructura periódica repetitiva, de la estructura no esperada, es decir, la estructura con fallas. Los materiales que se describen útil y convenientemente en este marco se denominan cristales caóticos.

Obviamente, el estudio del desorden en los sistemas de materia condensada está lejos de ser nuevo, pero con demasiada frecuencia se ha visto eclipsado por la cristalografía de materiales ordenados periódicamente, llamados cristalografía clásica [35–37]. Mackay ha defendido durante mucho tiempo y de manera persistente que el alcance de la cristalografía se amplíe para incluir la organización en muchas escalas de longitud, así como para incluir formas de organización que no son necesariamente periódicas. En una serie de artículos que abarcan más de 40 años [12,36-42], Mackay promovió la idea de que la cristalografía es, o al menos debería ser, una ciencia general de la estructura. 5 Estamos de acuerdo. Este programa de investigación, denominado cristalografía generalizada, reclama una enorme franja de espacio conceptual, que incluye organización jerárquica, simetría pentagonal, autómatas celulares, cristales aperiódicos, periodicidades inconmensurables, vidrios, cristales líquidos liotrópicos, mesofases y cristales finitos, por nombrar solo algunos [36]. También se incluyen conceptos de la teoría de la información y la computación. Entonces, al seleccionar el nombre "cristalografía caótica", diferenciamos nuestros esfuerzos de este programa más difuso para centrarnos más bien en cómo la información y la computación aclaran la estructura y la organización del material.

Debemos señalar que la cristalografía caótica no es el único ni siquiera el primer intento de incorporar ideas teóricas de la información y la computación en la cristalografía. Algunos esfuerzos de la década de 1980 se centraron en emplear la teoría de la información como herramienta para resolver el "problema de fase" [43-45]. Más recientemente, Lalik [46] ha utilizado la teoría de la información como métrica para medir el grado de distorsión en los poliedros de coordinación en los cristales calculando la "diferencia en el contenido de información de Shannon entre distribuciones uniformes y no uniformes de los órdenes de enlace dentro de los poliedros". Estevez-Rams y González-Férez [47] han aplicado la complejidad algorítmica o de Kolmogorov-Chaitin a la tarea de cuantificar la estructura cristalina de especímenes ordenados y desordenados, así como de cuasicristales. Contribuyeron a la discusión en curso sobre la definición de un cristal, sugiriendo que las nociones teóricas de la información y la computación brindan una idea de la estructura de la materia. Aunque ciertamente tiene un interés conceptual, desafortunadamente la complejidad de Kolmogorov-Chaitin es en general incalculable, lo que hace que este enfoque tenga un uso práctico limitado. Krivovichev [48,49] ha calculado las complejidades topológicas de las estructuras cristalinas como medidas basadas en información de Shannon sobre el gráfico de cociente relacionado. Además, ha examinado las 2000 estructuras más complejas en la base de datos de estructuras de cristales inorgánicos para determinar qué estructura inorgánica es la más compleja [50]. 6 Este programa de investigación parece, al menos por el momento, estar mayormente, si no exclusivamente, confinado a estructuras puramente cristalinas.

Hasta donde sabemos, el término "cristal caótico" se ha utilizado en dos contextos anteriores. En 1991, Leuschner [51] introdujo varios modelos de estructura para cristales unidimensionales, capaces de producir un comportamiento completamente periódico, cuasi-periódico y caótico. Esto último se logró utilizando el Mapa Logístico [24] como generador de incertidumbre en la secuencia de apilamiento; de hecho, usándolo como generador de números aleatorios. Más tarde, Le Berre et al. [52], en el contexto de la formación de patrones de estado estacionario de sistemas bidimensionales, definió un cristal caótico como "cualquier estructura sin orden de largo alcance, pero espacialmente estadísticamente homogénea". Nuestro uso del término es menos restrictivo, al dar cuenta del orden de largo alcance, y más general, al permitir una amplia gama de tipos de trastornos. Debería ser evidente que el cristal caótico que describimos aquí es precisamente el tipo de cristal que Schrödinger imaginó como portador de la herencia. Aunque lo llamó cristal aperiódico, ese término ha sido usurpado para describir un tipo muy especial de desviación de la periodicidad, el tipo que se encuentra para preservar picos agudos en el patrón de difracción [53]. Por lo tanto, usamos el término cristal caótico para indicar una noción más amplia de no cristalinidad, una que abarca estructuras con una densidad de entropía distinta de cero, como se necesita para cualquier estructura, como el ADN, para albergar información. 7

(a) Material informático de averías y defectos.

Como la cristalografía clásica se concentra en gran medida en estructuras periódicas, encuentra dificultades para clasificar las estructuras que no se ajustan a este paradigma. La mayoría de los esfuerzos se han centrado en describir cómo un cristal, que presumiblemente podría haber estado perfectamente ordenado, no alcanza este ideal. Por ejemplo, en estructuras compactas, Frank [55] distinguió dos tipos de fallas de capa: intrínseco y extrínseco. En el caso de fallas intrínsecas, se puede pensar que cada capa del material pertenece a una de dos estructuras cristalinas: la que está a la izquierda de la falla o la que está a la derecha. Es como si dos cristales perfectos e intactos estuvieran pegados y la interfaz entre ellos fuera la culpa. Por el contrario, puede ser que no se pueda pensar en una capa particular como una extensión natural de la estructura cristalina a ambos lados de la falla. Son fallas extrínsecas. Otro esquema de clasificación tiene su origen en el mecanismo que produjo la falla. En estructuras compactas, las fallas que se encuentran comúnmente incluyen fallas de crecimiento-es decir. aquellos que ocurren durante el proceso de crecimiento de cristales fallas de deformación—Que a menudo se asocian con algún estrés mecánico posterior a la formación en el cristal y fallas de desplazamiento de capa—Que puede ocurrir por difusión entre capas adyacentes. Como cada uno se define en relación con su estructura cristalina madre, cada tipo de estructura cristalina típicamente tiene su propia morfología distintiva para cada tipo de falla.

El resultado es una colección confusa de secuencias de apilamiento que se desvían de lo normal. Esta recopilación puede no ser exhaustiva, dependiendo del tamaño de un vecindario que se considere, ni tampoco se pueden asignar secuencias particulares de manera inequívoca a un tipo particular de estructura de falla. De hecho, en el caso de que existan múltiples tipos de fallas, o múltiples mecanismos para producir fallas, un intento de análisis de la estructura de la falla puede ser indeterminado [27]. Las fallas también se pueden clasificar en términos de cómo las fallas se relacionan espacialmente entre sí. La ausencia de correlación entre fallas implica fallas al azar. Alternativamente, la presencia de una falla puede influir en la probabilidad de encontrar otra falla cercana. Este último fenómeno se llama no aleatorio con fallas y no es infrecuente en especímenes muy defectuosos. Por último, en algunos materiales, las fallas parecen interponerse regularmente en la muestra, y esto se conoce como fallas periódicas. Se cree que las luxaciones de tornillos son una causa común de estos últimos defectos [56].

Estas categorizaciones fenomenológicas, aunque a menudo son útiles y sensatas, especialmente para cristales con fallas débiles, no están exentas de dificultades. Primero, está claro que cada uno se basa en el supuesto de que el estado nativo o ideal del espécimen debe ser una estructura periódica. Este sesgo, quizás no intencionalmente, relega el apilamiento no periódico a un nivel menor, como es evidente en el uso del término "falla". Puede ser más bien que el desorden sea el estado natural del espécimen [57], en cuyo caso emplear un marco que incorpore esta característica de la materia por adelantado resultará más satisfactorio.De hecho, ni siquiera está claro que el orden periódico deba ser el estado fundamental para muchos tipos de materiales, incluso para aquellos con interacciones de rango finito y en ausencia de un ajuste fino de los parámetros de acoplamiento energético entre capas [58], como es encontrado en modelos axiales de Ising vecino próximo más cercano (ANNNI) [59]. En segundo lugar, un análisis de la estructura de apilamiento basado en estas categorías puede no ser inequívoco, especialmente en el caso de fallas importantes. En tercer lugar, esta visión completa solo es sostenible en el límite de que exista un cristal padre, es decir, solo se aplica en el límite de fallas débiles.

Se puede aportar coherencia a esta complicada imagen de la estructura material mediante el uso de la teoría de la información [33]. Se puede postular una visión complementaria preguntando cómo se comparte y distribuye la información en un cristal, y un candidato natural para este tipo de análisis es emplear las medidas de información anteriores. Aunque la exposición anterior utilizó un vocabulario temporal de un pasado, presente y futuro, no hay ningún cambio matemático en la teoría si, en cambio, adoptamos la visión de que las secuencias observadas son configuraciones espaciales. Es decir, hay mediciones que están a la izquierda de la medición actual, la medición actual en sí y esas mediciones a la derecha de la medición actual. Para materiales cuasi unidimensionales, asumimos cada medida como la orientación de una capa. Esta vista de una secuencia de orientaciones de capa se traduce en una diagrama de información o I-diagrama, como se muestra en la figura 2. Allí, vemos cómo se comparte la información entre las diferentes mitades del espécimen y la capa actual. Las medidas de información dadas en términos de información mutua pueden interpretarse como correlaciones de capa dentro de la muestra. Es importante destacar que, aunque normalmente uno los promedia sobre el cristal, es posible en cambio no realizar ese promedio, sino examinarlos capa por capa. Como se muestra en James et al. [16], las medidas teóricas de la información pueden ser bastante sensibles a los cambios en los parámetros del sistema y esperamos que proporcionen un barómetro que cuantifique aspectos importantes de la estructura del material.

Figura 2. Diagrama de información que muestra la anatomía de la información de H [X0] en el contexto del apilamiento espacial completo de capas en un cristal caótico. Dejar X0 ser la capa de interés, X:0=…X−2X−1 ser una sección arbitrariamente larga pero finita del espécimen a la izquierda de X0, y X1:=X1X2... igualmente ser una sección arbitrariamente larga pero finita del espécimen a la derecha de X0. La información de la izquierda X:0 particiones H [X0] en dos piezas: hμ y ρμ. La información a la derecha X1: luego los divide en rμ, dos Bμarena qμ. (Recuerde la figura 1 que descompuso solo H [X0].) Esto deja un componente σμ, los información esquiva, que es compartido por la izquierda y la derecha, pero no está en la capa actual. Cuando es positivo, indica que no toda la correlación entre las medias configuraciones izquierda y derecha está contenida localmente y, por lo tanto, existen mecanismos internos ocultos que llevan la correlación [21]. (Adaptado de James et al. [15], con permiso.) (Versión en línea en color).

Como ejemplo, se sabe que los cálculos de estructuras electrónicas que surgen de potenciales unidimensionales dependen de correlaciones por pares [60,61], con el espectro de probabilidad de transmisión de un electrón a través de dichos potenciales a menudo gobernado por la longitud de correlación. Las cantidades teóricas de la información, con su visión más matizada de las longitudes de correlación en términos de información condicional y mutua, brindan una imagen más detallada del papel del desorden en la estructura electrónica. Una de las medidas más simples y comunes de correlación global es la información mutua entre las dos mitades de una muestra: la exceso de entropíami= Yo […X−3X−2X−1:X0X1X2…]. La inspección del diagrama de información revela su descomposición en átomos de información: mi=Bμ+qμ+σμ.

Además, no sólo es importante la estructura global, sino que también los defectos locales pueden introducir desviaciones locales de la estructura media, como se ve en la localización de Anderson [61]. Ésta es un área de interés de investigación actual [62]. De manera similar, las regiones de carga excedente o de agotamiento pueden afectar otras propiedades, como la transmisión de luz. El área de la fotónica desordenada intenta comprender y explotar tales estructuras para nuevas tecnologías [63].

Por lo tanto, se pueden formular una serie de preguntas sobre la distribución de información en el cristal, tal como se revela en su estructura. Por ejemplo, ¿cuánta información se obtiene de la medición actual? ¿Se comparte con sus vecinos o se localiza? Considerar preguntas como estas conduce a una nueva categorización de la estructura desordenada en los cristales.

(b) Cristales caóticos: estructura en desorden

El resultado neto es una teoría consistente, cuantitativa y predictiva de la estructura en materiales desordenados que se extiende más allá de fallas y desórdenes débiles y que se aplica al espectro completo de la estructura material, desde cristales periódicos ideales hasta materiales amorfos y mezclas complejas de largo alcance en el medio. Como señala Ball [64], en resumen, tenemos una nueva visión de lo que son y pueden ser los cristales. Varn & amp Crutchfield [33] revisan en detalle cómo funciona esto.

Ilustremos cómo la cristalografía caótica se aplica a los materiales del mundo real: las estructuras compactas del hielo y una molécula compleja que se utiliza para probar la química de la aromaticidad del benceno. Luego, combinando estos resultados con análisis cristalográficos caóticos previos de sulfuro de zinc (ZnS), demostramos cómo está emergiendo una visión unificada de organización en materiales.

(i) Desorden de la capa en el hielo I

Aunque a menudo se la considera simplemente como el medio de vida —aunque esencial 8—, se ha apreciado cada vez más el papel activo que desempeña el agua en los procesos biológicos. Como ejemplo, Ball [65,66] cita la interacción genérica de dos proteínas. Si ambos se disuelven en el medio celular, las moléculas de agua que intervienen deben eliminarse para que se produzca una interacción. El agua es, por supuesto, polar, y el desplazamiento de las últimas capas de agua puede no ser trivial, dependiendo, por ejemplo, de hasta qué punto los sitios de activación de proteínas son hidrófilos o hidrófobos. Además, se debería esperar que las propiedades de las películas delgadas de agua, como la viscosidad, se desvíen significativamente de sus propiedades a granel. Incluso la simulación de polipéptidos complejos es incompleta si no se considera la influencia del agua [65]. Como otro ejemplo, hay evidencia de que la vida diseña y precipita la formación de hielo. Sin la influencia de las impurezas para actuar como centros de nucleación de hielo no homogénea, se puede esperar que el agua en las nubes se congele a 235 K o incluso tan alto como 243 K a través de la nucleación de hielo homogénea [67]. Las impurezas como el hollín, las partículas metálicas y los agentes biológicos pueden elevar esta temperatura. De hecho, Murray et al. [68] informan que por encima de 258 K los únicos materiales conocidos por promover la nucleación del hielo son los biológicos. Un agente biológico particularmente eficaz es la bacteria. Pseudomonas syringae que, debido a los complejos de proteínas en su superficie celular, puede iniciar la congelación a temperaturas tan altas como 271 K [69]. Aunque su papel particular puede ser muy variado dependiendo de las circunstancias, como señala Ball [65], considerar "ella [el agua] esencialmente como el telón de fondo sobre el que se disponen los componentes moleculares de la vida" es simplista e ingenuo.

Dada la simplicidad estructural de una molécula de agua, H2O — y su importancia tanto para los sistemas biológicos como para otros sistemas naturales, tal vez sea sorprendente que, tanto en su forma líquida como sólida, H2O sigue siendo algo misterioso. En estado líquido, las moléculas de agua forman "redes", donde las conexiones están hechas de enlaces de hidrógeno, lo que le da a la sustancia una estructura considerable. Así también, el hielo muestra una estructura considerable y variable. Hay no menos de 15 polimorfos de hielo distintos conocidos (generalmente especificados con números romanos) [70], aunque algunos de ellos solo existen en condiciones demasiado extremas para ser comúnmente observados terrestre [71] y algunos también son metaestables. Además, a medida que cambian las condiciones termodinámicas, estos diferentes polimorfos pueden sufrir transformaciones de estado sólido de una forma a otra. El polimorfo común que se encuentra generalmente en la vida cotidiana se llama hielo hexagonal (hielo yoh). Durante algún tiempo, una forma alternativa de hielo, hielo cúbico (hielo yoC), se pensaba que era una modificación a baja temperatura que coexistía con el hielo Ih a temperaturas tan altas como 240 K [72]. Sin embargo, estudios recientes [73] han concluido que, de hecho, las observaciones anteriores probablemente no sean esta forma puramente cúbica, sino más bien una mezcla de apilamientos cúbicos y hexagonales, llamados hielo desordenado por apilamiento, abreviado (hielo IDakota del Sur) por Malkin et al. [74] y (hielo Ich) por Hansen et al. [75]. Si esto será confirmado o no por estudios adicionales, ice IC da una condición de contorno conveniente sobre las posibles estructuras que podrían existir y procederemos como si el hielo IC es una posible fase metaestable. Por encima de 170 K, hielo IDakota del Sur se transforma irreversiblemente en hielo yoh.

Estructuralmente, hielo I (hielo Ih, hielo yoC, hielo yoDakota del Sur) se puede considerar como un material en capas. Los oxígenos de las moléculas de agua se organizan en capas que consisten en anillos fruncidos de seis miembros [74]. 9 Estas capas pueden asumir además solo tres posibles orientaciones de apilamiento, llamadas A, B o C, al igual que en las estructuras compactas [76]. Las capas están organizadas para que, al escanear el material, las capas se formen capas dobles, donde cada capa individual en esta doble capa debe tener la misma orientación. Además, al igual que en el caso compacto, las capas dobles adyacentes no pueden tener la misma orientación. Dado que las fallas de apilamiento se limitan a interrupciones Entre las capas dobles, normalmente se toma una capa doble como capa modular (ML) [77], y lo etiqueta con A, B o C. Por lo tanto, el hielo yoh es dado por …ABAB… (o equivalente …BCBC… o …CACA...), y hielo yoC por …ABCABC… (o equivalente …CBACBA…). A veces es más conveniente trabajar con un etiquetado alternativo, llamado notación Wyckoff-Jagodzinski [76]. Uno considera tripletes de ML y etiqueta el ML central como h o C, dependiendo de si es hexagonal (h) o cúbicamente (C) relacionado con sus vecinos. Por ejemplo, los cuatro ML más internos de la secuencia de apilamiento ABCBCA estaría escrito como chhc. Debería ser evidente que cualquier estructura de apilamiento, ya sea ordenada o desordenada, puede expresarse como hc secuencia. El hielo yoh La estructura de apilamiento se muestra en la figura 3.a y hielo yoC está en la figura 3B. En la figura 3 se muestra una posible secuencia de apilamiento desordenada.C.

Figura 3. (a) El apilamiento de capas en hielo hexagonal (hielo Ih). El eje vertical es normal a la superficie basal (0001) del hielo hexagonal. Solo se muestran los átomos de oxígeno (esferas), que están conectados por enlaces de hidrógeno (líneas). (B) El apilamiento de capas en hielo cúbico (hielo IC), con el eje vertical normal al plano (111). (C) Un ejemplo de una secuencia de apilamiento que puede provenir de apilar hielo desordenado (hielo IDakota del Sur). Las capas se marcan dependiendo de si la capa está relacionada hexagonalmente (H) o cúbicamente (C) con sus vecinas. (Adaptado de Malkin et al. [73], con permiso.) (Versión en línea en color).

Sin embargo, a pesar de una oleada reciente de estudios teóricos, de simulación y experimentales [69,72-75,77-81], todavía hay mucho que no se comprende sobre la formación de hielo o las transformaciones entre los diversos polimorfos [70]. En un esfuerzo por comprender la coexistencia del hielo,h y hielo yoC a bajas temperaturas, Thürmer & amp Nie [72] examinaron su formación en Pt mediante microscopía de efecto túnel y microscopía de fuerza atómica. Encontraron una interacción compleja entre la formación inicial de hielo Ih grupos que crecen por nucleación de capas y finalmente se fusionan. Los detalles de la coalescencia y la naturaleza de los límites de dominio entre los centros de nucleación influyen fuertemente en si el crecimiento posterior es hielo Ih o hielo yoC. Es importante destacar que demuestran que se pueden obtener imágenes de películas de hielo de grosor arbitrario con una resolución de capa molecular. Varios grupos [73-75,78] han aplicado la modelo de trastorno de Jagodzinski [82,83] a patrones de difracción de rayos X simulados o experimentales, utilizando un rango de influencia entre capas, llamado Reichweite, de s= 2,3,4. Descubrieron que es necesario usar s= 4 para describir algunas muestras. Las simulaciones de dinámica molecular [80] mostraron que el hielo que cristaliza a 180 K contiene tanto hielo IC y hielo yoh en una proporción de 2: 1, mientras que otros estudios de simulación de dinámica molecular [84] encontraron que los pares de defectos puntuales pueden desempeñar un papel importante en el cambio de capas en el hielo I. Sin embargo, otras simulaciones moleculares [85] sugirieron que una nueva fase del hielo , llamado hielo 0, puede proporcionar una explicación termodinámica de algunas características del crecimiento del hielo.

La cristalografía caótica proporciona información importante sobre los tipos de modelos apropiados y la naturaleza de los procesos de apilamiento observados, así como ayuda a comparar estudios experimentales, de simulación y teóricos. De esta manera, la cristalografía caótica proporciona una plataforma común para relacionar estas diversas observaciones y cálculos.

Comencemos por los modelos utilizados. los ϵ-máquinas que describen hielo Ih y hielo yoC se muestran en la figura 4a,B. Son bastante similares, ambos tienen un solo estado y una transición cada uno. Computacionalmente, son bastante simples. También es simple ϵ-máquina que se muestra en la figura 4C. Hay dos transiciones de un solo estado, con la probabilidad de un C ser α0 y un h ser . 10 Es evidente que los dos modelos anteriores son solo casos especiales de este último. Reconocemos que estos tres modelos describen independientes e idénticamente distribuidos (IID) procesos de apilamiento. Implican que no hay correlaciones entre los símbolos. Sin embargo, el esquema de codificación utilizado aquí, la transformación del A B C notación a la notación Wyckoff-Jagodzinski, se basa en las restricciones de apilamiento y proporciona efectivamente una distancia de influencia de dos ML. Identificamos este rango de influencia como el Reichweites.

Figura 4. ϵ-Máquinas que describen el apilamiento de hielo I. Los nodos representan estados causales y están conectados por arcos etiquetados s | pag, dónde s es el símbolo emitido y pag es la probabilidad de realizar dicha transición. (a) Los ϵ-máquina para hielo Ih y (B) hielo yoC. Jagodzinski [82,83] introdujo modelos para secuencias de apilamiento desordenadas de estructuras compactas. El parámetro del modelo que especifica el rango de influencia entre NM se denomina Reichweites. (C) Lo más simple ϵ-máquina en el hc notación que da un hielo yoDakota del Sur secuencia de apilamiento (s= 2 hielo IDakota del Sur). (D) Los ϵ-máquina para s= 3 hielo IDakota del Sur y (mi) s= 4 hielo IDakota del Sur. (Versión online en color).

El siguiente modelo comúnmente utilizado es el de Jagodzinski. s= 3 modelo de trastorno en la figura 4D. Aquí, el siguiente símbolo de la secuencia depende solo del símbolo anterior (ya sea h o C), lo que lo convierte en un modelo de Markov de primer orden. El último modelo explorado en la literatura es el de Jagodzinski. s= 4 modelo de trastorno, y esto se muestra en la figura 4mi. Dado que la probabilidad de observar el siguiente símbolo depende de los dos símbolos anteriores, lo reconocemos como un modelo de Markov de segundo orden. De nuevo, el mapeo del A B C la notación a la notación Wyckoff-Jagodzinski se pliega en un rango de influencia adicional de dos ML en términos del apilamiento físico de ML. Es evidente que se podría continuar este proceso, considerando cada vez más Reichweite, es decir, modelos de Markov de orden superior, indefinidamente. Sin embargo, los procesos de Markov de rango finito son solo una pequeña fracción de los posibles procesos de estado finito que se podrían considerar. Por estado finito, queremos decir que hay un número finito de estados, pero esto no significa que el rango de influencia deba ser finito. Las simulaciones de transformaciones simples de estado sólido en ZnS (también una estructura compacta) desde la estructura de apilamiento hexagonal hasta la cúbica desordenada produjeron procesos de apilamiento con un rango de influencia infinito [28]. Por lo tanto, se nos hace sospechar que, a pesar de la excelente concordancia entre los patrones de difracción experimentales y teóricos informados por algunos investigadores para el hielo I, el proceso real puede pertenecer a una clase computacionalmente más sofisticada. La cristalografía caótica, con su énfasis en las medidas teóricas de la información y la computación, permite reconocer la posibilidad y, de hecho, hacer las preguntas relevantes.

¿Cómo podemos observar o deducir la presencia de procesos de apilamiento tan sofisticados? Una forma es mejorar las técnicas de inferencia. Si bien la cristalografía caótica tiene un algoritmo de inferencia, ϵ-teoría de la reconstrucción espectral de la máquina [27,30] que detecta procesos de rango finito a partir de patrones de difracción, existe la posibilidad de extenderlo para incluir procesos de orden infinito. Además, los estudios de simulación discutidos anteriormente pueden resultar en secuencias de apilamiento desordenadas y existen técnicas, como la fusión de subárboles [24] y los algoritmos de inferencia de estructura bayesiana [86], que pueden descubrir estos procesos de estado finito pero de rango infinito a partir de datos secuenciales. . Esto sugiere que el nivel apropiado de comparación entre teoría, simulación y experimento no es alguna señal (el patrón de difracción), sino más bien el proceso de apilamiento en sí, según lo especificado por el ϵ-máquina. La cristalografía caótica es una plataforma para dicha comparación.

Además, al estudiar el ϵ-La arquitectura causal de la máquina, es decir, la disposición de los estados causales y las transiciones que los conectan, es posible descubrir los tipos de fallas presentes. De hecho, esto se hizo para politipos de ZnS [27, 29]. Recientemente, se propusieron varios tipos diferentes de fallas para el hielo I [77], y un análisis adecuado de los ϵ-La máquina, combinada con estudios teóricos y experimentales, puede dilucidar qué fallas son importantes en un espécimen en particular.Esto podría ser bastante valioso, ya que existen muchas rutas posibles de formación para las muestras de hielo desordenadas, y diferentes mecanismos, como las transformaciones de estado sólido frente al crecimiento, probablemente dejen una huella perceptible en la arquitectura causal.

(ii) Organización de la aromaticidad

El benceno es famoso por su curioso carácter "aromático" que proviene directamente de los seis π electrones compartidos entre sus seis átomos de carbono y flotando por encima y por debajo del plano de su anillo de átomos de carbono. Para comprender este carácter, los químicos están tratando de localizar el deslocalizado π electrones, en parte para comprender el carácter físico del benceno y en parte para encontrar nuevas formas de controlar la reactividad química y descubrir nuevos caminos sintéticos. Uno de los objetivos es diseñar el nuevo motivo electrónico del benceno para que actúe como un catalizador de reacción controlable. Existe un programa de investigación activo para modificar las propiedades aromáticas del benceno mediante la adición de anillos "bicíclicos" fuera del anillo principal. Esto condujo a la creación de tris (biciclo [2.1.1] hexeno) benceno (TBHB). La estructura de TBHB es fundamental para comprender cómo localizar el benceno π electrones [87].

Hacemos un recuento de sondas experimentales recientes de la estructura de TBHB, que demuestran cómo un análisis de la teoría de la información proporciona información adicional. TBHB es una molécula en gran parte plana que ha atraído la atención como uno de los primeros hidrocarburos bencenoides mononucleares confirmados con una geometría similar al ciclohexatrieno [88]. Figura 5a muestra la estructura molecular de TBHB, y la figura 5B da un esquema de la fórmula. De particular interés es el anillo de benceno central, donde los ángulos internos de los enlaces carbono-carbono son todos de 120 °, pero hay una alteración notable de las dos longitudes de enlace no equivalentes entre los carbonos (1,438 (5) −1,349 (6) Å) [88]. De interés adicional es la estructura cristalográfica de TBHB. Aquí se observan dos morfologías cristalinas, monoclínica y hexagonal [90]. Para esta última estructura, los estudios de difracción de rayos X revelan una dispersión difusa significativa a lo largo de las varillas en el espacio recíproco, un sello distintivo del desorden plano. Figura 6a muestra las posiciones de las barras difusas en el espacio recíproco, y la figura 6B da una ilustración de la estructura de capas promedio de TBHB. Llamaremos ML para TBHB a la extensión de esta configuración en una matriz periódica bidimensional.

Figura 5. (a) Estructura molecular de TBHB. Las esferas negras representan átomos de carbono, mientras que las blancas son átomos de hidrógeno. (B) La representación de la denominada "fórmula esquelética" de TBHB. (Adaptado de Michels-Clark et al. [89], con autorización).

Figura 6. (a) Esquema del plano espacial recíproco hk0. Los círculos representan las posiciones de la dispersión difusa (hk≠3norte) y cruza las posiciones de los reflejos de Bragg (hk=3norte). (B) Estructura de capa media para TBHB con simetría de capa. Una matriz bidimensional de moléculas de TBHB dispuestas de este modo se denomina capa modular (ML). (Adaptado de Bürgi et al. [91], con autorización).

De interés más reciente [89,91], y el problema que nos ocupa aquí, es cuantificar y describir las estructuras de apilamiento desordenadas observadas en TBHB. Para hacer esto, debemos especificar los posibles arreglos de apilamiento ML-ML y establecer una nomenclatura conveniente para expresar estructuras de apilamiento extendidas. Las reglas y convenciones de apilamiento para capas de TBHB se pueden resumir de la siguiente manera. 11 (i) Si bien hay tres formas de apilar dos ML, son geométricamente equivalentes y se relacionan mediante una rotación de 120 ° alrededor de la dirección de apilamiento. Por lo tanto, existe un solo tipo de relación ML-ML. (ii) Para los tripletes de NM, hay dos arreglos de apilamiento geométricamente desiguales. Para el caso en el que una molécula en el (I+2) th ML está directamente encima de uno en el Ith ML, este arreglo se llama eclipsado. La otra posibilidad clara es que el (I+2) La ML ocupa una de las otras dos posiciones. Estos son geométricamente equivalentes, están relacionados mediante una operación de espejo y se denominan doblado. Sin embargo, a medida que se avanza a lo largo de la dirección de apilamiento, estos dos últimos pueden diferenciarse en rotación en sentido horario o antihorario. Juntos, entonces, necesitamos distinguir entre tres diferentes tripletes de secuencias de apilamiento: un triplete eclipsado, que simbolizamos por mi, un triplete doblado en el sentido de las agujas del reloj, que simbolizaremos por l, y un triplete doblado en sentido antihorario, simbolizado por r. 12 Recopilamos estas posibilidades en el conjunto.

Imaginemos una ventana deslizante que permite la observación de tres NM a la vez. A esa secuencia de tres ML se le asigna un símbolo de. Luego, la ventana aumenta a lo largo de la dirección de apilamiento en un ML, de modo que el último ML de la secuencia se oculta y se revela un nuevo ML. Esta nueva secuencia de tres ML puede especificarse nuevamente mediante uno de los símbolos de, de modo que la secuencia de cuatro ML viene dada por una secuencia de dos letras de. Por lo tanto, una secuencia de apilamiento físico se puede escribir como una secuencia sobre el conjunto de estos tripletes,.

Recientemente, Michels-Clark et al. [89] comparó tres métodos diferentes para determinar la estructura de apilamiento para TBHB desordenado a partir de patrones de difracción: evolución diferencial, optimización de enjambres de partículas y un algoritmo genético. Aunque computacionalmente intensivo, encontraron una excelente concordancia entre los patrones de difracción calculados y de referencia, obteniendo una R-factor de aptitud de su algoritmo de evolución diferencial en el mejor de los casos. Analizamos ese caso en detalle ahora.

Michels-Clark et al. [89] suponga un proceso de Markov de segundo orden en el rle notación, 13 de modo que las probabilidades de los símbolos sucesivos dependen únicamente de los dos símbolos anteriores vistos, es decir, a los que llaman motivos estructurales. Michels-Clark et al. [89] reportar directamente la probabilidad de mi siguiente mi como, que es sólo dos desviaciones estándar por encima de 0. Además, la probabilidad de la ee secuencia en sí es solo 0,00033. Por lo tanto, descuidamos la ee secuencia cuando construimos el modelo de Markov oculto. Michels-Clark et al. [89,92] relacionan las probabilidades de transición entre motivos estructurales con los parámetros del modelo, de modo que podamos calcular directamente las probabilidades de transición a partir de cualquier solución de los parámetros del modelo. 14 Tomando los valores para la mejor solución de evolución diferencial de caso dados en la tabla 2 de [89], calculamos estas probabilidades. Al hacerlo, encontramos eso y. Esta equivalencia de los futuros de longitud-dos entre los pasados ​​de longitud-dos ll y rl sugiere que estos dos pasados ​​deben combinarse en un solo estado causal. 15 Un argumento similar vale para rr y lr. Así, recopilamos los pasados ll y rl en un solo estado y del mismo modo agrupar rr y lr en el estado único. Los cuatro posibles largos-dos pasados ​​restantes-re,le,er,el—Cada uno tiene un futuro único, por lo que cada uno forma su propio estado causal. El resultado de seis estados ϵLa máquina se muestra en la figura 7. Ahora podemos dar una interpretación cristalográfica caótica del proceso de apilamiento.

Figura 7. Arquitectura de estado causal de TBHB. El alfabeto es. En esta nomenclatura, el proceso es markoviano de segundo orden y los estados causales se especifican por su longitud: dos pasados, donde los pasados ll y rl se han fusionado en el estado causal único, y de manera similar para el pasado rr y lr dentro . Cada estado causal se etiqueta con su probabilidad de estado asintótica. Por lo tanto, se observa que el proceso de apilamiento está dominado por los dos estados causales y, con probabilidades de transición grandes y casi iguales entre ellos (dos arcos de transición (verdes) más centrales). En contraste con las estructuras casi cristalinas, no hay un circuito cerrado flanqueado por estados de satélite menos frecuentados, que a menudo se interpretan como estructuras con fallas. Aquí, en cambio, la estructura dominante está desordenada, lo que sugiere que pensamos en esto como un "anticristal". Tenga en cuenta que la suma de las probabilidades de transición que salen de dos de los estados, y, es ligeramente menor que 1. Esto se debe a que aquí descuidamos la ee secuencia de apilamiento (ver texto). (Versión online en color).

La característica más curiosa de esta estructura es su par de estados centrales altamente desordenado y, cada uno con una probabilidad de estado asintótico de 0.456. Si descuidamos por el momento el símbolo mi (que solo tiene una probabilidad de), este núcleo de dos estados representa un proceso casi aleatorio entre los dos símbolos l y r. Con solo una probabilidad de 0.024, las cadenas compuestas de lr las secuencias son interrumpidas por mi. Ahora, de los estados y vienen las probabilidades de transición más desequilibradas en el ϵ-máquina: lo vemos. Es decir, casi siempre (probabilidad de 0,978) se observa que el símbolo siguiente mi es opuesto el que precedió al mi:

A menudo, se examina la arquitectura causal en busca de indicios de qué tipos de fallas podrían estar presentes. Pero dado que los estados más visitados (y) no representan un ciclo, aquí no hay un cristal padre. En cambio, uno podría considerar que el proceso subyacente es aleatorio entre l y r y solo ocasionalmente interrumpido por mi, tal que mi juega el papel de una falta. Si es así, pensamos en esto como una falla extrínseca, como mi no es parte de la estructura en ninguno de los lados. En cualquier caso, la arquitectura causal del apilamiento de TBHB presenta una interesante inversión de la dicotomía habitual de estructura de falla cristalina. Son los estados centrales y los que dan lugar al apilamiento desordenado, y los estados periféricos menos visitados, especialmente y, los que sirven para restringir las probabilidades de secuencias de apilamiento y, por tanto, imponen una especie de "estructura". Desde este punto de vista, quizás no sea demasiado extremo pensar en TBHB como una especie de "anticristal".

(iii) Hacia una visión unificada de la estructura material

¿Cómo encaja todo esto? Comparemos la tarea del cristalógrafo encargado de determinar la estructura de un material periódico y uno no periódico. Para el caso periódico tridimensional completo, hay siete posibles sistemas de cristal: triclínico, monoclínico, ortogonal, tetragonal, cúbico, trigonal y hexagonal. Uno, por supuesto, puede ser más específico y señalar que hay 230 grupos espaciales cristalográficos. Un cristal periódico debe pertenecer a uno y solo a uno de ellos. Por lo tanto, la cristalografía está equipada con herramientas que dividen el espacio de todas las estructuras cristalinas posibles en un número finito de conjuntos que no se superponen. De todas las desconcertantes formas que uno podría imaginar al juntar átomos en una matriz tridimensional periódica, este sistema de clasificación limitado agota las posibilidades. Se pueden discutir las similitudes entre los diferentes sistemas [93] y, de otro modo, abordar una comprensión genuina de las variedades de estructuras posibles. Pero, ¿se puede decir lo mismo de los materiales no periódicos?

Para simplificar la discusión, limitemos nuestra atención al caso unidimensional de apilar 1000 ML. Supongamos que se trata de un alfabeto de cardinalidad dos. ¿Cuántas secuencias de apilamiento posibles hay? 16 Bueno, hay 2 1000 ≈10 301. Dado que hay alrededor de 10 80 protones en el Universo observable, está claro que una lista completa simplemente no es posible. Y, si lo fuera, es cuestionable cuán útil sería. Para estos materiales desordenados, entonces, nos vemos obligados a apelar a métodos estadísticos. En lugar de un esquema de clasificación detallado a nivel de secuencias individuales, recopilamos todas las secuencias que tienen las mismas propiedades estadísticas en un conjunto. Coloquialmente, cada conjunto representa un proceso de apilamiento. Operacionalmente, intentamos identificar a qué proceso pertenece una secuencia particular, y luego analizamos el proceso en lugar de la secuencia particular.

Cada uno de los gráficos de las figuras 4 y 7 especifica un proceso particular y define un modelo de Markov oculto. Si bien todavía hay un número infinito de procesos posibles en el límite de secuencias indefinidamente largas, se ha impuesto una especie de orden. Podemos, por ejemplo, enumerar todos los procesos en un alfabeto de dos símbolos con un solo estado. Solo hay uno, y se muestra en la figura 4.C. (Figura 4a,B son solo casos especiales de la figura 4C.) Para procesos binarios de dos estados, hay 13 [86]. 17 Para los procesos binarios, se ha tabulado el número de procesos distintos hasta seis estados [95]. Así, la cristalografía caótica hace con los materiales desordenados el mismo servicio que la cristalografía clásica hace con los perfectamente ordenados: organiza y estructura el espacio de posibles arreglos atómicos. Además, permite la comparación de los modelos ocultos de Markov entre diferentes materiales de la misma manera que se comparan las estructuras cristalinas de diferentes materiales según, por ejemplo, el sistema cristalino al que pertenecen.

Sostenemos entonces que los modelos ocultos de Markov que describen no solo diferentes muestras del mismo material sino diferentes materiales en conjunto pueden compararse, ya sea mediante el examen directo del modelo gráfico del proceso o mediante medidas de información que caracterizan varios requisitos computacionales. Como ejemplo, podemos comparar las medidas de cálculo intrínseco entre los dos materiales considerados en las subsecciones anteriores, así como la de un tercer material en capas, ZnS. De las muchas medidas que se pueden seleccionar, optamos por examinar la organización informativa de estos materiales a través de un diagrama de complejidad-entropía [25]. Un diagrama de complejidad-entropía traza, para cada proceso de apilamiento, la tasa de entropía hμ de una secuencia de símbolos discutida en §3 y la información mutua entre las dos mitades del espécimen, el exceso de entropía mi, introducido en §4. Estas medidas se pueden calcular directamente a partir del modelo de Markov oculto para los procesos de apilamiento.

Empezamos con hielo. Tenga en cuenta que el hielo yoC y hielo yoh Ambos están descritos por máquinas de un solo estado y, por lo tanto, cada mitad del cristal no comparte información con la otra mitad, dando mi(IC)=mi(Ih) = 0 bits. Del mismo modo, estando perfectamente ordenados, encontramos hμ(IC)=hμ(Ih) = 0 bits ML −1. Por hielo yoDakota del Sur, calculamos esta cantidad para una serie de muestras experimentales reportadas en la literatura. Malkin et al. [73] realizaron estudios de difracción de rayos X de varias muestras de hielo I que se habían recristalizado en hielo II y se habían calentado a velocidades entre 0,1 y 30 K por minuto en rangos de temperatura de 148-168 K. s= 4 modelo de trastorno de Jagodzinski para analizar sus resultados, y encontramos por cálculo directo de los datos dados en su tabla 4 que estas medidas de información se agrupan en el rango de mi(IDakota del Sur) ≈0,10−0,15 bits y hμ(IDakota del Sur) ≈0,75−0,90 bits ML −1. Murray et al. [78] llevaron a cabo estudios similares en hielo que deposité como hielo amorfo de la fase de vapor sobre un sustrato de vidrio a 110 K. La muestra se calentó posteriormente a una velocidad de 1 K por minuto, e informaron patrones de difracción registrados a temperaturas seleccionadas en el rango de 125-160 K. También analizaron los patrones de difracción utilizando el s= 4 Modelo de trastorno de Jagodzinski, aunque encontraron que los efectos de la memoria eran insignificantes. Encontramos por cálculo directo de los datos dados en su tabla 1 que estas medidas de información se agrupan cerca mi(IDakota del Sur) ≈0 bits y hμ(IDakota del Sur) ≈0,95−1,00 bits ML −1. Podemos hacer lo mismo con TBHB. Encontramos mi(TBHB) = 0,21 bits y hμ(TBHB) = 1,1 bits ML −1. A modo de comparación, también consideramos estas cantidades para varias muestras de ZnS analizadas en otro lugar [29]. Por último, para contrastar con estas muestras desordenadas, consideramos un proceso unidimensional que tiene características similares a las de un cuasi-cristal, el Proceso Thue-Morse (Proceso TM) [96]. Como un cuasi-cristal, está completamente "ordenado", pero no periódico. Tenemos bits, donde norte es el número de capas en la muestra, y hμ(TM) = 0 bits ML −1.

Dado que el desorden de apilamiento máximo posible es 1 bit ML −1 para el hielo I, vemos que el hielo desordenado I realmente es, bueno, desordenado. Además, muy poca información (mi) se comparte entre las diferentes mitades. Es poco lo que se puede predecir que aproximadamente la mitad de la muestra conozca la otra mitad. La agrupación de estas medidas de información da credibilidad a la noción de que el hielo IDakota del Sur es una "nueva" forma de hielo. Sin embargo, debemos tener cuidado al referirnos a esto como una fase termodinámica distinta del hielo. Observe que no solo no está bien definido en el espacio de secuencia de apilamiento, es decir, hay muchas secuencias que corresponden al hielo IDakota del Sur, pero también vemos en la difusión de las medidas de información sobre el diagrama de complejidad-entropía, que tampoco está bien definido en el espacio de proceso. Preferimos la interpretación de que estos especímenes son cristales caóticos, cada uno descrito por un modelo de Markov oculto diferente y cada uno exhibiendo diferentes medidas de procesamiento de información. Por tanto, en realidad no constituyen una fase separada en el mismo sentido en que el hielo IC y hielo yoh están. Hielo yoDakota del Sur es, al menos por el momento, un término genérico para el hielo I con un apilamiento mayoritariamente aleatorio de capas hexagonales y cúbicas. Observamos que las medidas teóricas de la información pueden distinguir entre hielo IDakota del Sur muestras que tienen diferentes historias bajo diferentes condiciones termodinámicas.

De manera similar, TBHB parece estar muy desorganizado. Observamos que, dado que hay tres posibles orientaciones de apilamiento para cada ML, la máxima entropía de apilamiento posible es. De hecho, como se señaló anteriormente, no hay un ciclo periódico central en el gráfico de la figura 7, como se ve comúnmente en los materiales con fallas. Asimismo, no se comparte mucha información entre las dos mitades. ZnS presenta el menos entrópico de los especímenes desordenados que consideramos. Al igual que los especímenes de hielo I considerados, los de ZnS crecen desordenados o quedan atrapados en la transformación entre fases cristalinas: una fase hexagonal y una cúbica. Genéricamente, sin embargo, ZnS parece tener estados intermedios más estructurados, lo que sugiere una transformación más estructurada, probablemente como resultado de restricciones significativas sobre los tipos de mecanismos de desorden en juego.Podemos especular que, aunque el hielo I y el ZnS pueden describirse como estructuras muy compactas, los mecanismos de desorden y transformación son al menos cuantitativamente, si no cualitativamente, diferentes para cada uno.

Al examinar la figura 8, vemos que el diagrama de complejidad-entropía también proporciona una partición para los tipos de estructuras que pueden existir. Por ejemplo, cualquier proceso periódico tiene entropía cero, por lo que en un diagrama de complejidad-entropía todos los cristales perfectos están confinados al eje vertical. Esto, entonces, hace concreto cuán especial es la cristalinidad. De manera similar, los cuasicristales habitan en la esquina superior izquierda del diagrama, también confinados al eje vertical. Por lo tanto, aunque son bastante interesantes, los cuasicristales son organizaciones informativas bastante especiales. Todo el espacio a la derecha del eje vertical está ocupado por cristales entrópicos, justo el tipo de especímenes que la cristalografía caótica es ideal para describir. Por lo tanto, la cristalografía caótica introduce herramientas para cuantificar estas estructuras y representa una expansión significativa sobre el dominio de la cristalografía clásica.

Figura 8. La variedad de computación intrínseca revelada por un diagrama de complejidad-entropía para la arquitectura de materiales. Para el hielo desordenado, graficamos los valores calculados a partir de experimentos en IDakota del Sur (* de la tabla 1 de [78] y de la tabla 4 de [73]) TBHB (de [89]) y ZnS (de [29]). Como referencia, graficamos el punto de complejidad-entropía tanto para Ih y yoC (⊗) así como yoDakota del Sur (•). No se muestra el punto para el proceso de MT (ver texto), un sustituto unidimensional de un cuasi-cristal. Lo encontraríamos indefinidamente alto en el eje vertical. (El exceso de entropía es divergente con una tasa de entropía muy pequeña para muestras grandes). Los diferentes valores de cálculo intrínseco indican diferencias significativas en la organización del proceso de apilamiento para cada material, así como sus densidades de entropía. (Versión online en color).

Si bien sostenemos que comprender la estructura en sí misma es un objetivo lo suficientemente valioso, somos conscientes de que uno de los frutos que se pueden cosechar de esta indagación es la posible explotación de la conexión entre estructura y función. 18 La interrelación entre la estructura y las propiedades de los materiales es bastante conocida. El carbono puede existir como un cristal cúbico centrado en la cara y, cuando un espécimen está ordenado así, lo llamamos diamante. Más comúnmente, el carbono se encuentra en láminas hexagonales y se conoce como grafito. El carbono también se puede organizar como nanotubos y conchas esféricas llamadas informalmente Bolas de Bucky. Y, aunque cada uno de estos es equivalente en composición, sus propiedades materiales son muy diferentes. La estructura importa. De manera menos drástica, los diferentes tipos de estructuras de apilamiento cambian las propiedades del material de maneras más sutiles. Brafman y Steinberger [98] observaron que, al cambiar de un tipo de estructura de apilamiento periódica en ZnS a otro, cambia el grado de birrefringencia. De hecho, este cambio parecía depender de un solo parámetro, la hexagonalidad, que es la fracción de capas relacionadas hexagonalmente con sus vecinas, dada por. Y, tal vez en consecuencia, lo hizo de una manera muy fluida y predecible. Sabemos que la estructura de apilamiento afecta a otras propiedades del material, como el patrón de difracción y, claramente, las funciones de correlación. Se requiere poca imaginación para especular que otras propiedades pueden verse afectadas de manera similar.

Volvamos entonces al caso de apilar 1000 ML. Supongamos que le encargamos a un científico de materiales que investigue las posibles propiedades de los materiales que se pueden obtener a partir de diferentes secuencias de apilamiento. Incluso en el caso binario simple, como vimos anteriormente, hay aproximadamente 10 301 de tales secuencias. Por lo tanto, (el enfoque ciertamente ingenuo de) un análisis detallado secuencia por secuencia es inviable, ya sea experimentalmente, teóricamente o mediante simulación. Sin embargo, en ausencia de una teoría del desorden en los materiales, tal enfoque de investigación de fuerza bruta podría considerarse necesario. Una perspectiva de cristalografía caótica equipa inmediatamente al científico de materiales con herramientas para abordar el problema. Ella sabe, por ejemplo, que muchas propiedades de los materiales están dictadas y se pueden calcular únicamente a partir del conocimiento del proceso de apilamiento. Por lo tanto, en lugar de intentar abordar el problema secuencia por secuencia, es rentable abordarlo proceso por proceso. Aunque el espacio sigue siendo enorme, es considerablemente más pequeño y, lo que es más importante, ahora está sistematizado. Comenzar con procesos simples y pasar a otros más complejos podría, por ejemplo, ser una estrategia eficaz. 19 Además, es posible que las propiedades ni siquiera dependan de los detalles del proceso de apilamiento, sino que pueden correlacionarse con propiedades estadísticas generales o medidas teóricas de la información. El caso de la birrefringencia de ZnS sugiere esto. Un solo parámetro estadístico se correlaciona con la birrefringencia observada al menos para las secuencias de apilamiento periódicas. Además, se sabe que el patrón de difracción depende solo de las correlaciones por pares entre NM. Es bien sabido que diferentes procesos de apilamiento pueden tener las mismas funciones de correlación, lo que sugiere que un enfoque aún menos detallado puede ser rentable. En la medida en que las propiedades de transmisión a través de potenciales desordenados dependan sólo de funciones de correlación [61], también aquí puede ser útil un enfoque menos detallado.

Uno puede objetar y cuestionar si se nos garantiza que todas las propiedades materiales son las mismas para todas las realizaciones de un proceso. No somos. Sin embargo, los resultados teóricos que sugieren los parámetros importantes a considerar, junto con las observaciones experimentales y los resultados de las simulaciones, pueden dar confianza en que una propiedad particular en estudio es una propiedad de conjunto. Indiscutiblemente, gran parte de la conexión entre las propiedades de la teoría de la información y las propiedades de los materiales permanece sin explorar. En la línea que se presenta aquí y en paralelo con los pensamientos de principios pero especulativos de Schrödinger sobre la organización de la vida, los abundantes indicios de conexiones íntimas son demasiado prometedores y las posibles recompensas de encontrar y explotar tales conexiones son demasiado ricas para no explorar.

También notamos que el ejercicio de predecir las propiedades de los materiales a partir de la estructura no es en absoluto académico: la Iniciativa del Genoma de los Materiales [99] es un esfuerzo coordinado y dedicado que abarca estudios teóricos, experimentales y de simulación que intentan hacer precisamente esto. Dada la gran variedad de posibles arreglos de átomos, un esquema organizativo que estructura el espacio de posibilidades es una necesidad absoluta. De lo contrario, los investigadores se encontrarán confiando solo en la intuición, formidable ciertamente, pero con demasiada frecuencia poco confiable, para proponer y ensamblar configuraciones posibles con propiedades materiales novedosas. Sin demasiada exageración, es similar a golpear un teclado con la esperanza de tocar uno de los sonetos de Shakespeare: es posible que sí, pero mucho más probable si se conocen las reglas de la gramática inglesa.

5. Termodinámica del cálculo de materiales

Hasta este punto, nos enfocamos exclusivamente en las propiedades informativas incrustadas en la estructura estática de los materiales "caóticos", ignorando la dinámica temporal ... de su crecimiento, su comportamiento funcional en la "naturaleza", y cosas por el estilo. Sin embargo, una historia completa requiere un recuento termodinámico de los aspectos informativos de dichos materiales: la energía de sus configuraciones de equilibrio y no equilibrio, la energía de cómo llegan a ser, cómo se transforman y qué funciones soportan. Aquí, para ilustrar las conexiones entre la información intrínseca y los costos energéticos, revisamos brevemente las exploraciones recientes del Demon de Maxwell y un modelo de trinquete que describe cómo los "motores" moleculares pueden almacenar y procesar información a medida que atraviesan una secuencia de control.

(a) El motor de una sola molécula de Szilard

Las macromoléculas biológicas [100-102] realizan tareas que implican la manipulación simultánea de energía, información y materia. Aunque a veces podemos identificar dicho funcionamiento, en la activación de corriente de un canal iónico de membrana [103,104] que apoya la propagación de trenes de picos a lo largo de un axón neuronal o en una proteína motora que transporta nutrientes a través de las carreteras de microtúbulos de una célula [100], no está bien comprendido. La comprensión requiere una termodinámica de los sistemas a nanoescala que operan lejos del equilibrio y una física de la información que identifica cuantitativamente la organización y la función. En el fondo, debemos rectificar este funcionamiento con la generación de entropía dictada por la Segunda Ley de la Termodinámica. James Clerk Maxwell presentó el demonio que ahora lleva su nombre para resaltar la paradoja esencial. Si un demonio puede medir el estado de un sistema molecular y tomar acciones basadas en ese conocimiento, se puede violar la Segunda Ley: la clasificación de moléculas lentas y rápidas en lados separados de una partición crea un gradiente de temperatura que una máquina térmica puede convertir en trabajo útil. . De esta manera, la "inteligencia" demoníaca, o, en nuestro vocabulario, el procesamiento de la información, puede convertir las fluctuaciones térmicas (energía desorganizada) en trabajo (energía organizada).

En 1929, Leo Szilard introdujo un demonio maxwelliano ideal para examinar el papel del procesamiento de la información en la Segunda Ley [105], un experimento mental que una década más tarde dio un impulso a la teoría de la comunicación de Shannon [106]. El motor de Szilard consta de tres componentes: un controlador (el demonio), un sistema termodinámico (una molécula en una caja) y un depósito de calor que mantiene ambos térmicos a una temperatura T. Funciona mediante un mecanismo simple de un ciclo repetitivo de tres pasos de medición, control y borrado. Durante la medición, se inserta una barrera en la mitad de la caja, restringiendo la molécula a la mitad izquierda o derecha de la caja, y la memoria del demonio cambia para reflejar de qué lado está la molécula. En el paso de control termodinámico, el demonio usa ese conocimiento para permitir que la molécula empuje la barrera hacia el lado opuesto a la molécula, extrayendo trabajo del depósito térmico. En el paso de borrado, el Demon restablece su memoria finita a un estado predeterminado, para que pueda realizar la medición nuevamente. El periódico protocolo El ciclo de medición, control y borrado se repite sin fin y de forma determinista. El resultado neto es la extracción de trabajo del depósito equilibrado por la entropía creada por los cambios en la memoria del Demonio. Se respeta la Segunda Ley y se exorciza al Demonio, ya que verter esa entropía en el baño de calor requiere un flujo de trabajo que compense exactamente la energía ganada durante el paso de control.

Conectando la dinámica no lineal a la termodinámica del motor de Szilard, demostramos recientemente que su protocolo de medición-control-borrado-barrera deslizante es equivalente a un mapa bidimensional en tiempo discreto desde el cuadrado unitario hasta sí mismo [107]. Esta construcción explícita establece que el motor de Szilard es un sistema caótico cuyos mapas de componentes son transformaciones termodinámicas, lo que ahora llamamos un sistema termodinámico por partes. Se puede ver una animación del motor Szilard, refundido como este caótico sistema dinámico, en http://csc.ucdavis.edu/

¿Qué significa caos en Szilard Engine? El sistema conjunto genera información, información que el demonio debe seguir midiendo repetidamente para mantenerse sincronizado con la posición de la molécula. Por un lado, el depósito de calor genera información a través de la expansión del espacio de estados durante el control. Esta es la inestabilidad caótica en el motor cuando se ve como un sistema dinámico. Y, por otro lado, la información es almacenada por el Demonio (temporalmente) para que pueda extraer energía del depósito permitiendo que la partición se mueva en la dirección apropiada. Para que el motor vuelva al mismo estado inicial, se debe borrar esa información almacenada. Esto contrae dinámicamente el espacio de estado y, por lo tanto, es localmente disipativo, cediendo energía al depósito.

La tasa de producción de información general viene dada por la entropía Kolmogorov-Sinai del motor. hμ [108]. Esto mide el flujo de información del subsistema molecular al Demon: información recolectada del depósito y utilizada por el Demon para convertir la energía térmica en trabajo. En pocas palabras, el grado de caos determina la tasa de extracción de energía del depósito. Además, en su configuración básica con la barrera colocada en el medio de la caja y sus estados de memoria siendo del mismo tamaño, las mediciones de la posición de la molécula del Demon son óptimas. Utiliza toda la información generada hμ por el sistema termodinámico: recordando §3, toda la información generada hμ es información vinculada Bμ ninguna de la información generada se pierde (rμ desaparece).

Críticamente, el motor dinámico Szilard muestra que una creencia generalizada sobre los costos termodinámicos del procesamiento de la información —el llamado principio de Landauer [109-113]: cada bit borrado cuesta energía disipada y el acto de medición no tiene costo termodinámico— es, en el mejor de los casos, un caso especial [107,114-116]. 20 A medida que la ubicación de la partición varía y las celdas de memoria Demon cambian de tamaño, tanto la medición como el borrado pueden disipar cualquier cantidad de calor positiva o negativa. Específicamente, existen configuraciones de Szilard Engine que violan directamente el principio de Landauer: el borrado es termodinámicamente libre y la medición es costosa, un principio anti-Landauer. El resultado es que el motor Szilard logra un límite inferior en la disipación de energía expresada como la suma de los costos termodinámicos de medición y borrado. En esto, el motor Szilard captura una optimización en la conversión de información en trabajo que es análoga a la eficiencia óptima de un motor Carnot al convertir una diferencia de energías térmicas en trabajo.

(b) Catalizadores de información

El motor de Szilard es uno de los dispositivos termodinámicos controlados más simples que deja al descubierto la tensión entre la Segunda Ley y la funcionalidad de una entidad o subsistema de recopilación de información (el Demonio). El trabajo neto extraído equilibra exactamente los costos termodinámicos (entrópicos). Este fue el punto principal de Szilard, aunque vemos que su Motor no era muy funcional, simplemente consistente con la Segunda Ley. La principal contribución fue que, mucho antes de la teoría de la información de Shannon, Szilard reconoció la importancia de la adquisición y el almacenamiento de información del demonio para resolver la paradoja de Maxwell.

Esto nos permite pasar a un dispositivo más sofisticado que utiliza un depósito de información (una cadena de bits aleatorios) para extraer trabajo neto positivo de un depósito de calor. Para preparar el escenario para la termodinámica que nos interesa, pero manteniéndonos en el espíritu de los materiales complejos, reimaginemos el motor Szilard implementado como una macromolécula enzimática cuyos estados conformacionales implementan el protocolo de medición-control-borrado. Además, deje que esta enzima atraviese un cristal periódico unidimensional, digamos, una hebra de ADN, leyendo sus sucesivos pares de bases para obtener comandos de protocolo de medición, control y borrado individuales. La termodinámica y el análisis de la información anteriores se aplican, por tanto, a dicho motor molecular, un sistema controlado activamente que puede rectificar las fluctuaciones, siendo sólo temporal y localmente incompatible con la Segunda Ley.

Sin embargo, vayamos un paso más allá para imaginar una enzima funcional que durante un ciclo termodinámico extrae trabajo neto positivo de un depósito de información para almacenar o liberar energía a medida que ensambla o desensambla una cadena de pequeños componentes moleculares. En esto, reemplazamos la molécula de "control" unidimensional con un conjunto de bits aleatorios que entran en equilibrio local con la enzima. Mientras lo hacen, la dinámica de la enzima cambia para catalizar el ensamblaje de los componentes. El cambio permite que la enzima use selectivamente energía de un reservorio, digamos un ambiente rico en ATP a cuyas moléculas accede la máquina cuando se necesita energía (ATP → ADP) o se abandona (ADP → ATP). La Figura 9 ilustra la nueva máquina molecular funcional.

Figura 9. Catalizador de información: un demonio maxwelliano enzimático molecular se termaliza con una sucesión de bits aleatorios (depósito de información), cada uno de los cuales cambia su actividad catalítica para superar las barreras de energía para ensamblar una cadena de componentes moleculares simples. El medio ambiente, a temperatura constante T, proporciona moléculas ricas en energía necesarias para impulsar las reacciones catalizadas y las moléculas de los componentes de la cadena (véase el trinquete de información de [117]). (Versión online en color).

De esta forma, la enzima imaginada actúa como un catalizador de información que facilita, a través de lo que de otro modo serían reacciones termodinámicamente desfavorables, el ensamblaje de la cadena de componentes moleculares. En la década de 1940, Leon Brillouin [118] y Norbert Wiener [119], pioneros en la física de la información, veían las enzimas como este tipo de catalizadores. En particular, Brillouin propuso una "catálisis negativa" bastante similar como el sustrato molecular que generó la negentropía, el principio de ordenación que Schrödinger identificó como necesario para sustentar los procesos de la vida de acuerdo con la Segunda Ley. Sólo mucho más tarde tales "moléculas de información" serían defendidas por los biólogos evolutivos John Maynard Smith y Eörs Szathmáry [120].

Recientemente analizamos la termodinámica de una clase de catalizadores de información de memoria [117] para los cuales todas las correlaciones entre los componentes del sistema podrían explicarse explícitamente. Esto proporcionó un tratamiento analítico exacto del cambio de información de Shannon termodinámicamente relevante desde el depósito de información de entrada (cadena de bits con tasa de entropía hμ) a un depósito de escape (cadena de bits con tasa de entropía). El resultado fue una Segunda Ley refinada y de amplia aplicación que da cuenta adecuadamente del procesamiento intrínseco de la información reflejado en la acumulación de correlaciones temporales. Por un lado, el resultado da un límite superior informativo sobre el trabajo promedio máximo 〈W〉 Extraído por ciclo:

Esta segunda ley nos permite identificar las funciones termodinámicas del demonio. Dependiendo de los parámetros del modelo, actúa como un motor, extrayendo energía de un solo reservorio y convirtiéndola en trabajo (〈W〉 & Gt0) aleatorizando la información de entrada (hμ′−hμ& gt0), o como borrador de información, borrando información (hμ′−hμ& lt0) en el insumo al costo del insumo externo de trabajo (〈W〉 & Lt0). Además, el demonio admite una funcionalidad contraria a la intuición. A diferencia de los borradores anteriores que solo reducían la incertidumbre de un solo bit H [X0], tiene un nuevo tipo de borrador que elimina las incertidumbres de varios bits al agregar correlación (orden temporal), mientras que las incertidumbres de un solo bit aumentan (H ′ [X0] −H [X0] & gt0). Esta modalidad conduce a una interpretación provocativa de los procesos de la vida: la existencia de demonios naturales con memoria (estados internos) es una señal de que se han adaptado para aprovechar las fluctuaciones temporalmente correlacionadas en su entorno.

6. Conclusión

Hemos recorrido un largo camino desde la visión profética de Schrödinger sobre los cristales aperiódicos. Argumentamos, a través de varias escalas bastante diferentes de espacio y tiempo y varios dominios de aplicación distintos, que existe un vínculo íntimo entre la física de la vida y la comprensión de la base informativa de los procesos biológicos cuando se ve en términos de los materiales complejos que constituyen la vida. En el camino, notamos la estrecha conexión entre las nuevas técnicas experimentales y los nuevos fundamentos teóricos, una conexión necesaria para avanzar en nuestra comprensión de la organización y los procesos biológicos. Abogamos por la importancia de la estructura y nos esforzamos por demostrar que ahora podemos hablar directa y cuantitativamente sobre la organización en materiales desordenados, una consecuencia de romper con la visión de los cristales como sólo periódicos [42,64]. Estos materiales desordenados estructurados, en su capacidad para almacenar y procesar información, presumiblemente jugaron un papel en la transición de meras moléculas a organizaciones materiales que se convirtieron en sustratos que sustentan la biología [121]. Para la biología, por supuesto, su "desorden" no cristalino es mucho más, codifica la información necesaria para la vida. Por lo tanto, la materia biológica es más que "materia blanda" húmeda y blanda, es materia informativa. El ADN, el ARN y las proteínas son moléculas de información [118-120]. Tanto es así que el ADN, por ejemplo, se puede programar [122-124]. Y, de manera complementaria, los paralelos que impulsan nuestro desarrollo aquí quizás brinden una visión alternativa de la "genómica material" [99].

Lo que distingue a la materia biológica de la mera materia física es que la información en la primera codifica la organización y esa organización asume una función catalítica a través de interacciones en un entorno estructuralmente diverso. Además, de manera crítica, estos caracteres se expresan de una manera que conduce a estructuras químicas cada vez más novedosas y complejas, estructuras que se forman en entidades con tasas de replicación diferenciales [125]. Y las entidades de alta replicación, a su vez, modifican el entorno, construyendo "nichos" que mejoran la replicación completando un ciclo termodinámico cuyas dinámicas evolutivas a largo plazo se cree que son creativamente abiertas.

Vimos que reflexionar sobre la visión de Schrödinger sobre la base física de la vida planteaba cuestiones de orden, desorden y estructura en materiales unidimensionales. La cristalografía caótica, libre de "la tiranía benevolente del cristal" [126], surgió como una teoría general para la organización de materiales compactos. Proporcionó una manera coherente de describir, al mismo tiempo, el orden y el desorden en el apilamiento de capas en el hielo y los compuestos aromáticos y, en general, en los cristales caóticos unidimensionales. Y, en esto, insinúa un papel que el (des) ordenamiento local puede desempeñar para mejorar la forma en que las biomoléculas funcionan sinérgicamente en la solución. La cuestión de la función biológica nos obligó a investigar más profundamente su coherencia con la Segunda Ley de la Termodinámica. Luego pasamos a considerar dos casos simples de demonios moleculares maxwellianos para ilustrar que la Segunda Ley de la Termodinámica es perfectamente consistente con el carácter informativo y la funcionalidad de las moléculas inteligentes: que la termodinámica puede comenzar a describir la energía de tales catalizadores de información.

Es cierto que abordamos solo de manera superficial varios de los principales desafíos que plantea una visión informativa de la materia. Shannon presentó la información como sorpresa y demostramos que esto nos llevó fácilmente a ver cómo se crea, almacena y transmite la información. Sin embargo, acabamos de abordar la pregunta permanente de cómo este tipo de información contribuye a la funcionalidad material. El motor de Szilard y los catalizadores de información relacionados insinuaron cómo llegaremos a analizar la información funcional en materiales complejos y biomoléculas. Es de esperar que la perspectiva informativa sea lo suficientemente fructífera como para extenderse al análisis de cómo estos objetos estructurados operan en sus entornos, cómo, por ejemplo, el agua juega un papel crítico en las interacciones y funciones biomoleculares.

Nota agregada en prueba

Se nos ha llamado la atención que recientemente Cartwright & amp Mackay [42] especularon que el hielo cúbico podría ser visto de manera provechosa como un cristal caótico unidimensional debido a su carácter desordenado y aperiódico. Tenga en cuenta que confirmamos sus sospechas y hacemos exactamente eso en §4b (i). Agradecemos a Julyan Cartwright por señalar esto. Ante la noción de cristal caótico, por supuesto, está el famoso "cristal turbulento" de Ruelle [127], un cristal que rompe la simetría de traslación y tiene "una estructura modulada de una manera no cuasiperiódica". Se esperaría que tales cristales mostraran algo de "borrosidad" en los reflejos nítidos del patrón de difracción, así como dispersión difusa y sería similar a la noción de un cristal caótico discutido aquí. Diferenciamos nuestros esfuerzos de estas descripciones anteriores insistiendo en que son las medidas y métodos teóricos de la información y el cálculo los que son la plataforma adecuada para cuantificar las estructuras cristalinas desordenadas.


Matricularse enEspectroboletines de noticias

Este artículo se publicó originalmente en junio de 2017. Se ha revisado para reflejar investigaciones más recientes.

Los investigadores han sabido que los genes contribuyen al autismo desde la década de 1970, cuando un equipo descubrió que los gemelos idénticos a menudo comparten la afección. Desde entonces, los científicos han estado acumulando posibles culpables genéticos del autismo, un proceso que las tecnologías de decodificación de ADN han acelerado en la última década.

A medida que avanzaba este trabajo, los científicos han descubierto una variedad de tipos de cambios genéticos que pueden ser la base del autismo. Cuanto más investigan los científicos sobre el ADN, más intrincada parece ser su contribución al autismo.

¿Cómo conocen los genes los investigadores? contribuir para ¿autismo?
Desde el primer estudio de autismo en gemelos en 1977, varios equipos han comparado las tasas de autismo en gemelos y han demostrado que el autismo es altamente heredable. Cuando un gemelo idéntico tiene autismo, hay aproximadamente un 80 por ciento de posibilidades de que el otro gemelo también lo tenga. La tasa correspondiente para los gemelos fraternos es de alrededor del 40 por ciento.

Sin embargo, la genética no es completamente responsable de las posibilidades de que un niño tenga autismo. Los factores ambientales también contribuyen a la condición, aunque los investigadores no están de acuerdo sobre las contribuciones relativas de los genes y el medio ambiente. Algunas influencias ambientales, como la exposición a una respuesta inmune materna en el útero o las complicaciones durante el parto, pueden trabajar con factores genéticos para producir autismo o intensificar sus rasgos.

¿Existe algo así como un gen del autismo??
Realmente no. Hay varias afecciones asociadas con el autismo que se derivan de mutaciones en un solo gen, incluidos los síndromes X frágil y Rett. Pero menos del 1 por ciento de los casos de autismo no sindrómicos provienen de mutaciones en un solo gen. Hasta ahora, al menos, no existe el "gen del autismo", lo que significa que ningún gen está mutado de manera constante en todas las personas con autismo. Tampoco parece haber ningún gen que cause autismo cada vez que muta.

Aún así, la lista de genes implicados en el autismo sigue creciendo. Los investigadores han contado alrededor de 100 genes que consideran fuertemente relacionados con el autismo. Muchos de estos genes son importantes para la comunicación entre neuronas o controlan la expresión de otros genes.

¿Cómo estos genes contribuir a ¿autismo?
Los cambios o mutaciones en el ADN de estos genes pueden provocar autismo. Algunas mutaciones afectan a un solo par de bases de ADN, o "letra". De hecho, todo el mundo tiene miles de estas variantes genéticas. Una variante que se encuentra en el 1 por ciento o más de la población se considera "común" y se denomina polimorfismo de un solo nucleótido o SNP.

Las variantes comunes suelen tener efectos sutiles y pueden trabajar juntas para contribuir al autismo. Las variantes "raras", que se encuentran en menos del 1 por ciento de las personas, tienden a tener efectos más fuertes. Muchas de las mutaciones vinculadas al autismo hasta ahora han sido raras. Es significativamente más difícil encontrar variantes comunes asociadas con el autismo. El estudio más grande hasta la fecha, publicado en 2019 y que involucró a más de 18,000 autistas y 27,000 personas no autistas, reveló 12 regiones del genoma que albergan variantes comunes relacionadas con el autismo. Dos regiones adicionales aparecieron en un nuevo análisis de 2020 de los datos de 2019 junto con alrededor de 6,000 muestras adicionales.

Otros cambios, conocidos como variaciones en el número de copias (CNV), aparecen como deleciones o duplicaciones de tramos largos de ADN y, a menudo, incluyen muchos genes.

Pero las mutaciones que contribuyen al autismo probablemente no estén todas en los genes, que constituyen menos del 2 por ciento del genoma. Los investigadores están tratando de adentrarse en el 98 por ciento restante del genoma para buscar irregularidades asociadas con el autismo. Hasta ahora, estas regiones no se conocen bien, pero algunas pruebas vinculan el autismo con mutaciones en tramos de ADN no codificante que contienen elementos reguladores que controlan la expresión génica.

Son todos mutaciones igualmente dañinas?
No. A nivel molecular, los efectos de las mutaciones pueden diferir, incluso entre SNP. Las mutaciones pueden ser dañinas o benignas, dependiendo de muchas células que afecten en el cuerpo y cuánto alteren la función de la proteína correspondiente. Una mutación sin sentido, por ejemplo, intercambia un aminoácido de la proteína por otro. Si la sustitución no cambia significativamente la proteína, es probable que sea benigna. Una mutación sin sentido, por otro lado, inserta una señal de "alto" dentro de un gen, lo que hace que la producción de proteínas se detenga prematuramente. La proteína resultante es demasiado corta y funciona mal, si es que funciona.

Como la gente adquirir mutaciones?
La mayoría de las mutaciones se heredan de los padres y pueden ser comunes o raras. Las mutaciones también pueden surgir espontáneamente en un óvulo o esperma, por lo que solo se encuentran en el niño y no en sus padres. Los investigadores pueden encontrar estos raros "de novo"Mutaciones comparando las secuencias de ADN de las personas que tienen autismo con las de sus familiares no afectados. Las mutaciones espontáneas que surgen después de la concepción suelen ser "mosaico", lo que significa que afectan solo a algunas de las células del cuerpo. Cuantas menos células afecten estas mutaciones, más leves serán sus contribuciones a los rasgos del autismo.

¿Puede la genética explicar por qué los niños son más propensos a que las chicas tener autismo?
Quizás. Las niñas con autismo parecen tener más mutaciones que los niños con esta afección. Y los niños con autismo a veces heredan sus mutaciones de madres no afectadas. Juntos, estos resultados sugieren que las niñas pueden ser de alguna manera resistentes a las mutaciones que contribuyen al autismo y necesitan un mayor impacto genético para tener la enfermedad.

¿Existe alguna forma de realizar pruebas de mutaciones antes de que nazca un niño?
Los médicos examinan de forma rutinaria los cromosomas de un bebé en desarrollo para identificar anomalías cromosómicas grandes, incluidas las NVC. Existen pruebas genéticas prenatales para algunos síndromes asociados con el autismo, como el síndrome de X frágil. Pero incluso si un bebé en desarrollo tiene estas raras mutaciones, no hay forma de saber con certeza si posteriormente se le diagnosticará autismo.


¿Qué es el genotipo? ¿Qué es el fenotipo?

Su genotipo es su identidad genética hereditaria completa, es su genoma único que se revelaría mediante la secuenciación personal del genoma. Sin embargo, la palabra genotipo también puede referirse solo a un gen en particular o conjunto de genes portados por un individuo. Por ejemplo, si tiene una mutación relacionada con la diabetes, puede referirse a su genotipo solo con respecto a esta mutación sin tener en cuenta todas las demás variantes genéticas que pueda tener.

Por el contrario, su fenotipo es una descripción de sus características físicas reales. Esto incluye características visibles sencillas como su altura y color de ojos, pero también su salud general, su historial de enfermedades e incluso su comportamiento y disposición general. ¿Ganas peso fácilmente? ¿Estás ansioso o tranquilo? ¿Te gustan los gatos? Todas estas son formas en las que te presentas al mundo y, como tales, se consideran fenotipos. Sin embargo, no todos los fenotipos son el resultado directo de su genotipo, es probable que su disposición personal hacia los gatos sea el resultado de la experiencia de su vida con las mascotas en lugar de una mutación en un gen hipotético más aficionado a los gatos.

La mayoría de los fenotipos están influenciados tanto por su genotipo como por las circunstancias únicas en las que ha vivido su vida, incluido todo lo que le ha sucedido. A menudo nos referimos a estos dos insumos como "naturaleza", el genoma único que portas, y "nutrir", el entorno en el que has vivido tu vida.


Referencias

Ferlay, J. et al. Incidencia y mortalidad por cáncer en todo el mundo: fuentes, métodos y patrones principales en GLOBOCAN 2012. Revista Internacional de Cáncer (2015).

Organización Mundial de la Salud. Últimos datos mundiales sobre cáncer: la carga del cáncer aumenta a 18,1 millones de nuevos casos y 9,6 millones de muertes por cáncer en 2018. Agencia Internacional para la Investigación sobre el Cáncer (2018).

Janssen-Heijnen, M. L. y Coebergh, J.-W. W. Tendencias en la incidencia y el pronóstico de los subtipos histológicos de cáncer de pulmón en américa del norte, australia, nueva zelanda y europa. Cáncer de pulmón 31, 123–137 (2001).

Rose-James, A. & amp Tt, S. Marcadores moleculares con relevancia predictiva y pronóstica en el cáncer de pulmón. Lung Cancer International (2012).

Jorge, S. E., Kobayashi, S. S. & amp Costa, D. B. Mutaciones del receptor del factor de crecimiento epidérmico (EGFR) en el cáncer de pulmón: datos preclínicos y clínicos (2014).

Harrison, P. T., Vyse, S. & amp Huang, P. H. Mutaciones raras del receptor del factor de crecimiento epidérmico (EGFR) en el cáncer de pulmón de células no pequeñas. Seminarios en biología del cáncer 1-13 (2019).

Ferrer, yo. et al. Cáncer de pulmón de células no pequeñas KRAS-Mutant: de la biología a la terapia (2018).

Zhang, S. M. et al. Valor pronóstico de EGFR y KRAS en el cáncer de pulmón de células no pequeñas resecado: una revisión sistemática y un metanálisis. Investigación y manejo del cáncer (2018).

Fang, S. & amp Wang, Z. Mutaciones de EGFR como marcador pronóstico y predictivo en el cáncer de pulmón de células no pequeñas (2014).

Martin, P., Leighl, N. B., Tsao, M. S. & amp Shepherd, F.A. Las mutaciones de KRAS como marcadores pronósticos y predictivos en el cáncer de pulmón de células no pequeñas (2013).

Planchard, D. et al. Cáncer de pulmón de células no pequeñas metastásico: Guía de práctica clínica de la ESMO para el diagnóstico, tratamiento y seguimiento. Anales de Oncología (2018).

Lynch, T. J. et al. Activación de mutaciones en el receptor del factor de crecimiento epidérmico subyacente a la capacidad de respuesta del cáncer de pulmón de células no pequeñas al gefitinib. Revista de Medicina de Nueva Inglaterra (2004).

Páez, J. G. et al. Mutaciones de EGFR en pulmón, cáncer: correlación con la respuesta clínica a la terapia con gefitinib. Ciencias (2004).

Pao, W. et al. Las mutaciones del gen del receptor de EGF son comunes en los cánceres de pulmón de "nunca fumadores" y están asociadas con la sensibilidad de los tumores a gefitinib y erlotinib. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América (2004).

Schrank, Z. et al. Terapias actuales dirigidas a moléculas en el NSCLC y su mecanismo de resistencia (2018).

Zhao, W. et al. Hacia la predicción automática del estado de la mutación EGFR en el adenocarcinoma pulmonar con aprendizaje profundo 3D. Medicina del cáncer (2019).

Tomasini, P., Walia, P., Labbe, C., Jao, K. & amp Leighl, N. B. Dirigiéndose a la vía KRAS en el cáncer de pulmón de células no pequeñas. El oncólogo (2016).

Canon, J. et al. El inhibidor clínico de KRAS (G12C) AMG 510 impulsa la inmunidad antitumoral. Naturaleza (2019).

Fakih, M. et al. Estudio de fase 1 que evalúa la seguridad, tolerabilidad, farmacocinética (PK) y eficacia de AMG 510, un nuevo inhibidor de KRAS G12C de molécula pequeña, en tumores sólidos avanzados. Revista de oncología clínica (2019).

Adderley, H., Blackhall, F. H. & amp Lindsay, C. R. Cáncer de pulmón de células no pequeñas con mutación de KRAS: moléculas pequeñas convergentes e inhibición de puntos de control inmunológico. EBioMedicine 41, P711–716 (2019).

Mullard, A. Cracking KRAS. Nature Reviews Descubrimiento de medicamentos (2019).

Folch, E., Costa, D. B., Wright, J. & amp VanderLaan, P. A. Diagnóstico y estadificación del cáncer de pulmón en la edad mínimamente invasiva con demandas crecientes de análisis de tejidos (2015).

Jain, E. & amp Roy-Chowdhuri, S. Patología molecular de muestras de citología de cáncer de pulmón una revisión concisa (2018).

Cai, L. L. & amp Wang, J. Biopsia líquida para la inmunoterapia del cáncer de pulmón (Revisión) (2019).

Rizzo, S. et al. Caracterización radiogenómica por TC de mutaciones de EGFR, K-RAS y ALK en cáncer de pulmón de células no pequeñas. Radiología europea (2016).

Bakr, S. et al. Un conjunto de datos radiogenómicos del cáncer de pulmón de células no pequeñas. Datos científicos 5, 180202 (2018).

Bodalal, Z., Trebeschi, S., Nguyen-Kim, T. D. L., Schats, W. & amp Beets-Tan, R. Radiogenomics: puente entre imágenes y genómica (2019).

Digumarthy, S. R., Padole, A. M., Gullo, R. L., Sequist, L. V. & amp Kalra, M. K. ¿Puede el análisis radiómico ct en nsclc predecir la histología y el estado de la mutación egfr? Medicamento 98 (2019).

Mei, D., Luo, Y., Wang, Y. & amp Gong, J. Análisis de textura de Ct del adenocarcinoma de pulmón: ¿pueden las características radiómicas ser biomarcadores sustitutos para los estados de mutación de egfr? Imágenes del cáncer 18, 52 (2018).

Liu, Y. et al. Las características radiómicas están asociadas con el estado de la mutación egfr en los adenocarcinomas de pulmón. Cáncer de pulmón clínico 17, 441–448 (2016).

Wang, S. et al. Predecir el estado de la mutación EGFR en el adenocarcinoma de pulmón en una imagen de tomografía computarizada utilizando aprendizaje profundo. Revista respiratoria europea (2019).

Gevaert, O. et al. Modelado radiogenómico predictivo del estado de la mutación egfr en cáncer de pulmón. Informes científicos 7, 41674 (2017).

Dias, C., Pinheiro, G., Cunha, A. & amp Oliveira, H. P. Radiogenómica: Predicción del estado de mutación de genes relacionados con el cáncer de pulmón. En IbPRIA 2019: IX Congreso Ibérico de Reconocimiento de Patrones y Análisis de Imágenes (2019).

Clark, K. et al. El archivo de imágenes del cáncer (tcia): mantenimiento y funcionamiento de un depósito de información pública. Revista de imágenes digitales 26, 1045–1057 (2013).

Gevaert, O. et al. Cáncer de pulmón de células no pequeñas: identificación de biomarcadores de imágenes de pronóstico mediante el aprovechamiento de datos de microarrays de expresión génica públicos: métodos y resultados preliminares. Radiología (2012).

Shen, S., Han, S. X., Bui, A. A. y Hsu, W.Una red neuronal convolucional semántica jerárquica profunda interpretable para la clasificación de malignidad de nódulos pulmonares. Sistemas Expertos con Aplicaciones (2019).

Mei, D., Luo, Y., Wang, Y. & amp Gong, J. Análisis de textura por CT del adenocarcinoma de pulmón: ¿Pueden las características radiómicas ser biomarcadores sustitutos para los estados de mutación de EGFR? Imágenes del cáncer (2018).

Papadopoulou, E. et al. Determinación del estado mutacional de egfr y kras en pacientes griegos con cáncer de pulmón de células no pequeñas. Cartas de oncología 10, 2176–2184 (2015).

Varghese, A. M. et al. Los pulmones no se olvidan: comparación del perfil de mutación de kras y egfr y supervivencia de fumadores universitarios y nunca fumadores con cánceres de pulmón avanzados. Revista de oncología torácica 8, 123–125 (2013).

Dogan, S. et al. Epidemiología molecular de las mutaciones egfr y kras en 3.026 adenocarcinomas de pulmón: mayor susceptibilidad de las mujeres a cánceres con mutantes kras relacionados con el tabaquismo. Investigación clínica del cáncer 18, 6169–6177 (2012).

Yip, S. S. et al. Asociaciones entre mutaciones somáticas y fenotipos de imágenes metabólicas en el cáncer de pulmón de células no pequeñas. Revista de medicina nuclear (2017).

Yip, S. S. et al. Impacto del diseño experimental en la radiómica PET en la predicción del estado de mutación somática. Revista europea de radiología (2017).

Zhang, H., Cai, W., Wang, Y., Liao, M. & amp Tian, ​​S. CT y características clínicas que predicen el riesgo de mutación de EGFR en el cáncer de pulmón de células no pequeñas: una revisión sistemática y un metanálisis. Revista Internacional de Oncología Clínica (2019).

Hosny, A. et al. Aprendizaje profundo para el pronóstico del cáncer de pulmón: un estudio radiómico retrospectivo de múltiples cohortes. Medicina PLoS (2018).

Wilson, R. & amp Devaraj, A. Radiomics de nódulos pulmonares y cáncer de pulmón (2017).

Yamashita, R., Nishio, M., Kinh, R., Do, G. & amp Togashi, K. Redes neuronales convolucionales: una descripción general y aplicación en radiología. Insights Imaging 9, 611–629 (2018).

Davidson, M. R., Gazdar, A. F. & amp Clarke, B. E. El papel fundamental de la patología en el tratamiento del cáncer de pulmón (2013).

Doshi, J. A., Hendrick, F. B., Graff, J. S. & amp Stuart, B. C. Data, Data Everywhere, But Access Remains a Big Issue for Researchers: A Review of Access Policies for Publicly-Finded Paciente Health Care Data in the United States. eGEM (generación de pruebas y métodos de amplificación para mejorar los resultados de los pacientes) (2016).

Kahn, C. E., Carrino, J. A., Flynn, M. J., Peck, D. J. & amp Horii, S. C. Dicom y radiología: pasado, presente y futuro. Revista del Colegio Americano de Radiología 4, 652–657 (2007).

Bakr, S. et al. Descriptor de datos: un conjunto de datos radiogenómicos de cáncer de pulmón de células no pequeñas. Datos científicos (2018).

Kalra, A. Desarrollo de modelos humanos fe a partir de imágenes médicas. En Yang, K.-H. (ed.) Método básico de elementos finitos aplicado a la biomecánica de lesiones (2018).

Bolliger, S. A., Oesterhelweg, L., Spendlove, D., Ross, S. & amp Thali, M. J. ¿Es posible la diferenciación de cuerpos extraños que se encuentran con frecuencia en los cadáveres mediante la medición de densidad hounsfield? Revista de ciencias forenses 54, 1119–1122 (2009).

Van Griethuysen, J. J. et al. Sistema de radiómica computacional para decodificar el fenotipo radiográfico. Investigación sobre el cáncer 77, e104 – e107 (2017).

Prochazka, A., Grafova, L., Vyšata, O. & amp Caregroup, N. Transformada ondícula tridimensional en procesamiento de volumen biomédico multidimensional. En Proc. de la Conferencia Internacional IASTED sobre Gráficos y Realidad Virtual, Cambridge, 263–268 (2011).

Fotin, S. V., Reeves, A. P., Biancardi, A. M., Yankelevitz, D. F. & amp Henschke, C. I. Un enfoque laplaciano multiescala de filtrado gaussiano para la detección automática de nódulos pulmonares a partir de tomografías computarizadas de baja dosis de pulmón completo. En Medical Imaging 2009: diagnóstico asistido por computadora, vol. 7260, 72601Q (Sociedad Internacional de Óptica y Fotónica, 2009).

Hansell, D. M. et al. Sociedad Fleischner: glosario de términos para imágenes torácicas. Radiología 246, 697–722 (2008).

Abdi, H. y Williams, L. J. Análisis de componentes principales. En Enciclopedia de biometría (2009).

Maaten, L. v. D. & amp Hinton, G. Visualización de datos usando t-sne. Revista de investigación sobre aprendizaje automático 9, 2579–2605 (2008).

Chawla, N. V., Bowyer, K. W., Hall, L. O. & amp Kegelmeyer, W. P. Smote: técnica de sobremuestreo de minorías sintéticas. Revista de investigación en inteligencia artificial 16, 321–357 (2002).

Chen, T. & amp Guestrin, C. XGBoost: Un sistema de aumento de árboles escalable. En Actas de la Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos (2016).

Nishio, M. et al. Diagnóstico asistido por computadora de nódulos pulmonares mediante refuerzo de árbol de gradiente y optimización bayesiana. Más uno (2018).

Zhang, X. et al. Identificación de ARN largos no codificantes relacionados con el cáncer utilizando XGBoost con alta precisión. Parte delantera. Gineta. 10, 1–14 (2019).