Anotación funcional paralela del cáncer. - Grupo azul oceánico Co., Ltd

Scientific Reports volumen 12, Número de artículo: 18487 (2022) Citar este artículo

784 Accesos

3 Altmetric

Detalles de métricas

El uso de la secuenciación del exoma para el descubrimiento de biomarcadores y la medicina de precisión requiere conectar la variación del nivel de nucleótidos con los cambios funcionales en las proteínas codificadas. Sin embargo, para anotar funcionalmente las miles de mutaciones de sentido erróneo asociadas con el cáncer, o variantes de significado incierto (VUS), la purificación de proteínas variantes para el análisis bioquímico y funcional tiene un costo prohibitivo e ineficiente. Describimos la anotación funcional paralela (PFA) de un gran número de VUS utilizando cultivos pequeños y extractos crudos en placas de 96 pocillos. Usando miembros de una familia de histonas metiltransferasa, demostramos una anotación estructural y funcional de alto rendimiento de mutaciones asociadas con el cáncer. Al combinar la anotación funcional de parálogos, descubrimos dos parámetros filogenéticos y de agrupación que mejoran la precisión de las predicciones funcionales basadas en secuencias a más del 90 %. Nuestros resultados demuestran el valor de la PFA para definir las funciones oncogénicas/supresoras de tumores de las histonas metiltransferasas, además de mejorar la precisión de los algoritmos basados en secuencias para predecir los efectos de las mutaciones asociadas al cáncer.

La anotación funcional de las mutaciones asociadas al cáncer es un desafío1,2. La mayoría de las mutaciones de sentido erróneo ocurren en posiciones sin función conocida, lo que impide la identificación de mutaciones de conductor frente a neutrales (pasajeros). Los métodos de anotación funcional actuales utilizan la conservación de la secuencia de nucleótidos y aminoácidos (aa) para predecir la patogenicidad mutacional3,4,5. La validación se basa en la divergencia mutante en las cadenas laterales aa en comparación con el tipo salvaje y en la estimación estadística de la probabilidad de selección positiva en relación con la tasa de mutación de fondo6. Sin embargo, cambiar un aa conservado no siempre cambia la función. Los algoritmos que incorporan información estructural y termodinámica en las predicciones funcionales7,8 están limitados por la escasez de información estructural para los estados ligandos y conformacionales de las proteínas. Predecir el impacto de la sustitución de aa en la función es difícil para las proteínas en los complejos. Las predicciones mejoran para proteínas bien caracterizadas, pero dicha información requiere una purificación y caracterización de proteínas costosas y que consumen mucho tiempo. Saber qué mutaciones provocan el cáncer es crucial para priorizar los estudios basados en células y animales, pero los programas de predicción funcional no pueden guiar de manera confiable estos experimentos de alto costo6,9.

Describimos la anotación funcional paralela (PFA) para la caracterización de alto rendimiento de variantes sin sentido asociadas al cáncer de significado incierto (VUS) sin purificación de proteínas. Demostramos el valor de PFA con tres metiltransferasas de histona H3 lisina 4 (H3K4) de la familia de leucemia de linaje mixto (MLL) que se encuentran entre los genes mutados con mayor frecuencia en el cáncer (Fig. S1A) 10,11,12,13,14,15, 16,17,18,19,20. Las mutaciones en las enzimas de la familia MLL están asociadas con aberraciones en todo el genoma en los patrones de metilación de H3K4, que están vinculadas a programas transcripcionales anormales que promueven la malignidad18,21,22,23. De cientos de MLL1-3 VUS, la mayoría están en posiciones de aminoácidos sin función conocida (Fig. S1B). Examinamos 99 mutaciones sin sentido asociadas al cáncer en o alrededor de los dominios catalíticos Supresor de Variegación, Potenciador de Zeste, Trithorax (SET), comparando los resultados con dos programas de predicción funcional ampliamente utilizados. Usando la anotación funcional de tres parálogos MLL, descubrimos que la combinación de dos parámetros filogenéticos y de agrupamiento mejoró la precisión de la predicción funcional basada en secuencias a> 90%. Estos resultados proporcionan una base para mejorar los métodos computacionales para predecir los efectos funcionales de las mutaciones asociadas al cáncer para el descubrimiento de biomarcadores y la medicina de precisión.

Para comprender mejor qué tan bien las herramientas predictivas clasifican las mutaciones sin sentido clínicamente relevantes en familias de enzimas mutadas con frecuencia, analizamos funcionalmente VUS en los dominios SET catalíticos de MLL1-3 (Fig. 1), comparando los resultados con tres programas de predicción computacional ampliamente utilizados. Las enzimas MLL catalizan la metilación de la histona H3 lisina 4 (H3K4)24. Las alteraciones están asociadas con aberraciones en todo el genoma en la metilación vinculadas a la malignidad. MLL1-3 se encuentran entre los genes mutados con mayor frecuencia en múltiples cánceres25,26. De cientos de MLL1-3 VUS, la mayoría están en posiciones de aminoácidos sin función conocida (Fig. S1).

Flujo de trabajo para el ensayo de anotación funcional paralela (PFA). (1) Se indujeron plásmidos de expresión recombinantes para tipo salvaje (WT) y mutantes (MT) en Escherichia coli en cultivos de 5 ml. (2) Los sedimentos de cultivo se lisaron y aclararon. El extracto crudo se normalizó para cantidades iguales de proteína recombinante utilizando SDS-PAGE teñido con Coomassie y/o transferencia Western. E. coli no metila las histonas, por lo que los sustratos no se modificaron sin proteína recombinante y los lisados fueron la fuente de enzimas en los ensayos. (3) Los ensayos con lisados en tubos de tiras de PCR se iniciaron con una mezcla de temperatura equilibrada que contenía las subunidades necesarias para los complejos activos de histona metiltransferasa (WRAD), péptidos de histona H3 biotinilados (aminoácidos 1–20) como sustrato y S-adenosilmetionina radiomarcada ( 3H-SAM). (4) Las reacciones se transfirieron a FlashPlates34 de 96 pocillos recubiertas con centelleante/estreptavidina comercialmente disponibles que contenían reactivo de extinción (paso 4). Los tiempos de extinción para los ensayos de punto final se determinaron utilizando la enzima WT para garantizar la relación señal-ruido dentro del rango lineal del transcurso del tiempo. (5) Un lector de placas detectó una señal de péptidos biotinilados metilados capturados por estreptavidina cerca del centelleo, lo que hizo innecesaria la eliminación de 3H-SAM no incorporado. (6) Se analizaron los resultados. H3K4me0, H3 no metilado; H3K4me1, H3 monometilado.

Recopilamos una lista de 99 VUS en los últimos 260 aa de MLL1-3 dentro o cerca del dominio catalítico SET (29 en MLL1, 44 en MLL2, 26 en MLL3, archivo complementario 1) del Catálogo de mutaciones somáticas en cáncer ( COSMIC)27 y de la secuenciación del exoma de 308 tumores de diversos orígenes en la Clínica Mayo28. Calculamos las puntuaciones de impacto funcional para cada mutación utilizando la opción específica para el cáncer de Análisis funcional a través de modelos ocultos de Markov (v2.3) (FATHMM)29, el servidor de predicción funcional Polymorphism Phenotyping v2 (PolyPhen-2), que incorpora información estructural en las anotaciones7 , y el servidor de priorización oncogénica por inteligencia artificial (OPAI) de CancerVar30. Usando umbrales de enfermedad predeterminados, FATHMM predijo 4 mutaciones que resultaron en cáncer; El 96% se infirieron como mutaciones de pasajeros (Archivo complementario 1). Las puntuaciones de PolyPhen-2 sugirieron que 89 mutaciones probablemente eran dañinas, 5 posiblemente dañinas y 1 benigna. Los programas acordaron en 1 inferencia benigna/pasajero y 4 cancerosas/probablemente dañinas (5 %), pero con una alta discordancia en las inferencias funcionales para el ~ 95 % restante de las posiciones de mutación sin sentido (Fig. 2A), cuyas verdaderas funciones se desconocen . También usamos CancerVar para predecir el potencial oncogénico del 99 VUS (archivo complementario 1) y descubrimos que la mayoría (82 %) tiene una probabilidad incierta de oncogenicidad (puntuación OPAI < 0,95). El desacuerdo entre los programas nos llevó a desarrollar un ensayo funcional de alto rendimiento para ayudar a las herramientas predictivas a comprender el papel de las mutaciones del dominio SET en la enfermedad.

Anotación funcional paralela (PFA) de variantes de histona metiltransferasa asociadas al cáncer de significado incierto (VUS). (A) Diagrama de Venn de predicción funcional FATHMM y PolyPhen-2 de VUS de leucemia de linaje mixto (MLL): 5 de 99 mutaciones tenían predicciones superpuestas. (B) Arriba, mapa de estructura secundaria del dominio SET catalítico de PDBsum basado en PDB 5F59, aminoácidos 4754–4911. Se muestran hélices alfa (H1-3), láminas beta (β1-10), giros en horquilla beta (giros en horquilla de color rojo) y residuos de unión de ligando/metal: unión H3/SAH (cuadrado con relleno rojo), unión SAH (triángulo con relleno azul ), unión de iones de zinc (cuadrado relleno de azul/triángulo relleno de verde). Abajo, PFA representativo de mutaciones MLL3 VUS por recuento de centelleo. El enfriamiento fue después de 30 min con datos normalizados frente a WT. Rosa y morado, ensayos iniciados con H3K4me0, H3K4me1. Líneas discontinuas y regiones sombreadas correspondientes, promedio y desviación estándar (1σ), respectivamente, para todas las variantes con actividad > 50 % del WT. Barras de error, desviación estándar de 2 experimentos independientes. (C) Resultados representativos de PFA para mutaciones MLL3 VUS mediante fluorografía de SDS-PAGE. Superior, gel teñido con Coomassie de reacciones enzimáticas extinguidas; medio, señal de reacciones con péptidos H3K4me0 (no metilados) o H3K4me1 (monometilados); abajo, expresión de variantes de MLL3 por SDS-PAGE teñida con Coomassie. Los ensayos fueron como se describe en la Fig. 1, limitando las subunidades recombinantes requeridas para la actividad enzimática completa31,32,33 para minimizar la variación de actividad de la expresión diferente de MLL. Las tasas de monometilación y dimetilación se determinaron utilizando sustratos no modificados o monometilados. La actividad dependía de la expresión recombinante (ninguna actividad en el control no inducido, UIC, carril 1). Los carriles 2–11 muestran complejos representativos de MLL3 de tipo salvaje (WT) y variantes, lo que demuestra que la variación de la actividad no se puede explicar mediante la expresión diferencial. Una versión sin recortar de la figura 2C se muestra en la figura S11.

Para determinar el verdadero impacto funcional en la actividad enzimática, desarrollamos una plataforma PFA rentable y de alto rendimiento para comparar rápidamente la actividad enzimática en proteínas variantes y de tipo salvaje. PFA implica la expresión paralela de genes de tipo salvaje y variantes en cultivos pequeños (Fig. 1). Utilizamos la caracterización de las 99 enzimas de metilación de histonas VUS como modelo, expresando dominios SET de tipo salvaje o variantes de plásmidos recombinantes en Escherichia coli. Después de la lisis celular, los ensayos se iniciaron combinando extractos crudos normalizados con 3H-S-adenosilmetionina (3H-SAM), sustrato peptídico de histona biotinilado y cofactores o proteínas que interactúan, en nuestro caso, subunidades recombinantes purificadas requeridas para una actividad enzimática completa31,32 ,33. En puntos de tiempo específicos, las reacciones se transfirieron a FlashPlates34 de 96 pocillos recubiertas con centelleante/estreptavidina disponibles comercialmente que contenían extintor. Un lector de placas detectó señales de reacción, en nuestro caso de péptidos biotinilados metilados capturados por estreptavidina proximal al centelleante. Los datos se normalizaron frente a la actividad enzimática de tipo salvaje (Fig. 2B y Figs. S2, S3, S4). Todos los pasos utilizaron pipetas de 8 canales en un termociclador de PCR estándar, lo que permitió una paralelización de alto rendimiento.

Para validar los resultados, las reacciones se visualizaron mediante fluorografía (Fig. 2C). La actividad de metilación dependía de la expresión recombinante, sin actividad en el control no inducido (carril 1). Los complejos MLL3 de tipo salvaje y variantes demostraron que la variación de la actividad no se explicaba por la expresión diferente del dominio catalítico (carriles 2 a 11 y panel inferior). La variación en la actividad enzimática por fluorografía coincidió cualitativamente con los resultados del conteo de centelleo (Fig. S5). Además, los cambios observados en la actividad relativa para el subconjunto de mutaciones previamente caracterizadas fueron consistentes con la literatura12,13,32,33,35,36,37,38,39, validando el ensayo. De las 99 VUS caracterizadas por PFA, el 62 % mostró pérdida de función (LOF) (actividad <50 % del tipo salvaje), el 3 % mostró ganancia de función (GOF) y el 35 % no mostró cambios significativos ( Figura 3A).

Anotación de estructura-función de variantes asociadas al cáncer de metiltransferasa de significado incierto (VUS). (A) Proporciones de variantes neutrales (de tipo salvaje [WT]), con pérdida de función (LOF) y con ganancia de función (GOF) de la anotación funcional paralela de 99 VUS de leucemia de linaje mixto (MLL). (B) Alineación de secuencia Clustal Omega de los dominios SET (que contienen el sitio activo) de tres parálogos de MLL. gris, neutro; verde, GOF; rojo, LOF; rosa, mutaciones MLL1 que eliminan la dimetilación de la histona H3 lisina 4 (H3K4) pero no la monometilación. La anotación con estructura secundaria PDBSum se basa en MLL1. Las barras de los grupos 1 a 5 muestran grupos putativos de mutaciones sin sentido. (C) Representación superficial del dominio MLL1 SET (código PDB 2W5Z) que muestra grupos de mutaciones, coloreados como en B). Las variantes LOF del grupo 2 que se asignan a la superficie del sitio no activo del lóbulo SET-I incluyen mutaciones asociadas con el síndrome de Kabuki humano cuando se encuentra en MLL248,49,50,51,52,53,39,54,55. Las mutaciones deterioran el ensamblaje complejo y la actividad enzimática al alterar una superficie requerida para la interacción con el heterodímero RBBP5/Ash2L necesario para la catálisis39. El grupo 3 abarca desde la hélice α 5 hasta la hoja β 7 con el motivo distintivo "NHS" altamente conservado esencial para la actividad SET44,61,62,63,64,64 en los 6 MLL humanos33 cerca del punto de apoyo de la estructura bilobulada con contactos directos a S-adenosilmetionina en la base del bolsillo de unión de coenzimas. Las variantes LOF del grupo 4 abarcan residuos en las hojas β 8–10 en una superficie contigua a lo largo de la base del dominio. Las mutaciones afectan a los aminoácidos enterrados en la superficie no expuesta al disolvente de las hojas β 8 y 9 (se prevé que se desestabilizarán). Una variante de GOF en MLL3 reemplazó a la tirosina 4884, que se inserta en la posición del sitio activo del "interruptor Phe/Tyr" y determina la especificidad del producto con cisteína32,63,66,67,68,69,70,71,72,72. Esta variante se dimetiló pero no se monometiló, similar a una sustitución de Y a C que causa cáncer en el sitio activo EZH2 del dominio SET de polycomb71. El grupo 5 abarca el dominio post-SET con el lóbulo de unión al zinc (pulgar) del dominio SET con 3 de 4 cisteínas coordinando el átomo de zinc (cuarto del grupo 3). El zinc es crucial para la porción proximal de adenina del bolsillo de unión de coenzimas. Texto gris, lóbulos SET-I y post-SET (críticos para la actividad de la metiltransferasa) y superficie de interacción Kabuki; histona H3 y modelo de bola y palo, posición del sitio activo en el lóbulo SET-I. (D) Vista ampliada de los grupos de mutaciones de VUS que convergen en el sitio activo con las posiciones del sustrato y el producto del cofactor S-adenosilhomocisteína (SAH) indicadas. (E) Posiciones de características de dominio.

Para obtener información estructural y bioquímica de las variantes, utilizamos la alineación de secuencia CLUSTAL-Omega40 anotada para la conservación de aa y la estructura secundaria, y el mapeo en estructuras de rayos X de dominios SET aislados (Fig. 3B, C, Figs. S2, S3, S4 )41,42,43,44.

La mayoría de las variantes de LOF se agruparon en torno a cinco elementos estructurales primarios (Fig. 3B): el grupo 1 se asignó a cadenas β que, con un bucle intermedio, forman parte del bolsillo de unión a SAM en la "palma" del dominio SET (Fig. 3C ,DELAWARE). Las mutaciones aquí probablemente alteran el empaquetamiento de la hoja β contra el dominio y alteran el bolsillo de unión a SAM. Las posiciones de las variantes LOF del grupo 1 tenían diversos grados de conservación de aa entre los dominios SET y solo en 2 de 3 MLL (Fig. 3B). Varias mutaciones neutrales, algunas en posiciones muy conservadas, demostraron que la conservación de aa no siempre era suficiente para las predicciones funcionales.

El grupo 2 abarcó residuos entre cadenas β en una región que se cree que determina la especificidad del sustrato45 (Fig. 3B-E). Varias mutaciones LOF asignadas a superficies opuestas de la región (Figs. S2, S3, S4). Las variantes de LOF cerca del sitio activo probablemente interrumpieron la unión de histonas o cofactores. Una variante GOF supuesta mapeada mostró una mayor dimetilación sin cambiar la actividad de monometilación. La misma posición fue mutada en otro MLL sin cambiar la actividad enzimática (Fig. 3B, Figs. S2, S3). Una variante diferente de GOF aumentó la dimetilación sin cambiar la monometilación, mapeándose en una superficie de unión de péptidos de histonas (Fig. S3). La misma posición fue mutada en otro MLL sin cambiar la actividad (Fig. 2B, Fig. S4). Algunas variantes LOF del grupo 2 asignadas a una superficie de sitio no activo donde demostramos que las mutaciones afectan el ensamblaje del complejo central y la actividad enzimática (Fig. 3C)39, una interacción confirmada por crio-EM (Fig. S6)55,56,57,57 . Estas observaciones enfatizan la importancia de incorporar información funcional de múltiples miembros de la familia que pueden ser diferentes en su ensamblaje con subunidades homólogas33,38.

El grupo 3 incluía un motivo NHS altamente conservado esencial para la actividad enzimática33,42,59,60,61,62,62 que contacta directamente con SAM en la base del bolsillo de unión a coenzima. La alta conservación y la información bioquímica previa probablemente explicaron las inferencias funcionales correctas de FATHMM y PolyPhen-2 para las mutaciones del motivo NHS. Sin embargo, estos programas no distinguieron LOF y mutaciones neutras para el 95% restante de las variantes, incluidas las variantes del grupo 1 y el grupo 3 restante que, según la información estructural, están involucradas en la formación del bolsillo de unión a SAM/S-adenosilhomocisteína (Fig. 3D).

Las variantes LOF del grupo 4 abarcaban el mapeo de residuos en una superficie contigua a lo largo de la base del dominio SET. Las mutaciones LOF en este grupo afectaron predominantemente a las posiciones aa enterradas y se predijo que serían desestabilizadoras. Una variante GOF estaba en un residuo que se inserta en el sitio activo en una posición que determina la especificidad del producto32,33,61,64,65,66,67,68,69,70,70. Esta variante mostró un fenotipo mixto de actividad de monometiltransferasa perdida, pero ganó actividad de dimetiltransferasa (Fig. 2B), similar a una sustitución que causa cáncer71 que es un objetivo del tratamiento del linfoma72.

El grupo 5 abarcaba un dominio que forma un lóbulo de unión a zinc y proporciona 3 de 4 residuos de cisteína que coordinan un zinc crucial para una porción del bolsillo de unión de coenzimas (Fig. 3D). Las variantes de LOF en esta región probablemente desestabilizan el lóbulo de unión al zinc, alterando la unión de SAM.

Para determinar qué tan bien los programas de anotación funcional predicen los cambios bioquímicos en la familia MLL VUS, trazamos las puntuaciones de FATHMM, PolyPhen-2 y CancerVar frente a la actividad de la metiltransferasa normalizada al tipo salvaje (Fig. 4A-C). Las puntuaciones FATHMM se agruparon en tres regiones (Fig. 4A). De 99 mutaciones de sentido erróneo, 3 que representaban predicciones positivas verdaderas (TP) tenían una actividad < 50 % del tipo salvaje con puntajes FATHMM que alcanzaban el umbral de enfermedad predeterminado (≤ − 0,75)29. Otra predicción del grupo 3 cayó en la región de falsos positivos (FP), con una asignación tenue porque la actividad apenas superaba el umbral del 50 %. Otra región que representaba predicciones negativas verdaderas (TN), que contenía el 45 % de las mutaciones, tenía una actividad > 50 % del tipo salvaje con puntuaciones FATHMM > − 0,75. La tercera región que representa predicciones negativas falsas (FN) (48 % de las mutaciones) tenía una actividad < 50 % de tipo salvaje y puntuaciones FATHMM que indicaban ausencia de enfermedad.

Comparación de fenotipos pronosticados e in vitro para variantes sin sentido asociadas al cáncer de significado incierto (VUS). (A) Puntuaciones FATHMM frente a actividad relativa (mutante [MT]/de tipo salvaje [WT]) de VUS codificado por colores por grupos. Los grupos 1, 2, 4 y 5 tienen aproximadamente la misma densidad por encima y por debajo del 50 % de actividad de tipo salvaje (línea de puntos horizontal); línea punteada vertical, umbral de enfermedad por defecto de cáncer FATHMM ≤ − 0,75 (mayor certeza de que una mutación causa la enfermedad); círculos blancos, 12 mutaciones neutras que no encajaban en los 5 grupos; puntos rojos, mutaciones correspondientes a mutaciones "NHS" conservadas en el grupo 3 (motivo esencial para la actividad enzimática). Tres residuos del grupo 3 altamente conservados se denominaron correctamente como verdaderos positivos (TP), pero FATHMM carecía de sensibilidad para llamar a las variantes restantes de pérdida de función del grupo 3 a pesar de una pérdida de actividad similar. (B) Puntuaciones de PolyPhen-2 frente a la actividad relativa de VUS. Líneas verticales, umbrales de enfermedad predeterminados de PolyPhen-2: > 0,8 "probablemente dañino", 0,2 a 0,8 "posiblemente dañino", < 0,2 benigno). (C) Puntuaciones de CancerVar OPAI frente a la actividad relativa de VUS. Línea vertical, umbral por defecto (< 0,95) para variantes con probabilidad incierta de oncogenicidad. (D) Diagrama de violín de las diferencias de actividad media entre VUS con puntajes de grupos paralelos bajos (< 1.5) o altos (> 1.5) (pClustScore). La significación se obtuvo a partir de pruebas t no apareadas de 2 colas. Línea discontinua, mediana; líneas punteadas, cuartiles superior e inferior. (E) Puntuaciones variantes de ProxRatioEach que muestran la proximidad de mutaciones sin sentido adyacentes en cada proteína, representadas en función de la posición del aminoácido utilizando la numeración 1 de la leucemia de linaje mixto (MLL). (F) El análisis de conglomerados filogenéticos Clustal Omega de las proteínas SET1/MLL humanas muestra tres clados divergentes en la especificidad del producto (me1, 2, 3 es el grado de metilación)33. (G) Comparación de las puntuaciones de conservación de la familia frente al clado en las posiciones de aminoácidos falsos positivos (FP) y verdaderos positivos (TP) de PolyPhen-2. ANOVA de dos vías comparó las medias dentro de los grupos. ****P < 0,0001; ns, P > 0,05.

En una clasificación de grupos adicional, FATHMM llamó correctamente a las 12 mutaciones neutrales que no estaban dentro de los cinco grupos de grupos. FATHMM predijo correctamente los impactos funcionales de solo el 6 % de las 51 mutaciones LOF, con inferencias FN para el 94 %. FATHMM tuvo resultados mixtos para las variantes dentro de los grupos estructurales. Tres residuos del grupo 3 altamente conservados se denominaron correctamente como TP; FATHMM carecía de sensibilidad para llamar a las variantes LOF restantes a pesar de una pérdida de actividad similar (Fig. 4A).

PolyPhen-2 agrupó las 99 mutaciones de sentido erróneo predominantemente en dos grupos (Fig. 4B): el 95 % tenía puntuaciones > 0,8, prediciendo "probablemente dañinas". Las mutaciones con actividad < 50% de tipo salvaje (53,5% del total) representaron predicciones de TP. Todos menos 4 de los restantes (42 % del total) con actividad > 50 % de tipo salvaje representan predicciones de FP. PoylPhen-2 incorporó información estructural en las predicciones7, pero a diferencia de FATHMM, carecía de precisión para distinguir adecuadamente las inferencias de FP de TN.

La mutación sin sentido agrupada de CancerVar en 4 regiones (Fig. 4C): el 53 % tenía puntuaciones OPAI ≥ 0,95 y se predijo que era oncogénica. Las mutaciones con actividad < 50 % del tipo salvaje representan predicciones TP (33 %) y FN (19 %), mientras que las mutaciones con actividad > 50 % del tipo salvaje representan predicciones FP (18 %) y TN (29 %).

Juntos, aunque los programas muestran un acuerdo general para las pocas mutaciones en las posiciones de los aminoácidos con información funcional previa, se esforzaron por clasificar correctamente el impacto de las mutaciones restantes, a pesar de incorporar información estructural en la predicción. Estos resultados refuerzan la necesidad de métodos de anotación bioquímica de alto rendimiento adicionales para identificar las variables que son más importantes para predicciones funcionales precisas.

Los resultados contradictorios de FATHMM, PolyPhen-2 y CancerVar subrayan las dificultades de inferir el impacto funcional de VUS utilizando programas de predicción que se basan principalmente en la conservación de secuencias aa. Para identificar las variables más importantes para predecir el impacto funcional en las enzimas MLL, el archivo complementario 2 tiene 14 parámetros explicativos potenciales que incluyen cambios en las propiedades físico-químicas de aa: número de átomos de la cadena lateral (Δátomos) o donantes o aceptores de enlaces de hidrógeno, carga, hidrofobicidad, el volumen de la cadena lateral y los cambios previstos en el despliegue de energía libre (ΔΔG) tras la mutación puntual. Las probabilidades de sustitución fueron de la matriz BLOSUM6273.

Probamos la inclusión de variables adicionales deducidas de las observaciones de anotaciones funcionales para mejorar las predicciones. Las mutaciones LOF se agruparon de forma no aleatoria en regiones estructurales específicas, lo que sugiere que la agrupación podría indicar una función alterada. Calculamos una "puntuación de grupo paralelo" de mutación de sentido erróneo (pClustScore) a partir de la proximidad de mutaciones de sentido erróneo adyacentes dentro de cada proteína (ProxScoreEach) y la proximidad del agregado de todas las mutaciones de sentido erróneo de los miembros de la familia MLL proyectados en una sola secuencia aa (ProxRatioAll ). La actividad enzimática promedio fue significativamente menor para las mutaciones de sentido erróneo con puntuaciones de grupo altas frente a bajas (P = 0,0001) (Fig. 4D). Las mutaciones sin sentido se agruparon en 4 grupos correspondientes al análisis estructural; el quinto grupo (dominio posterior a SET) mostró cierta agrupación (Fig. 4E, Fig. S7). Las diferencias en las distribuciones de mutaciones sin sentido entre los miembros de la familia sugirieron que un subgrupo de mutaciones sin sentido tenía efectos diferenciales en cada proteína.

Para comprender las razones de la gran cantidad de inferencias de PolyPhen-2 FP, estudiamos las diferencias en los puntajes de conservación de aa comparando las alineaciones de todos los dominios SET de la familia SET1 con miembros de cada subfamilia filogenética (clado). La comparación de los seis miembros de la familia humana SET1/MLL mostró tres clados que divergían en la especificidad del gen diana y del producto (número de metilaciones de H3K4) (Fig. 4F)33. Las predicciones de PolyPhen-2 TP mostraron poca diferencia en los puntajes promedio de conservación de la familia frente al clado. Las predicciones de FP tenían puntajes de conservación familiar significativamente más bajos que los puntajes de conservación de clado (P <0.0001) (Fig. 4G), lo que indica que a pesar de la alta conservación entre los ortólogos, las posiciones que diferían entre los parálogos habían disminuido la importancia predicha. Para probar si la inclusión de información filogenética mejoraba las predicciones funcionales, utilizamos Mutation Assessor74 para calcular las puntuaciones de impacto funcional (FI-Score) para cada mutación sin sentido. FI-Score se deriva de un enfoque de entropía combinatoria que calcula simultáneamente un puntaje de "conservación familiar" (VC-Score) y un "puntaje de especificidad" (VS-Score) basado en la conservación entre los ortólogos dentro de cada subclade74,75.

Los parámetros de agrupamiento (ProxRatioEach, ProxRatioAll, pClustScore) y los parámetros filogenéticos (puntajes FI, VC y VS) demostraron relaciones estadísticamente significativas con la actividad mutante en relación con el tipo salvaje, Actividad (Mut/WT) (P \(\ de Spearman le\) 0.01). Los parámetros ΔAtoms, ΔΔG y BLOSUM62 demostraron asociaciones débiles pero significativas con la actividad (Mut/WT) (P de Spearman = 0,04); otros parámetros físico-químicos no se correlacionaron significativamente (Fig. S8). Las contribuciones de las variables a la actividad (Mut/WT) se determinaron mediante regresión de componentes principales en 14 parámetros. De acuerdo con las correlaciones, los parámetros filogenéticos y de agrupamiento y BLOSUM62, ΔΔG y ΔAtoms fueron los principales contribuyentes a la variación en las tasas de metilación (Fig. S9). Usando solo estas covariables, se identificaron tres componentes principales que en conjunto representaron ~ 76 % de la variación (R2 = 0,61, P < 0,0001 cuando se realizó una regresión en Actividad (Mut/WT), Fig. S10). Los parámetros filogenéticos representaron la mayor proporción de la variación de datos observada (37%); los parámetros de agrupamiento contribuyeron más fuertemente a PC2 (27 %) y ΔAtoms a PC3 (12 %). Las puntuaciones de PC1 frente a PC2 revelaron agrupaciones separadas entre actividad enzimática baja y alta a lo largo de PC1 (Fig. 5A), lo que sugiere que los parámetros filogenéticos y de agrupación fueron los más predictivos de las tasas de metilación. FI-Score se asoció fuertemente con VC-Score, VS-Score (P de Spearman < 0,0001) y fue el parámetro filogenético para análisis posteriores. Debido a la fuerte asociación entre pClustScore y ProxRatioAll, y ProxRatioEach (P de Spearman < 0,0001), pClustScore representó parámetros de agrupamiento (Fig. S8).

Los parámetros filogenéticos y de agrupamiento predicen el impacto funcional de las variantes sin sentido asociadas al cáncer de significado incierto (VUS). (A) Biplot del componente principal (PC) de parámetros filogenéticos significativos (FI-Score, VC-Score y VS-Score), agrupamiento (pClustScore, ProxRatioAll, ProxRatioEach) y físico-químicos (ΔAtoms, Blosum62, ΔΔG). Rojo, VUS con actividad enzimática ≤ 50% de tipo salvaje (WT); azul, VUS con actividad > 50% de WT. Mut, mutante. (B) Árbol de clasificación de partición recursiva para la actividad enzimática utilizando los parámetros FI-score, pClustScore, ΔAtoms, Blosum62 y ΔΔG para MLL1-3 VUS. Círculos, nodos internos que se pueden dividir en subnodos; cajas, nodos terminales; rojo, VUS con actividad ≤ 50% de WT; azul, VUS con actividad > 50% de WT. Círculos, nodos de entrada de valores P; Los diagramas de caja de los valores de actividad (MT/WT) están en los nodos terminales. (Bondad de ajuste R2 = 0,65, RMSE = 0,22) (C) Matriz de confusión que muestra la precisión predictiva del árbol basada en el esquema de validación cruzada de diez veces. El algoritmo de partición recursivo se repitió85 con 10 rondas de ajuste, cada una de las cuales utilizó subconjuntos de datos elegidos al azar, con un 90 % de conjunto de entrenamiento y un 10 % de conjunto de prueba. DG) Parcelas reales frente a predichas. ejes X, actividad real; ejes y, actividad pronosticada basada en el modelo de regresión. Línea diagonal roja, línea de identidad; líneas discontinuas, corte para VUS con menos o más del 50% de actividad en peso. (D) Parámetros FI-Score y pClustScore como predictores. (E) Puntuación de inferencia FATHMM como predictor. (F) Puntuación de inferencia de PolyPhen-2 como predictor. (G) Puntaje de priorización oncogénica de CancerVar por inteligencia artificial (OPAI) como predictor. Se muestran los valores R2 ajustados.

Un árbol de regresión que utilizó un algoritmo de partición recursivo imparcial76 mostró cómo los parámetros filogenéticos, de agrupamiento y físicos influyeron en la variabilidad de la metilación entre las mutaciones de sentido erróneo. El primer punto de corte para distinguir variantes con actividad alta frente a baja se basó en FI-Score, una medida de conservación y diferencias filogenéticas entre parálogos (Fig. 5B). Casi todas las variantes de VUS con FI-Scores > 3,005 se clasificaron correctamente como LOF con muy baja actividad (P < 0,001). Para las variantes de VUS con FI-Scores ≤ 3,005, pClustScore se convirtió en el principal factor que distingue las variantes de alta y baja actividad. Los parámetros Blosum62, ΔAtoms y ΔΔG no fueron significativos. Por lo tanto, combinar FI-Score y pClustScore fue significativamente mejor para predecir el impacto funcional de las mutaciones VUS (R2 = 0,63) que FATHMM (R2 = 0,0002), PolyPhen-2 (R2 = 0,05) o CancerVar (R2 = 0,001) (Fig. 5D–G).

Para probar el poder predictivo de estos dos parámetros, repetimos el algoritmo de partición recursiva utilizando una validación cruzada de diez veces77. FI-Score y pClustScore predijeron correctamente el impacto funcional de ~ 92 % de las variantes de VUS (Fig. 5C, Tabla S1), (en comparación con 51 % FATHMM, 55 % PolyPhen-2, 62 % CancerVar Tabla S2). Por lo tanto, las predicciones de impacto funcional mejoraron significativamente al combinar la información de conservación de aa en todas las proteínas relacionadas más la conservación de posiciones clave entre ortólogos que diferencian funciones únicas de parálogos, con densidad de agrupación de mutaciones sin sentido que definen áreas funcionales de pliegues de proteínas.

Describimos el método PFA rápido y económico para anotar funcionalmente VUS sin purificación enzimática, modelado utilizando enzimas de modificación de histonas. La recopilación de información funcional sobre 99 mutaciones tomó de 1 a 2 semanas de trabajo de banco. Los resultados para un subgrupo de mutaciones de sentido erróneo fueron similares a las caracterizaciones anteriores, lo que validó la PFA. Contrariamente a los algoritmos de predicción, encontramos que el 62 % de las mutaciones de VUS dan como resultado la pérdida de la actividad de la histona metiltransferasa, mientras que el 35 % no mostró defectos observables, lo que sugiere que son mutaciones pasajeras o que interrumpen una actividad que no está presente en el ensayo. De las mutaciones de VUS, el 3 % condujo a una ganancia o cambio de función observable, incluido uno con alteraciones en la especificidad del producto similares a las observadas en un dominio SET de EZH2, que actualmente está siendo el objetivo terapéutico como tratamiento del linfoma71,72 ,78,79,80. Además, identificamos nuevas variantes LOF y GOF en posiciones aa no caracterizadas.

PFA es más útil para la detección paralela de un gran número de mutaciones sin sentido para la función enzimática alterada. La PFA se modifica fácilmente para detectar mutaciones en subunidades no enzimáticas siempre que sean necesarias para la actividad enzimática, para estimar parámetros cinéticos preliminares (p. ej., Vmax) y detectar variantes sensibles a compuestos inhibidores o potenciadores. Otros ensayos acoplados basados en fluorescencia que miden la formación de S-adenosil-homocisteína34 requieren una enzima purificada para reducir la metilación fuera del objetivo o la extinción de la fluorescencia. PFA utiliza extractos crudos, sustratos biotinilados y FlashPlates, lo que elimina los pasos para purificar la proteína y eliminar el 3H-SAM no incorporado antes de la medición. El PFA se puede utilizar para otras enzimas de modificación de histonas, si se expresa funcionalmente en E. coli.

Los inconvenientes incluyen la falta de modificaciones postraduccionales, si es necesario para la actividad. Es probable que el ensayo pase por alto mutaciones que no alteran la actividad enzimática pero afectan las interacciones de GOF con proteínas o ácidos nucleicos ausentes en el ensayo. No obstante, PFA produjo información sobre predicciones computacionales basadas en secuencias y sugirió mecanismos para las contribuciones de VUS al cáncer.

Al combinar la anotación funcional de tres parálogos, descubrimos parámetros filogenéticos y de agrupamiento basados en secuencias que mejoraron drásticamente las predicciones funcionales en tres programas de predicción computacional. Notamos que la mayoría de las posiciones de mutación de Polyphen-2 FP se conservaron entre los ortólogos, pero no entre los parálogos. Los programas computacionales que ignoran estas diferencias filogenéticas probablemente disminuyan la importancia de las posiciones aa que están altamente conservadas dentro de un subclado filogenético, pero difieren entre subclados que divergieron para funciones específicas. Nuestra observación de que los seis miembros de la familia humana SET1/MLL caen en tres subclades filogenéticos que divergen en la especificidad del producto (Fig. 4E)33 puede explicar por qué los programas FATHMM, PolyPhen-2 y CancerVar lucharon para predecir el impacto funcional de MLL VUS (Tabla S2 ).

La importancia de la información filogenética en la predicción funcional se reconoció en un enfoque de entropía combinatoria con Mutation Assessor74,75 que proporciona una puntuación FI de mutación sin sentido basada en la conservación general de una posición aa y la conservación de "residuos de especificidad" que difieren entre parálogos74. Para PFA, FI-Score explicó la mayor proporción de variación en las tasas de metilación entre las mutaciones MLL (36 %, Fig. S10), una mejora significativa sobre los parámetros físico-químicos y BLOSUM62 combinados, lo que explicó < 10 % de la variación de la tasa de metilación. FI-score fue necesario pero no suficiente para las mejores predicciones funcionales.

El análisis de proximidad de mutaciones sin sentido ha identificado genes impulsores potenciales basados en la agrupación en dominios funcionales, lo que indica una selección positiva. Varios enfoques utilizan enfoques basados en secuencias o basados en estructuras para identificar cuantitativamente grupos de mutaciones de sentido erróneo en oncogenes81,82,83. Dada la escasez de información estructural para la mayoría de las proteínas, son deseables parámetros basados en secuencias. Los algoritmos de agrupamiento basados en secuencias se centran predominantemente en la identificación de oncogenes potenciales, pero pueden ser útiles para identificar las características estructurales necesarias para la función. Encontramos que la mayoría de las mutaciones LOF se agruparon alrededor de al menos cuatro elementos estructurales únicos involucrados en la unión del sustrato o cofactor, o en el ensamblaje complejo. Notamos diferencias en los patrones de agrupamiento entre parálogos que pueden reflejar diferencias en los mecanismos de inactivación. Con base en la analogía del evaluador de mutaciones, calculamos una puntuación de agrupamiento VUS que explica estas diferencias. El parámetro pClustScore predijo mejor las tasas de metilación que los parámetros ProxRatioAll y/o ProxRatioEach (Tabla S3), lo que demuestra la complementariedad.

La combinación de FI-Score con pClustScore describió ~ 70% de la variabilidad de la tasa de metilación, sin contribuciones de los parámetros físico-químicos que se usan a menudo en los algoritmos de predicción. Este nivel de variabilidad fue suficiente para predecir los impactos funcionales de VUS con una precisión de hasta ~ 90 %. Estos resultados sugieren que los parámetros filogenéticos y de agrupamiento del análisis paralelo de los miembros de la familia proporcionaron limitaciones importantes para modelar con precisión el impacto funcional de las mutaciones VUS, particularmente para familias con múltiples parálogos.

Este trabajo demuestra cómo el aumento del conocimiento del impacto de las mutaciones de sentido erróneo en la estructura de la proteína y la bioquímica mejora las anotaciones funcionales generales. La aplicación de métodos similares de alto rendimiento con otras proteínas ayudará a identificar todos los parámetros necesarios para predicciones funcionales precisas, ampliamente aplicables y basadas en secuencias de mutaciones sin sentido asociadas con enfermedades.

Los plásmidos de expresión de pGST que codifican los 260 aa C-terminales de cada miembro de la familia MLL de tipo salvaje se usaron como plantillas33. Las construcciones de la familia MLL consistían en residuos MLL1 (3745–3969) (KMT2A, UniprotKB ID Q03164); MLL2 (también conocido como MLL4) (5319–5537) (KMT2B(D), (UniprotKB ID O14686) y MLL3 (4689–4911) (KMT2C, UniprotKB ID Q8NEZ4). La mutagénesis dirigida al sitio se realizó con el kit QuickChange II XL ( Se utilizó la secuenciación Sanger interna para confirmar la presencia de la variante de secuencia deseada y la ausencia de mutaciones no deseadas.

Se usaron colonias de células de E. coli transformadas (Rosetta II (DE3) pLysS, Novagen) para inocular 5 ml de medio TBII con 50 µg/ml de carbenicilina y 25 µg/ml de cloranfenicol y los cultivos se cultivaron durante la noche con agitación a 30 °C. Para PFA, se añadieron 0,1 ml de cultivo durante la noche a 5 ml de TBII fresco con 50 µg/ml de carbenicilina y 25 µg/ml de cloranfenicol y se cultivaron a 37 °C con agitación a 200 rpm hasta una DO600 ~ 1,0. Los cultivos se enfriaron en hielo durante 30 min, se indujeron con IPTG 1 mM y se agitaron a 200 rpm durante 24 h a 16 °C. Las células se recogieron mediante centrifugación a 4000 rpm a 4 °C y los sedimentos se resuspendieron en tampón de lisis (Tris 50 mM pH 7,5, TCEP 1 mM, NaCl 300 mM, ZnCl2 1 µM) complementado con un inhibidor completo de la proteasa en comprimidos sin EDTA (Roche Applied Science), 1XBugBuster (Novagen) y 0,25 mg/ml de ADNasa A. Los sedimentos resuspendidos se incubaron a 4 °C con rotación suave durante 3 h. Los lisados celulares se recogieron mediante centrifugación a 20 000 RPM a 4 °C. Se recogió el sobrenadante y se desecharon los sedimentos. Los lisados se dividieron en alícuotas, se congelaron rápidamente y se almacenaron a -80 °C. El nivel de expresión de cada mutante se determinó mediante SDS PAGE al 4–15 % utilizando geles Mini-PROTEAN TGX (Bio-Rad) y tinción con Coomassie. Las imágenes y la densitometría utilizaron un Bio-Rad Chemidoc Imager. La expresión y purificación de las subunidades del complejo central de MLL WDR5, RbBP5, Ash2L y DPY-30 fueron como se describió previamente33.

Los péptidos de histona H3 no modificados y monometilados H3K4 (residuos 1-20) etiquetados con GGK-biotina y amidación C-terminal fueron sintetizados por GenScript y purificados a una pureza > 95 %. Para los ensayos de metiltransferasa, se incubó un volumen igual de lisado de tipo salvaje o mutante con WRAD 3 µM, péptido H3 250 µM (no modificado o monometilado) y 1–2 µCi [3H]-SAM (PerkinElmer Life Sciences) en tampón de ensayo ( Tris 20 mM pH 8,5, TCEP 1 mM, NaCl 200 mM, ZnCl2 1 µM). Las muestras se incubaron a 15 °C durante 30 min. Los lisados de células transformadas con vector vacío (pGST II) o plásmidos de tipo salvaje no inducidos sirvieron como controles negativos. Las reacciones se extinguieron con EDTA 0,5 M (1:1, v:v). Las reacciones extinguidas se llevaron a 200 µl utilizando tampón de ensayo con EDTA 0,5 M y BSA 0,2 mg/ml y se transfirieron a microplacas FlashPlate recubiertas con estreptavidina de 96 pocillos (PerkinElmer). Las muestras se incubaron durante la noche a 4 °C para permitir la unión del péptido H3 biotinilado a la superficie recubierta de estreptavidina antes del recuento por centelleo en un lector de microplacas Hidex Sense Plus (LabLogic). Para los ensayos de fluorografía basados en gel, las reacciones se extinguieron con tampón de carga SDS y se separaron con BisTris SDS-PAGE al 4-12 % (LifeTechnologies) a 200 V durante 30 min. Los geles se tiñeron con Coomassie, se tomaron imágenes y luego se colocaron en una solución de mejora (Enlightening, PerkinElmer Life Sciences) durante 30 minutos a temperatura ambiente. Los geles se secaron durante 2,5 h a 72 °C bajo vacío constante y se expusieron a una película (Eastman Kodak Co. Biomax MS Film) a -80 °C durante 6–72 h antes de revelar. Se usó densitometría utilizando el software ChemiDoc ImageLab (BioRad) para cuantificar la metilación del péptido H3.

pClustScore se derivó de la suma de dos parámetros de proximidad calculados utilizando una modificación del enfoque de Tamborero et al.81. Los parámetros de proximidad de mutaciones sin sentido se calcularon contando el número de mutaciones sin sentido en una ventana +/- 7 aa alrededor de cada mutación, luego dividiendo por la distancia a la mutación sin sentido más cercana. La ventana de mutaciones se eligió en base a un análisis que muestra que el 25 % de todas las mutaciones vecinas en la base de datos del Catálogo de mutaciones somáticas en el cáncer (COSMIC) están dentro de los 7 aa entre sí, lo que representa el primer cuartil de las distancias al vecino más cercano83. ProxRatioEach se calculó en función de la proximidad de las mutaciones de sentido erróneo dentro de cada proteína y ProxRatioAll se calculó para las mutaciones combinadas de los tres miembros de la familia proyectados en una única secuencia. ProxRatioAll y ProxRatioEach se correlacionaron (Fig. S8), lo que indica que proporcionan medidas complementarias de proximidad mutacional. Por lo tanto, sumamos los dos valores para derivar el único parámetro de agrupamiento pClustScore. El análisis de regresión múltiple mostró que pClustScore fue más preciso en la predicción de las tasas de metilación de H3K4 que cualquier parámetro solo, o cuando ambos parámetros se usaron sin suma (Tabla S3).

El análisis de regresión de componentes principales se realizó con GraphPad Prism versión 9.3.0 para MacOS (GraphPad Software, San Diego, California, EE. UU.). La selección de componentes se basó en los componentes principales con los valores propios más grandes que en conjunto explicaron al menos el 75% de la varianza total. La regresión recursiva del árbol de partición se realizó utilizando la implementación web basada en R del paquete R como se describe76,84. La validación del modelo se realizó mediante una validación cruzada de diez veces con categorización por cuantiles76, utilizando el 90 % de los datos como conjunto de entrenamiento y el 10 % para probar el modelo. La validación se repitió 10 veces utilizando un conjunto diferente de entrenamiento y prueba elegido al azar.

Los datos generados y/o analizados durante el estudio actual se incluyen en este artículo publicado (y sus archivos de información complementaria).

Buniello, A. et al. El catálogo NHGRI-EBI GWAS de estudios de asociación de todo el genoma publicados, matrices específicas y estadísticas resumidas 2019. Nucleic Acids Res. 47, D1005–D1012 (2019).

Artículo CAS PubMed Google Académico

Greenman, C. et al. Patrones de mutación somática en genomas de cáncer humano. Naturaleza 446, 153–158 (2007).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Shihab, HA et al. Un enfoque integrador para predecir los efectos funcionales de la variación de la secuencia codificante y no codificante. Bioinformática 31, 1536–1543 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Kircher, M. et al. Un marco general para estimar la patogenicidad relativa de las variantes genéticas humanas. Nat. Gineta. 46, 310–315 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Ritchie, GR, Dunham, I., Zeggini, E. y Flicek, P. Anotación funcional de variantes de secuencias no codificantes. Nat. Métodos 11, 294–296 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Itan, Y. & Casanova, JL ¿Se puede predecir el impacto de las variaciones genéticas humanas?. proc. nacional Academia ciencia EE. UU. 112, 11426–11427 (2015).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Adzhubei, IA et al. Un método y un servidor para predecir mutaciones sin sentido dañinas. Nat. Métodos 7, 248–249 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Kamburov, A. et al. Evaluación integral de la agrupación de mutaciones sin sentido del cáncer en estructuras de proteínas. proc. nacional Academia ciencia EE. UU. 112, E5486-5495 (2015).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Martelotto, LG et al. Comparación de algoritmos de predicción del efecto de mutación utilizando mutaciones sin sentido relacionadas con el cáncer funcionalmente validadas. genoma Biol. 15, 484 (2014).

Artículo Google Académico

Pugh, TJ y col. La secuenciación del exoma del meduloblastoma descubre mutaciones somáticas específicas del subtipo. Naturaleza 488, 106–110 (2012).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Jones, DT et al. Disección de la complejidad genómica subyacente al meduloblastoma. Naturaleza 488, 100–105 (2012).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Kudithipudi, S. & Jeltsch, A. Papel de las mutaciones del cáncer somático en la proteína humana lisina metiltransferasas. bioquimica Biografía. Acta 1846, 366–379 (2014).

CAS PubMed Google Académico

Weirich, S., Kudithipudi, S. & Jeltsch, A. Las mutaciones de cáncer somático en la histona metiltransferasa MLL1 modulan su actividad enzimática y su dependencia del complejo WDR5/RBBP5/ASH2L. mol. oncol. 11, 373–387 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Rong, G. et al. Respuesta al daño del ADN como indicador pronóstico en el cáncer de mama metastásico mediante análisis mutacional. Ana. Traducir Medicina. 9, 220 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Chang, YC et al. La secuenciación dirigida de próxima generación identificó mutaciones novedosas en neoplasias mieloproliferativas triple negativas. Medicina. oncol. 34, 83 (2017).

Artículo PubMed Google Académico

Dai, W. et al. La secuenciación del exoma completo revela genes críticos que subyacen a la metástasis en el carcinoma de células escamosas de esófago. J. Pathol. 242, 500–510 (2017).

Artículo CAS PubMed Google Académico

D'Afonseca, V. et al. Identificación de genes alterados en el cáncer de vesícula biliar como posibles mutaciones impulsoras con fines de diagnóstico y pronóstico: un enfoque computacional. Informe sobre el cáncer. 19, 1176935120922154 (2020).

Artículo PubMed PubMed Central Google Académico

Chen, C. et al. MLL3 es un supresor tumoral 7q haploinsuficiente en la leucemia mieloide aguda. Cancer Cell 25, 652–665 (2014).

Artículo PubMed PubMed Central Google Académico

Lohr, JG et al. Descubrimiento y priorización de mutaciones somáticas en el linfoma difuso de células B grandes (DLBCL) mediante secuenciación del exoma completo. proc. nacional Academia ciencia EE. UU. 109, 3879–3884 (2012).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Rao, RC & Dou, Y. Hijacked in cancer: The KMT2 (MLL) family of methyltransferases. Nat. Rev. Cáncer 15, 334–346 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Wu, HT et al. MLL3 inducida por luteolina causa apoptosis en células de cáncer de mama resistentes a tamoxifeno a través de la monometilación de H3K4 y la supresión de la vía PI3K/AKT/mTOR. Soy. J. barbilla. Medicina. 48, 1221–1241 (2020).

Artículo CAS PubMed Google Académico

Rampias, T. et al. La metiltransferasa KMT2C/MLL3 específica de lisina regula los componentes de reparación del ADN en el cáncer. EMBO Rep. 20(3), e46821 (2019).

Artículo PubMed PubMed Central Google Académico

Wong, SH et al. El epigenoma H3K4-metilo regula el potencial oncogénico de las células madre de la leucemia. Cancer Cell 28, 198–209 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Shilatifard, A. La familia COMPASS de metilasas de histona H3K4: mecanismos de regulación en el desarrollo y patogénesis de la enfermedad. año Rev. Bioquímica. 81, 65–95 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Gao, J. et al. Análisis integrativo de la genómica compleja del cáncer y perfiles clínicos utilizando el cBioPortal. ciencia Señal. https://doi.org/10.1126/scisignal.2004088 (2013).

Artículo PubMed PubMed Central Google Académico

Muntean, AG & Hess, JL La patogenia de la leucemia de linaje mixto. año Reverendo Pathol. 7, 283–301 (2012).

Artículo CAS PubMed Google Académico

Tate, JG et al. COSMIC: El catálogo de mutaciones somáticas en el cáncer. Ácidos Nucleicos Res. 47, D941–D947 (2019).

Artículo CAS PubMed Google Académico

Egan, JB et al. (2017) El modelado molecular y el análisis funcional de las variantes derivadas de la secuenciación del exoma de significado desconocido identifican un nuevo mutante FGFR2 constitutivamente activo en el colangiocarcinoma. JCO Precis Oncol https://doi.org/10.1200/PO.17.000182017.

Shihab, HA, Gough, J., Cooper, DN, Day, IN & Gaunt, TR Predicción de las consecuencias funcionales de las sustituciones de aminoácidos asociadas al cáncer. Bioinformática 29, 1504–1510 (2013).

Artículo CAS PubMed PubMed Central Google Scholar

Li, Q. et al. CancerVar: una plataforma potenciada por inteligencia artificial para la interpretación clínica de mutaciones somáticas en el cáncer. ciencia Adv. 8, eabj1624 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Dou, Y. et al. Regulación de la actividad de la metiltransferasa MLL1 H3K4 por sus componentes principales. Nat. Estructura. mol. Biol. 13, 713–719 (2006).

Artículo CAS PubMed Google Académico

Patel, A., Dharmarajan, V., Vought, VE & Cosgrove, MS Sobre el mecanismo de metilación múltiple de lisina por el complejo central de la proteína-1 de leucemia de linaje mixto humano (MLL1). J. Biol. química 284, 24242–24256 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Shinsky, SA, Monteith, KE, Viggiano, S. y Cosgrove, MS Reconstitución bioquímica y comparación filogenética de los complejos centrales de la familia SET1 humana involucrados en la metilación de histonas. J. Biol. química 290, 6361–6375 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Quinn, AM & Simeonov, A. Métodos para el análisis de actividad de las proteínas que regulan la metilación de histonas. actual química genoma 5, 95–105 (2011).

Artículo CAS Google Académico

Patel, A., Vought, VE, Dharmarajan, V. & Cosgrove, MS Un motivo conservado que contiene arginina crucial para el ensamblaje y la actividad enzimática del complejo central de proteína-1 de leucemia de linaje mixto. J. Biol. química 283, 32162–32175 (2008).

Artículo CAS PubMed Google Académico

Patel, A., Vought, VE, Dharmarajan, V. & Cosgrove, MS Una nueva metiltransferasa de subunidades múltiples de dominio no SET requerida para la metilación secuencial de la histona H3 nucleosomal por el complejo central de la proteína-1 de leucemia de linaje mixto (MLL1). J. Biol. química 286, 3359–3369 (2011).

Artículo CAS PubMed Google Académico

Patel, A. et al. Las actividades de autometilación dentro del complejo central de leucemia de linaje mixto-1 (MLL1) revelan evidencia que respalda un modelo de "dos sitios activos" para la metilación de múltiples histonas H3 lisina 4. J. Biol. química https://doi.org/10.1074/jbc.M113.501064 (2013).

Artículo PubMed PubMed Central Google Académico

Shinsky, SA & Cosgrove, MS Rol único de la subunidad de la proteína 5 de repetición WD-40 (WDR5) dentro del complejo de histona metiltransferasa de leucemia de linaje mixto 3 (MLL3). J. Biol. química 290, 25819–25833 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Shinsky, SA et al. Una superficie de dominio SET de sitio no activo crucial para la interacción de MLL1 y el heterodímero RbBP5/Ash2L dentro de los complejos centrales de la familia MLL. J. Mol. Biol. 426, 2283–2299 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Sievers, F. & Higgins, DG Clustal omega, alineación precisa de un gran número de secuencias. Métodos Mol. Biol. 1079, 105–116 (2014).

Artículo CAS PubMed Google Académico

Laskowski, RA PDBsum cosas nuevas. Ácidos Nucleicos Res. 37, D355-359 (2009).

Artículo CAS PubMed Google Académico

Southall, SM, Wong, PS, Odho, Z., Roe, SM y Wilson, JR Base estructural para el requisito de factores adicionales para la actividad del dominio MLL1 SET y el reconocimiento de marcas epigenéticas. mol. Celda 33, 181–191 (2009).

Artículo CAS PubMed Google Académico

Zhang, Y. et al. Evolución de las propiedades catalíticas del dominio SET de la familia MLL. Estructura 23, 1921-1933 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Li, Y. et al. Base estructural para la regulación de la actividad de las metiltransferasas de la familia MLL. Naturaleza 530, 447–452 (2016).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Xiao, B., Wilson, JR & Gamblin, SJ Dominios SET y metilación de histonas. actual Opinión Estructura. Biol. 13, 699–705 (2003).

Artículo CAS PubMed Google Académico

Banka, S. et al. Mutaciones en mosaico MLL2 y deleciones-duplicaciones intragénicas en pacientes con síndrome de Kabuki. clin. Gineta. 83, 467–471 (2013).

Artículo CAS PubMed Google Académico

Banka, S. et al. ¿Cuán genéticamente heterogéneo es el síndrome de Kabuki? Prueba de MLL2 en 116 pacientes, revisión y análisis de mutación y espectro fenotípico. EUR. J. Hum. Gineta. 20, 381–388 (2012).

Artículo CAS PubMed Google Académico

Cocciadiferro, D. et al. Disección de mutaciones missense de KMT2D en pacientes con síndrome de Kabuki. Tararear. mol. Gineta. 27, 3651–3668 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Hannibal, MC et al. Espectro de mutaciones MLL2 (ALR) en 110 casos de síndrome de Kabuki. Soy. J.Med. Gineta. A 155A, 1511-1516 (2011).

Artículo PubMed Google Académico

Kokitsu-Nakata, NM et al. Análisis del gen MLL2 en la primera familia brasileña con síndrome de Kabuki. Soy. J.Med. Gineta. A158A, 2003–2008 (2012).

Artículo PubMed Google Académico

Li, Y. et al. Una pantalla de mutación en pacientes con síndrome de Kabuki. Tararear. Gineta. 130, 715–724 (2011).

Artículo CAS PubMed Google Académico

Ng, SB et al. La secuenciación del exoma identifica las mutaciones MLL2 como causa del síndrome de Kabuki. Nat. Gineta. 42, 790–793 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Paulussen, AD et al. Espectro de mutación MLL2 en 45 pacientes con síndrome de Kabuki. Tararear. Mutat. 32, E2018-2025 (2011).

Artículo CAS PubMed Google Académico

Worden, EJ, Zhang, X. & Wolberger, C. Base estructural para el reconocimiento COMPASS de un nucleosoma ubiquitinado con H2B. Elife 9, e53199 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Xue, H. et al. Base estructural del reconocimiento y modificación de nucleosomas por MLL metiltransferasas. Naturaleza 573, 445–449 (2019).

Artículo ADS CAS PubMed Google Scholar

Parque, SH et al. Estructura crio-EM del complejo central MLL1 humano unido al nucleosoma. Nat. común 10, 5540 (2019).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Qu, Q. et al. Estructura y dinámica conformacional de un complejo de metiltransferasa de histona H3K4 de COMPASS. Celda 174 (1117–1126), e1112 (2018).

Google Académico

Rea, S. et al. Regulación de la estructura de la cromatina por histona H3 metiltransferasas específicas del sitio. Naturaleza 406, 593–599 (2000).

Artículo ADS CAS PubMed Google Scholar

Trievel, RC, Beach, BM, Dirk, LM, Houtz, RL & Hurley, JH Estructura y mecanismo catalítico de una proteína metiltransferasa del dominio SET. Celda 111, 91–103 (2002).

Artículo CAS PubMed Google Académico

Wilson, JR y col. Estructura cristalina y análisis funcional de la histona metiltransferasa SET7/9. Celda 111, 105-115 (2002).

Artículo CAS PubMed Google Académico

Zhang, X. et al. Estructura de la proteína de dominio SET de Neurospora DIM-5, una histona H3 lisina metiltransferasa. Celda 111, 117–127 (2002).

Artículo CAS PubMed PubMed Central Google Scholar

Dillon, SC, Zhang, X., Trievel, RC y Cheng, X. La superfamilia de proteínas del dominio SET: proteína lisina metiltransferasas. genoma Biol. 6, 227 (2005).

Artículo Google Académico

Zhang, X. et al. Base estructural para la especificidad del producto de histona lisina metiltransferasas. mol. Celda 12, 177–185 (2003).

Artículo PubMed PubMed Central Google Académico

Collins, RE et al. Análisis in vitro e in vivo de un interruptor Phe/Tyr que controla la especificidad del producto de las histonas lisina metiltransferasas. J. Biol. química 280, 5563–5570 (2005).

Artículo CAS PubMed Google Académico

Couture, JF, Dirk, LM, Brunzelle, JS, Houtz, RL y Trievel, RC Orígenes estructurales para la especificidad del producto de las proteínas metiltransferasas del dominio SET. proc. nacional Academia ciencia EE. UU. 105, 20659–20664 (2008).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Zhang, X. & Bruice, TC Mecanismo enzimático y especificidad del producto de la proteína lisina metiltransferasas del dominio SET. proc. nacional Academia ciencia EE. UU. 105, 5728–5732 (2008).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Qian, C. et al. Conocimientos estructurales de la especificidad y la catálisis de una histona viral H3 lisina 27 metiltransferasa. J. Mol. Biol. 359, 86–96 (2006).

Artículo CAS PubMed Google Académico

Trievel, RC, Flynn, EM, Houtz, RL & Hurley, JH Mecanismo de metilación múltiple de lisina por la enzima del dominio SET Rubisco LSMT. Nat. Estructura. Biol. 10, 545–552 (2003).

Artículo CAS PubMed Google Académico

Xiao, B. et al. Especificidad y mecanismo de la histona metiltransferasa Pr-Set7. Genes Dev. 19, 1444–1454 (2005).

Artículo CAS PubMed PubMed Central Google Scholar

Xiao, B. et al. Estructura y mecanismo catalítico de la histona metiltransferasa humana SET7/9. Naturaleza 421, 652–656 (2003).

Artículo ADS CAS PubMed Google Scholar

Wigle, TJ y col. La mutación Y641C de EZH2 altera la especificidad del sustrato para los estados de metilación de la histona H3 lisina 27. FEBS Lett. 585, 3011–3014 (2011).

Artículo CAS PubMed Google Académico

Morin, RD, Arthur, SE y Assouline, S. El tratamiento del linfoma ahora es un poco EZ-er. Sangre Adv. 5, 2256–2263 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Henikoff, S. & Henikoff, JG Matrices de sustitución de aminoácidos de bloques de proteínas. proc. nacional Academia ciencia EE. UU. 89, 10915–10919 (1992).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Reva, B., Antipin, Y. & Sander, C. Predicción del impacto funcional de las mutaciones de proteínas: aplicación a la genómica del cáncer. Ácidos Nucleicos Res. 39, e118 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Reva, B., Antipin, Y. & Sander, C. Determinantes de la función de la proteína revelados por optimización de entropía combinatoria. genoma Biol. 8, R232 (2007).

Artículo Google Académico

Wessa, P. Particionamiento recursivo (árboles de regresión) (v1.0.5) en software gratuito de estadísticas (v1.2.1). Oficina para el Desarrollo de la Investigación y la Educación. http://www.wessa.net/rwasp_regression_trees.wasp/ Consultado el 12 de diciembre de 2021 (2016).

Vihinen, M. ¿Cómo evaluar el rendimiento de los métodos de predicción? Medidas y su interpretación en el análisis del efecto de variación. Genoma BMC. 13 (Suplemento 4), S2 (2012).

Artículo Google Académico

Morin, RD et al. Mutaciones somáticas que alteran EZH2 (Tyr641) en linfomas foliculares y difusos de células B grandes de origen en el centro germinal. Nat. Gineta. 42, 181–185 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Swalm, BM et al. Acoplamiento de reacción entre el mutante EZH2 de tipo salvaje y el asociado a la enfermedad. ACS química. Biol. 9, 2459–2464 (2014).

Artículo CAS PubMed Google Académico

Yap, DB et al. Las mutaciones somáticas en EZH2 Y641 actúan de manera dominante a través de un mecanismo de actividad catalítica de PRC2 alterada selectivamente, para aumentar la trimetilación de H3K27. Sangre 117, 2451–2459 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Tamborero, D., Gonzalez-Perez, A. & Lopez-Bigas, N. OncodriveCLUST: Explotación del agrupamiento posicional de mutaciones somáticas para identificar genes del cáncer. Bioinformática 29, 2238–2244 (2013).

Artículo CAS PubMed Google Académico

Porta-Pardo, E. & Godzik, A. e-Driver: Un método novedoso para identificar regiones de proteínas que impulsan el cáncer. Bioinformática 30, 3109–3114 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Dees, ND et al. MuSiC: Identificación de la importancia mutacional en los genomas del cáncer. genoma Res. 22, 1589–1598 (2012).

Artículo CAS Google Académico

Everitt, BS & Hothorn, T. Un manual de análisis estadísticos usando R 2nd edn. (Prensa CRC, 2009).

Matemáticas Google Académico

Kohavi, R. Un estudio de validación cruzada y bootstrap para estimación de precisión y selección de modelos. proc. En t. Jt. Conf. Artefacto Intel. 2, 1137–1143 (1995).

Google Académico

Descargar referencias

Agradecemos a Steve Hanes, Bruce Knutson y Jimmy Hougland por su útil debate. Agradecemos a Anne Smardon y Michael Connelly por la lectura crítica del manuscrito y a Chris Tachibana por la edición. Este trabajo fue financiado por NIH R01 CA140522 y por Carol M. Baldwin Breast Cancer Research Fund de CNY a MSC

Departamento de Bioquímica y Biología Molecular, Universidad Estatal de Nueva York (SUNY) Upstate Medical University, 4261 Weiskotten Hall, Syracuse, NY, 13210, EE. UU.

Ashley J. Canning, Susan Viggiano y Michael S. Cosgrove

Centro Schulze de Nuevas Terapéuticas, División de Investigación Oncológica, Clínica Mayo, Rochester, MN, EE. UU.

Martín E. Fernández-Zapico

También puede buscar este autor en PubMed Google Scholar

AJC y MSC realizaron análisis de datos y redactaron el manuscrito. SV recopiló datos y MSC y MFZ conceptualizaron el estudio. Todos los autores contribuyeron con revisiones editoriales.

Correspondencia a Michael S. Cosgrove.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Canning, AJ, Viggiano, S., Fernandez-Zapico, ME et al. Anotación funcional paralela de mutaciones de sentido erróneo asociadas con el cáncer en las histonas metiltransferasas. Informe científico 12, 18487 (2022). https://doi.org/10.1038/s41598-022-23229-2

Descargar cita

Recibido: 10 junio 2022

Aceptado: 27 de octubre de 2022

Publicado: 02 noviembre 2022

DOI: https://doi.org/10.1038/s41598-022-23229-2

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.