Información

Probabilidades en el cálculo del coeficiente de parentesco

Probabilidades en el cálculo del coeficiente de parentesco


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

He estado leyendo para tratar de entender cómo se calcula el coeficiente de parentesco (o coeficiente de coancestría). https://brainder.org/2015/06/13/genetic-resemblance-between-relatives/ esta es la mejor explicación que he podido encontrar hasta ahora. Sin embargo, no he podido encontrar una explicación que haga una distinción clara entre genes y alelos.

En mi lectura inicial de lo anterior, tomé en cuenta este hecho y asumí que, a menudo, cuando el autor escribió gen, se refería a alelo (una suposición que ahora creo que es incorrecta) y, por lo tanto, la identidad por descendencia de un solo alelo entre individuos ser suficiente para satisfacer el parentesco en el contexto de la definición del coeficiente de parentesco. Esto me lleva a la confusión al leer el coeficiente de parentesco como se define matemáticamente a partir de los coeficientes de identidad condensados:

D1 + 1/2 (D3 + D5 + D7) + 1/4 (D8)

Seguramente, pensé, el coeficiente de parentesco debería ser simplemente la suma de las probabilidades de todas las formas posibles en las que los dos individuos pueden compartir el mismo alelo. Por tanto, no hay razón para multiplicar la suma de D3, D5 y D7 por 1/2 y D8 por 1/4.

Finalmente a mi pregunta; El coeficiente de parentesco se define como la probabilidad de que dos individuos sean idénticos por descendencia en un solo gen seleccionado al azar. Recordando esto, es la razón por la que se calcula de esta manera porque para que el gen entre individuos sea completamente idéntico en el caso de D3, D5 y D7, se requiere un alelo idéntico adicional de uno de los padres (un evento con una probabilidad de 1/2), y en el caso de D8 se requieren alelos idénticos adicionales de ambos padres (un evento con una probabilidad de 1/4)?

Estaría muy agradecido si alguien pudiera aclararme por qué se calcula de esta manera.


Estimación FS T y parentesco para estructuras de población arbitrarias

Afiliaciones Duke Center for Statistical Genetics and Genomics, Duke University, Durham, North Carolina, Estados Unidos de América, Departamento de Bioestadística y Bioinformática, Duke University, Durham, North Carolina, Estados Unidos de América

Conceptualización de roles, Análisis formal, Adquisición de fondos, Investigación, Metodología, Redacción - borrador original, Redacción - revisión y edición

Afiliación Lewis-Sigler Institute for Integrative Genomics, Princeton University, Princeton, Nueva Jersey, Estados Unidos de América


Inferencia de la relación a partir de los datos genéticos de los padres o la descendencia: un estudio comparativo

La inferencia de relaciones en una población es de interés para muchas áreas de investigación, desde la antropología hasta la genética. Es posible inferir directamente la relación entre los dos individuos de una pareja a partir de sus datos genéticos o inferirla indirectamente a partir de los datos genéticos de uno de sus descendientes. Por esta razón, uno puede preguntarse si es más ventajoso muestrear parejas o individuos solteros para estudiar las relaciones de parejas en una población. De hecho, el muestreo de dos individuos es más informativo que el de uno, ya que estamos viendo cuatro haplotipos en lugar de dos, pero también duplica el costo del estudio y es un esquema de muestreo más complejo.

Para responder a esta pregunta, realizamos simulaciones de 1000 tríos de 10 relaciones diferentes utilizando haplotipos humanos reales para tener datos genéticos realistas en todo el genoma. Luego, comparamos los coeficientes de compartición del genoma y la inferencia de la relación obtenida de un par de individuos o de uno de sus descendientes utilizando enfoques de punto único y multipunto.

Observamos que para las relaciones más cercanas que el primo hermano, los pares de individuos fueron más informativos que uno de sus descendientes para la inferencia de relaciones, y los coeficientes de parentesco obtenidos de métodos de un solo punto dieron estimaciones de intercambio de genoma más precisas o equivalentes. Para las relaciones más remotas, la descendencia fue más informativa para la inferencia de la relación, y los coeficientes de consanguinidad obtenidos de métodos multipunto dieron estimaciones más precisas de compartir el genoma.

En conclusión, la inferencia de la relación de una pareja parental o de uno de sus descendientes proporciona información complementaria. Cuando sea posible, se debe alentar el muestreo de tríos, ya que podría permitir abarcar una gama más amplia de relaciones potenciales.


Fórmulas de conteo de caminos para coeficientes de parentesco generalizados y coeficientes de identidad condensados.

Con el campo en rápida expansión de la genética médica y el asesoramiento genético, la información genealógica es cada vez más abundante. En enero de 2009, el Departamento de Salud y Servicios Humanos de EE. UU. Publicó una versión actualizada y mejorada de la herramienta de historial de salud familiar basada en la web del Cirujano General [1]. Esta herramienta basada en la Web facilita a los usuarios el registro de su historial médico familiar. Los grandes pedigríes humanos extendidos son muy informativos para el análisis de vinculación. Los pedigríes que incluyen miles de miembros en 10-20 generaciones están disponibles a partir de poblaciones genéticamente aisladas [2, 3]. En genética humana, un árbol genealógico se define como "un diagrama simplificado de la genealogía de una familia que muestra las relaciones de los miembros de la familia entre sí y cómo se ha heredado un rasgo, una anomalía o una enfermedad específicos" [4]. Los pedigríes se utilizan para rastrear la herencia de una enfermedad específica, calcular las proporciones de riesgo genético, identificar a las personas en riesgo y facilitar el asesoramiento genético. Para calcular las razones de riesgo genético o identificar a los individuos en riesgo, necesitamos evaluar el grado de parentesco de dos individuos. De hecho, todas las medidas de parentesco se basan en el concepto de idéntico por descendencia (EII). Dos alelos son idénticos por descendencia si uno es una copia ancestral del otro o si ambos son copias del mismo alelo ancestral. El concepto de EII se debe principalmente a Cotterman [5] y Malecot [6] y se ha aplicado con éxito a muchos problemas de genética de poblaciones.

La medida más simple de relación entre dos individuos es su coeficiente de parentesco. El coeficiente de parentesco entre dos individuos i y j es la probabilidad de que un alelo seleccionado al azar de i y un alelo seleccionado al azar del mismo locus autosómico de j sean idénticos por descendencia. Para discriminar mejor entre diferentes tipos de pares de parientes, los coeficientes de identidad fueron introducidos por Gillois [7] y Harris [8] y promulgados por Jacquard [9]. Considerando los cuatro alelos de dos individuos en un locus autosómico fijo, hay 15 estados de identidad posibles. Sin tener en cuenta la distinción entre alelos derivados de la madre y del padre, obtenemos 9 estados de identidad condensados. Las probabilidades asociadas con cada estado de identidad condensado se denominan coeficientes de identidad condensados, que son útiles en una amplia gama de campos. Esto incluye el cálculo de las relaciones de riesgo para enfermedades cualitativas, el análisis de rasgos cuantitativos y el asesoramiento genético en medicina.

Hace algún tiempo que se conoce un algoritmo recursivo para calcular coeficientes de identidad condensados ​​propuesto por Karigl [10]. Este método requiere que se calcule un conjunto de coeficientes de parentesco generalizados, a partir de los cuales se obtienen coeficientes de identidad condensados ​​mediante una transformación lineal. Una limitación es que este enfoque recursivo no es escalable cuando se aplica a árboles genealógicos muy grandes. Se ha demostrado previamente que los coeficientes de parentesco para dos individuos 11-13] y los coeficientes de parentesco generalizados para tres individuos [14, 15] pueden calcularse eficientemente usando fórmulas de recuento de rutas junto con esquemas de codificación de rutas adaptados para gráficos genealógicos.

Motivados por la eficiencia de las fórmulas de conteo de caminos para calcular el coeficiente de parentesco para dos individuos y el coeficiente de parentesco generalizado para tres individuos, primero presentamos un marco para desarrollar fórmulas de conteo de caminos para calcular coeficientes de parentesco generalizados en relación con tres individuos, cuatro individuos y dos pares de individuos. Luego, presentamos fórmulas de conteo de caminos para todos los coeficientes de parentesco generalizados que tienen fórmulas recursivas propuestas por Karigl [10] y son suficientes para calcular coeficientes de identidad condensados. En resumen, nuestro objetivo final es utilizar fórmulas de recuento de rutas para el cálculo de coeficientes de parentesco generalizados, de modo que se pueda mejorar la eficiencia y la escalabilidad para el cálculo de coeficientes de identidad condensados.

Las principales aportaciones de nuestro trabajo son las siguientes:

(i) un marco para desarrollar fórmulas de conteo de caminos para coeficientes de parentesco generalizados

(ii) un conjunto de fórmulas de recuento de caminos para todos los coeficientes de parentesco generalizados que tienen fórmulas recursivas [10]

(iii) resultados experimentales que demuestran ganancias de rendimiento significativas para el cálculo de coeficientes de identidad condensados ​​basados ​​en nuestras fórmulas propuestas de recuento de rutas en comparación con el uso de fórmulas recursivas [10].

Esta sección describe los coeficientes de parentesco y los coeficientes de parentesco generalizados, los coeficientes de identidad y los coeficientes de identidad condensados ​​con más detalle. Los términos conceptuales para las fórmulas de conteo de caminos para tres y cuatro individuos se presentan en la Sección 2.3. Además, se presenta una descripción general de la derivación de fórmulas de recuento de rutas.

2.1. Coeficientes de parentesco y coeficientes de parentesco generalizados. El coeficiente de parentesco entre dos individuos ayh es la probabilidad de que un alelo elegido al azar en el mismo locus de cada uno sea idéntico por descendencia (IBD). Hay dos métodos para calcular el coeficiente de parentesco [[PHI] .ab]: el método recursivo [10] y el método de recuento de caminos [16]. Las fórmulas recursivas [10] para [[PHI] .ab] y [[PHI] .ab] son

[[PHI] .sub.ab] = 1/2 ([[PHI] .sub.fb] + [[PHI] .sub.mb]) si a no es un antepasado de b, [[PHI] .sub. aa] = 1/2 (1 + [[PHI] .sub.fm]) = 2 1/2 (1 + [F.sub.a]), (1)

donde fym denotan el padre y la madre de a, respectivamente, y [F.sub.a] es el coeficiente de consanguinidad de a.

La fórmula de conteo de rutas de Wright [16] para [[PHI] .sub.ab] es

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (2)

donde A es un ancestro común de ayb, PP es un conjunto de pares de caminos no superpuestos [??] [P.sub.Aa], [P.sub.Aa] [??] de A a ay b, r es la longitud de la ruta [PAa], s es la longitud de la ruta [PAb] y [FA] es el coeficiente de consanguinidad de A. el par [??] [P.sub.Aa], [P.sub.Ab] [??] no se superpone si y solo si los dos caminos no comparten individuos en común, excepto A.

Las fórmulas recursivas propuestas por Karigl [10] para los coeficientes de parentesco generalizados sobre tres individuos, cuatro individuos y dos pares de individuos se enumeran a continuación en (3), (4) y (5):

[[PHI] .sub.abc] = 1/2 + ([[PHI] .sub.fbc] + [[PHI] .sub.mbc]) si a no es un antepasado de bo c,

[[PHI] .sub.aab] = 1/2 ([[PHI] .sub.ab] + [[PHI] .sub.fmb])

si a no es un antepasado de b,

[[PHI] .sub.aaa] = 1/4 (1 + 3 [[PHI] .sub.fm]) = 1/4 (1 + 3 [F.sub.a]) & gt [[PHI] .sub .abcd] = 1/2 ([[PHI] .sub.fbcd] + [[PHI] .sub.mbcd]) (3)

si a no es un antepasado de bo c o d,

[[PHI] .sub.aabc] = 1/2 ([[PHI] .sub.abc] + [[PHI] .sub.fmbc])

si a no es un antepasado de bo c,

[[PHI] .sub.aaab] = 1/4 ([[PHI] .sub.ab] + 3 [[PHI] .sub.fmb])

si a no es un antepasado de b,

[[PHI] .sub.aaaa] = 1/8 (1 + 7 [[PHI] .sub.fm]) = 1/8 (1 + 7 [F.sub.a]), (4)

[[PHI] .sub.ab, cd] = 1/2 ([[PHI] .sub.fb, cd] + [[PHI] .sub.mb, cd])

si a no es un antepasado de bo c o d,

[[PHI] .sub.aa, bc] = 1/2 ([[PHI] .sub.bc] + [[PHI] .sub.fm, bc])

si a no es un antepasado de bo c,

[[PHI] .sub.aa, ac] = 1/2 ([[PHI] .sub.abc] + [[PHI] .sub.fb, mc] + [[PHI] .sub.mb, fc])

si a no es un antepasado de bo c,

[[PHI] .sub.aa, ab] = 2 ([[PHI] .sub.ab] + [[PHI] .sub.fmb])

si a no es un antepasado de b,

[[PHI] .sub.aa, aa] = 4 (l + [[PHI] .sub.fm]) = 1/4 (1 + 3 [F.sub.a]). (5)

[[PHI] .abc] es la probabilidad de que los alelos elegidos al azar en el mismo locus de cada uno de los tres individuos (es decir, a, byc) sean idénticos por descendencia (IBD). De manera similar, [[PHI] .abcd] es la probabilidad de que los alelos elegidos al azar en el mismo locus de cada uno de los cuatro individuos (es decir, a, b, cyd) sean IBD. [[PHI] .ab, cd] es la probabilidad de que un alelo aleatorio de a sea IBD con un alelo aleatorio de by que un alelo aleatorio de c sea IBD con un alelo aleatorio de d en el mismo locus. Tenga en cuenta que [[PHI] .sub.abc] = 0 si no hay un ancestro común de a, by c. [[PHI] .sub.abcd] = 0 si no hay un ancestro común de a, b, cyd, y [[PHI] .sub.ab, cd] = 0 en ausencia de un ancestro común ya sea para aybo para c y d.

2.2. Coeficientes de identidad y coeficientes de identidad condensados. Dados dos individuos ayb con alelos derivados de la madre y el padre en un locus autosómico fijo, hay 15 estados de identidad posibles, y las probabilidades asociadas con cada estado de identidad se denominan coeficientes de identidad. Ignorando la distinción entre alelos derivados de la madre y el padre, clasificamos los 15 estados posibles en 9 estados de identidad condensados, como se muestra en la Figura 1. Los estados van desde el estado 1, en el que los cuatro alelos son IBD, al estado 9, en el que ninguno de los cuatro alelos son IBD. Las probabilidades asociadas con cada estado de identidad condensado se denominan coeficientes de identidad condensados, denotados por <[DELTA] .sub.i] | 1 [menor o igual que] i [menor o igual que] 9>. Los coeficientes de identidad condensados ​​se pueden calcular basándose en coeficientes de parentesco generalizados utilizando la transformación lineal que se muestra a continuación en (6):

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (6)

En nuestro trabajo, nos enfocamos en derivar las fórmulas de conteo de caminos para los coeficientes de parentesco generalizados, incluyendo [[PHI] .sub.abc], [[PHI] .sub.abcd] y [[PHI] .sub.ab, CD].

2.3. Términos definidos para fórmulas de conteo de caminos para tres y cuatro personas

(1) Ancestro Triple Común. Dados tres individuos a, byc, si A es un ancestro común de los tres individuos, entonces llamamos a A un ancestro común triple de a, by c.

(2) Ancestro cuádruple común. Dados cuatro individuos a, b, cyd, si A es un ancestro común de los cuatro individuos, entonces llamamos a A un ancestro común cuádruple de a, b, c y d.

(3) P (A, a). Denota el conjunto de todas las rutas posibles de A a a, donde las rutas solo pueden atravesar los bordes en la dirección de padre a hijo, de modo que P (A, a) [no es igual a] NULL si y solo si A es un antepasado de una. [P.sub.Aa] denota un camino particular de A a a, donde [P.sub.Aa] e P (A, a).

(4) Par de rutas. Consiste en dos caminos, denotados como [??] [P.sub.Aa], [P.sub.Ab] [??], donde [P.sub.Aa] [miembro de] P (A, a) y [P.sub.Ab] [miembro de] P (A, b).

(5) Par de caminos no superpuestos. Dado un par de caminos [??] [P.sub.Aa], [P.sub.Ab] [??], no se superpone si y solo si los dos caminos no comparten individuos comunes, excepto A.

(6) Camino-Triple. Consiste en tres caminos, denotados como [??] [P.sub.Aa], [P.sub.Ab] [P.sub.Ab] [??], donde [P.sub.Aa] [miembro de ] P (A, a), [P.sub.Ab] [miembro de] P (A, b) y [P.sub.Ac] [miembro de] P (A, c).

(7) Path-Quad. Consiste en cuatro caminos, indicados como [??] [P.sub.Ab], [P.sub.Ab], [P.sub.Ac] [??], [P.sub.Aa]>, donde [P.sub.Aa] [miembro de] P (A, a), [P.sub.Ab] [miembro de] P (A, b), [P.sub.Ac] [miembro de] P (A , c) y [P.sub.Ac] [miembro de] P (A, d).

(8) BLC ([P.sub.Aa], [P.sub.Ab]). Denota todos los individuos comunes compartidos entre [P.sub.Aa] y [P.sub.Ab], excepto A.

(9) TrLC ([P.sub.Aa], [P.sub.Ab], [P.sub.Ac]). Denota todos los individuos comunes compartidos entre [P.sub.Aa], [P.sub.Ab] y [P.sub.Ac], excepto A.

(10) Quad_C ([P.sub.Aa], [P.sub.Ab], [P.sub.Ac], [P.sub.Ad]). Denota todos los individuos comunes compartidos entre [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] y [P.sub.Ad], excepto A.

(11) Crossover y 2-Overlap Individual. Si se BLC ([P.sub.Aa], [P.sub.Ab]), llamamos a un individuo cruzado con respecto a [P.sub.Aa] y [P.sub.Ab] si los dos caminos pasan por diferentes padres de s. Por otro lado, si [P.sub.Aa] y [P.sub.Ab] pasan por el mismo padre de s, entonces llamamos a un individuo de 2-superposición con respecto a [P.sub.Aa] y [P .sub.Ab].

(12) Individual de 3 superposiciones. Si s [miembro de] Tri_C ([P.sub.Aa], [P.sub.Ab], [P.sub.Ac]) y las tres rutas [P.sub.Aa], [P.sub.Ab ], y [P.sub.Ac] pasan por el mismo padre de s, entonces llamamos a un individuo de 3 superposiciones con respecto a [P.sub.Aa], [P.sub.Ab] y [P.sub .C.A].

(13) Ruta de 2 solapamientos. Si s es un individuo de 2 superposiciones con respecto a [P.sub.Aa] y [P.sub.Ab], entonces tanto [P.sub.Aa] como [P.sub.Ab] pasan a través del mismo padre de s, denotado por p, y el borde de p a s se llama borde de superposición. Todos los bordes superpuestos consecutivos constituyen una ruta y esta ruta se denomina ruta de 2 superposiciones. Si la ruta de 2 superposiciones se extiende hasta el ancestro A, la llamamos ruta raíz de 2 superposiciones.

(14) Ruta de 3 superposiciones. Consiste en todas las personas de 3 superposiciones en un orden consecutivo. Si la ruta de superposición de 3 se extiende hasta la raíz A, la llamamos ruta de superposición de raíz 3.

Ejemplo 1. Considere los pares de caminos de A a ay h en la Figura 2, donde A es un ancestro común de ay h. Para pathpai [R1], BLC ([P.sub.Aa], [P.sub.Ab]) = , y A [flecha derecha] s [flecha derecha] e [flecha derecha] t es una ruta de superposición de raíz 2 con respecto a [P.sub.Aa] y [P.sub.Ab]. Para path-pair4, Bi_C ([P.sub.Aa], [P.sub.Ab]) = , donde e es un individuo de cruce t es un individuo de 2 superposiciones con respecto a [P.sub.Aa] y [P.sub.Ab], ye [flecha derecha] t es una ruta de superposición de 2 raíces con respecto a [P.sub.Aa] y [P.sub.Ab].

Ejemplo 2.Hay cuatro path-quads enumerados en la Figura 3, desde A hasta cuatro individuos a, h, cyd, donde A es un ancestro cuádruple común de los cuatro individuos. Para path-quad2, considerando las rutas [P.sub.Aa] y [P.sub.Ab], la ruta A [flecha derecha] t [flecha derecha] f [flecha derecha] s es una ruta raíz 2-superpuesta son 2 individuos superpuestos con respecto a [P.sub.Aa] y [P.sub.Ab]. Para path-quad3, son 3 individuos superpuestos con respecto a [P.sub.Aa], P ^ y [P.sub.Ac], y la ruta A [flecha derecha] t [flecha derecha] f [flecha derecha] s es una raíz Ruta de 3 superposiciones.

Luego, resumimos todos los términos conceptuales utilizados en las fórmulas de recuento de caminos para dos individuos, tres individuos y cuatro individuos en la Tabla 1, que revela un vistazo de nuestro marco para generalizar la fórmula de Wright a tres y cuatro individuos desde el aspecto terminológico.

2.4. Una descripción general de la derivación de fórmulas de conteo de rutas. De acuerdo con la fórmula de conteo de caminos de Wright [16] (ver (2)) para dos individuos ayh, el método de conteo de caminos requiere identificar ancestros comunes de ayh y calcular la contribución de cada ancestro común a [[PHI]. sub.ab]. Más específicamente, para cada ancestro común, denotado como A, obtenemos todos los pares de caminos desde A hasta ayh e identificamos pares de caminos aceptables. Para [[PHI] .sub.ab], un par de rutas aceptable [??] [P.sub.Aa], [P.sub.Ab] [??] es un par de rutas que no se superponen donde las dos rutas comparten no hay individuos comunes, excepto A. En la Figura 2, path-pai [R2] es un par de caminos aceptable, mientras que pathpai [R1], path-pai [R3] y path-pair4 no son pares de rutas aceptables. La contribución de cada ancestro común A a [[PHI] .ab] se calcula basándose en el coeficiente de consanguinidad de A, modificado por la longitud de cada par de caminos aceptable.

Para calcular [[PHI] .sub.abc], el método de conteo de rutas requiere identificar todos los ancestros comunes triples de a, bycy resumir todas las contribuciones de los ancestros comunes triples a [[PHI] .sub.abc ]. Para cada antepasado triple común, denotado como A, primero identificamos todos los caminos triples, cada uno de los cuales consta de tres caminos de A a a, byc, respectivamente. En la Figura 2 se presentan algunos ejemplos de trayectorias triples.

Para [[PHI] .sub.ab], solo son aceptables los pares de rutas que no se superponen. Una ruta triple [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] consta de tres rutas pares [??] [P.sub. Aa], [P.sub.Ab] [??] [??] [P.sub.Aa], [P.sub.Ac] [??] y [??] [P.sub.Ab], [P.sub.Ac] [??]. Para [[PHI] .sub.abc], un triple de ruta podría ser aceptable aunque existan individuos con 2 solapamientos o individuos cruzados entre un par de rutas. El principal desafío que debemos abordar es encontrar las condiciones necesarias y suficientes para que los caminos triples sean aceptables.

Con el objetivo de resolver el problema de identificar triples de caminos aceptables, primero usamos un método sistemático para generar todos los casos posibles para un par de caminos considerando diferentes tipos de individuos comunes compartidos entre los dos caminos. Luego, presentamos bloques de construcción que son gráficos conectados con condiciones en cada borde del gráfico que encapsula un conjunto de casos aceptables de pares de caminos. En cada bloque de construcción, representamos caminos como nodos e interacciones (es decir, individuos comunes compartidos entre dos caminos) como bordes. Hay al menos dos caminos en un bloque de construcción. Para cada bloque de construcción, obtenemos todos los casos aceptables para los pares de caminos afectados. Dado un camino triple, se puede descomponer en uno o varios bloques de construcción. Considerando un par de caminos compartidos entre dos bloques de construcción, usamos el operador de unión natural del álgebra relacional para hacer coincidir los casos aceptables para el par de caminos compartidos entre dos bloques de construcción. En otras palabras, considerando los casos aceptables para los bloques de construcción como entradas, usamos el operador de combinación natural para construir todos los casos aceptables para un triple de ruta. Los casos aceptables para una ruta triple se identifican y luego se utilizan para derivar la fórmula de recuento de rutas para [[PHI] .sub.abc].

Luego, resumimos todos los procedimientos principales usados ​​para derivar la fórmula de conteo de caminos para [[PHI] .sub.abc] en un diagrama de flujo que se muestra en la Figura 4. Los procedimientos principales también son aplicables para derivar las fórmulas de conteo de caminos para [[ PHI] .abcd] y [[PHI] .ab, cd].

3.1. Fórmulas de conteo de caminos para tres personas. Primero introducimos un método sistemático para generar todos los casos posibles para un par de rutas. Luego discutimos los bloques de construcción para los caminos triples e identificamos todos los casos aceptables que se utilizan para derivar la fórmula de conteo de caminos para [[PHI] .sub.abc].

3.1.1. Casos para un par de caminos. Dado un par de rutas [??] [P.sub.Aa], [P.sub.Ab] [??] con BL_C ([P.sub.Aa], [P.sub.Ab]) [no igual to] NULL, donde A es un ancestro común de ayb y Bi_C ([P.sub.Aa], [P.sub.Ab]) consiste en todos los individuos comunes compartidos entre [P.sub.Aa] y [P .sub.Ab], excepto A, introducimos tres patrones (es decir, cruce, 2-superposición y raíz 2-superposición) para generar todos los casos posibles para [??] [P.sub.Aa], [P.sub .Ab] [??].

(1) X ([P.sub.Aa], [P.sub.Ab]): [P.sub.Aa] y [P.sub.Ab] comparten uno o varios individuos cruzados.

(2) T ([P.sub.Aa], [P.sub.Ab]): [P.sub.Aa] y [P.sub.Ab] son ​​la raíz 2 superpuesta de A, y la raíz 2- La ruta de superposición puede tener uno o varios individuos de 2 superposiciones.

(3) Y ([P.sub.Aa], [P.sub.Ab]): [P.sub.Aa] y [P.sub.Ab] se superponen pero no de A, y la ruta de 2 superposiciones puede tener uno o varios individuos de 2 superposiciones.

Sobre la base de los tres patrones, X ([P.sub.Aa], [P.sub.Ab]), e Y ([P.sub.Aa], [P.sub.Ab]), usamos expresiones regulares para generar todos los casos posibles para el par de rutas [??] [P.sub.Aa], [P.sub.Ab] [??]. Por conveniencia, eliminamos [??] [P.sub.Aa], [P.sub.Ab] [??] y usamos X, T e Y en lugar de los patrones X ([P.sub.Aa], [ P.sub.Ab]), T ([P.sub.Aa], [P.sub.Ab]) e Y ([P.sub.sub.Aa], PM), siempre que no haya confusión. Cuando BLC ([P.sub.Aa], [P.sub.Ab]) [no igual a] NULL, los ocho casos mostrados en (7) cubren todos los casos posibles para [??] [P.sub.Aa] , [P.sub.Ab] [??]. La integridad de ocho casos mostrados en (7) para [??] [P.sub.Aa], [P.sub.Ab] [??] se puede demostrar por inducción sobre el número total de T, X e Y que aparece en [??] [P.sub.Aa], [P.sub.Ab] [??]. Utilizando el árbol genealógico de la Figura 2, los casos 1-3 y el caso 6 se ilustran en (8), (9), (10) y (11):

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (7)

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (8)

dónde son individuos con 2 superposiciones y la ruta de superposición es una ruta raíz de 2 superposiciones:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (9)

donde s es un individuo de 2 superposiciones y la ruta de superposición es una ruta de superposición de 2 raíz t es un individuo de cruce:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (10)

donde t es un individuo cruzado:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (11)

donde e es un individuo de cruce t es un individuo de 2 superposiciones y la ruta de superposición es una ruta de 2 superposiciones.

3.1.2. Representación gráfica a nivel de par de caminos de un triple de caminos. Dado un camino-triple [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??], representamos cada camino como un nodo. El triple de ruta se puede descomponer en tres pares de rutas (es decir, [??] [P.sub.Aa], [P.sub.Ab] [??], [??] [P.sub.Aa] , [P.sub.Ac] [??] y [??] [P.sub.Ab], [P.sub.Ac] [??]). Para cada par de caminos, si los dos caminos comparten al menos un individuo en común (es decir, un individuo de 2 superposiciones o un individuo de cruce), excepto A, entonces hay un borde entre los dos nodos que representan los dos caminos. Por lo tanto, obtenemos cuatro escenarios diferentes [S0] - [S3], que se muestran en la Figura 5.

En la Figura 5, el escenario S0 no tiene bordes, por lo que significa que [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] consta de tres caminos. En la Figura 2, path-triplel es un ejemplo de [S0]. A continuación, presentamos un lema que puede ayudar a identificar las opciones para los bordes en los escenarios [S1] - [S3].

Lema 3. Dado un camino-triple [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??], considere los tres pares de caminos [??] [P.sub.Aa], [P.sub.Ab] [??], si hay un borde de 2 superposiciones que está representado por Y en la representación de expresión regular de cualquiera de los tres pares de rutas, y luego la ruta -triple [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] no tiene ninguna contribución a [[PHI] .sub.abc].

Prueba. En [17], Nadot y Vaysseix propusieron, desde un punto de vista genético y biológico, que [[PHI] .sub.abc] puede evaluarse enumerando todas las rutas de herencia elegibles a nivel de alelo a partir de un ancestro común triple A a los tres individuos a, by c.

Para el árbol genealógico de la Figura 6, consideremos el triple de ruta [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] enumerado de la siguiente manera. [P.sub.Aa]: A [flecha derecha] a [P.sub.Ab]: A [flecha derecha] [p.sub.Aa] [flecha derecha] [P6] [flecha derecha] [ p.7] [flecha derecha] b [P.Ac]: A [flecha derecha] [p.sub.4] [flecha derecha] [p.sub.6] [flecha derecha] [p.sub , 7] [flecha derecha] C.

Para [??] [P.sub.Ab], [P.sub.Ac] [??], [p.sub.6] es un individuo cruzado, [p.7] es un individuo superpuesto, y [p.sub.6] [right arrow] [p.sub.7] es un borde de 2 superposiciones representado por Y en representación de expresión regular (ver la definición de Y en la Sección 3.1.1).

Para el individuo [p6], denotemos los dos alelos en un locus autosómico fijo como [g1] y [g2]. A nivel de alelo, sólo se puede transmitir un alelo de [p.sub.6] a [p.sub.7]. Dado que [p.sub.3] y [p.sub.4] son ​​padres de [p.sub.6], [g.sub.1] se transmite de uno de los padres, y [g.sub.2] es transmitido del otro padre. No es factible pasar tanto [g1] como [g2] de [p6] a [p7]. En otras palabras, no hay rutas de herencia correspondientes para la ruta-triple [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] con un 2- borde superpuesto entre [??] [P.sub.Ab], [P.sub.Ac] [??] (es decir, Caso 6: XY). Por lo tanto, este tipo de trayectorias triples no contribuye a [[PHI] .sub.abc].

La Figura 6 (b) muestra un ejemplo de rutas de herencia elegibles correspondientes a un gráfico genealógico. Cada individuo está representado por dos nodos alelos. Las rutas de herencia elegibles en la Figura 6 (b) constan únicamente de bordes rojos.

Solo el Caso 1, Caso 2 y Caso 3 no tienen Y en la representación de expresión regular de un par de caminos (ver (7)) considerando los escenarios [S1] - [S3] mostrados en Figura 5, un borde puede tener tres opciones .

3.1.3. Construyendo casos para un camino triple. Para los escenarios [S1] - [S3] en la Figura 5, definimos dos bloques de construcción <[B1], [B2]> junto con algunas reglas en la Figura 7 para generar casos aceptables. Para B3, el borde puede tener tres opciones . Para [B2], no podemos permitir que ambos bordes se superpongan en la raíz, porque si dos bordes se superponen en la raíz, entonces [P.Aa] y [P.sub.Ac] deben compartir al menos una combinación. mon individual, excepto A, lo que contradice el hecho de que [P.sub.Aa] y [P.sub.Ac] no tienen ventaja.

A continuación, nos enfocamos en generar todos los casos aceptables para los escenarios [S1] - [S3] en la Figura 5, donde solo [S3] contiene más de un bloque de construcción. Para aprovechar la dependencia entre los bloques de construcción, descomponemos [S3] en [S3] = <[u.sub.1] = [B2], [u.sub. 2] = [B.sub.2], [u.sub.3] = [B.sub.2]>, que se muestra en la Figura 8. Para cada [u.sub.i], tenemos un conjunto de rutas aceptables -triplos, denotados como [R.sub.i].

Considerando la dependencia entre <[R1], [R2], [R3]>, usamos el operador de unión natural, denotado como m, que opera en <[R.sub.1 ], [R2], [R3]> para generar todos los casos aceptables para [S3]. Como resultado, obtenemos [T3] = [R1] [??] [R2] [??] [R3], donde [T.sub. 3] denota los casos aceptables del triple de ruta [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] en el escenario [Ssub. 3].

Para cada escenario en la Figura 5, generamos todos los casos aceptables para [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??]. El escenario S0 no tiene aristas, y muestra que [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] consta de tres caminos independientes, mientras que, para los otros escenarios [Sk] (k = 1, 2, 3), los bordes k pueden tener dos opciones:

(1) todos los k bordes pertenecen al cruce o

(2) un borde pertenece a la raíz 2-se superponen los bordes restantes (k-1) pertenecen al cruce.

En resumen, los triples de ruta aceptables pueden tener como máximo una ruta de raíz 2 superposición, cualquier número de individuos cruzados, pero cero ruta 2 superposición.

3.1.4. Operador de división. Teniendo en cuenta la existencia de una ruta de superposición de raíz 2 y un cruce en triples de ruta aceptables, proponemos un operador de división para transformar un triple de ruta con individuos de cruce en un triple de ruta sin cruce sin cambiar la contribución de este triple de ruta a [[PHI ] .abc]. El objetivo principal de utilizar el operador de división es simplificar el proceso de derivación de fórmulas de recuento de rutas. Primero usamos un ejemplo en la Figura 9 para ilustrar cómo funciona el operador de división. En la Figura 9, hay un individuo cruzado s entre [P.sub.Aa] y PM en la ruta triple [??] [P.sub.Ab], [P.sub.Ab], [P.sub.Ac ]) en [G.sub.k + 1]] El operador de división procede de la siguiente manera:

(1) divida los nodos en dos nodos, [s.sub.1] y [s.sub.2]

(2) transforme los bordes s [flecha derecha] ays [flecha derecha] b 'en [s.sub.1] [flecha derecha] a' y [s.sub.2] [flecha derecha] b ', respectivamente

(3) agregue dos nuevos bordes, [s.sub.2] [right arrow] a 'y [s.sub.1] [right arrow] b'.

Lema 4. Dado un gráfico genealógico [G.sub.k + 1] que tiene (k + 1) individuos cruzados con respecto a [??] [P.sub.Ac], [P.sub.Ab], [P.sub. Ac] [??] que se muestra en la Figura 9, denotemos el individuo de cruce más bajo, donde ningún descendiente de s puede ser un individuo de cruce entre los tres caminos [P.sub.Aa], [P.sub.Ab], y [P.sub.Ac]. Después de usar el operador de división para los individuos de cruce más bajos en [Gk] + 1, el número de individuos de cruce en [Gk + 1] se reduce en 1.

Prueba. El operador de división solo afecta a los bordes de sa a 'y b'. Si aparece un nuevo nodo cruzado, el único nodo posible es a o b. Suponga que b se convierte en un individuo cruzado, significa que b puede llegar a ayb desde dos caminos separados. Contradice el hecho de que s es el individuo de cruce más bajo entre [P.sub.Aa] y [P.sub.Aa].

A continuación, presentamos un gráfico canónico que resulta de aplicar el operador de división para todos los individuos cruzados. El gráfico canónico tiene un cruce de cero individual.

Definición 5 (Gráfico canónico). Dado un gráfico genealógico G que tiene uno o más individuos cruzados con respecto a [[PHI] .sub.abc], si existe un gráfico G que no tiene individuos cruzados con respecto a [[PHI] .sub.abc] tal que

(i) cualquier triple de trayectoria aceptable en G tiene un triple de trayectoria aceptable en G que tiene la misma contribución a [[PHI] .abc] que la de G para [[PHI] .abc]

(ii) cualquier triple de ruta aceptable en G 'tiene un triple de ruta aceptable en G que y tiene la misma contribución a [[PHI] .abc] que el de G' para [[PHI] .abc ].

Llamamos G 'a un gráfico canónico de G con respecto a [[PHI] .sub.abc].

Lema 6. Para un gráfico genealógico G que tiene uno o más individuos cruzados con respecto a [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??], existe un gráfico canónico G para G.

Prueba (boceto). La prueba es por inducción sobre el número de individuos cruzados.

Hipótesis de inducción: suponga que si G tiene k o menos cruces, hay un gráfico canónico G 'para G.

En el paso de inducción, sea [Gk + 1] un gráfico con k + 1 cruces, sea s el cruce más bajo entre las rutas [PAa] y [PAb] en [G. sub.k + 1]. Aplicamos el operador de división en s en Gk + 1 y obtenemos [G.sub.k] que tiene k cruces por el Lema 4.

3.1.5. Fórmula de recuento de rutas para [[PHI] .sub.abc]. Ahora, presentamos la fórmula de conteo de rutas para [[PHI] .sub.abc]:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (12)

donde [[PHI] .sub.aa] - (1/2) (1 + [F.sub.A]), [[PHI] .sub.AAA] - (1/4) (1 + 3 [F. sub.A]), [F.sub.A]: el coeficiente de consanguinidad de A, A: un ancestro común triple de a, h, yc, Tipo 1: ([P.sub.Aa], [P. sub.Ab], [P.sub.Ac]) tiene cero superposición de raíz 2, Tipo 2: [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] tiene un PA de ruta raíz 2-superpuesto que termina en el s individual

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (13)

y [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII] la longitud de la ruta [P.sub.Aa] (también aplicable para [P.sub.Aa], [P.sub.Ac] y [P.sub.As]) .

Para completar, la fórmula de conteo de caminos para [[PHI] .sub.aab] se da en el Apéndice A y la prueba de corrección de la fórmula de conteo de caminos se da en el Apéndice B.

3.2. Fórmulas de conteo de caminos para cuatro personas

3.2.1. Representación gráfica de nivel de par de rutas de [??] [[PHI] .sub.Aa], [P.sub.Ab], [P.sub.Ac], [P.sub.Ad] [??]. Dado un path-quad [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac], [P.sub.Ad] [??] y Quad_C ([P. sub.Aa], [P.sub.Ab], [P.sub.Ac], [P.sub.Ad]) - 0, el path-quad puede tener 11 escenarios [Ssub.sub.Ac] - [S .sub.10] que se muestra en la Figura 10 donde los cuatro caminos se consideran simétricamente.

En la Figura 11, presentamos tres bloques de construcción <[B1], [B2], [B3]>. Para [B1] y [B2], las reglas presentadas en la Figura 7 también son aplicables para la Figura 11. Para [B3], solo consideramos la superposición de raíces, porque los individuos cruzados pueden eliminarse utilizando el operador de división introducido en la Sección 3.1.4. Tenga en cuenta que para [B3] si Tr_C ([P.sub.Aa], [P.sub.Ab], [P.sub.Ac]) - 0 entonces es equivalente al escenario [S.sub .3] en la Figura 8 Por lo tanto, sólo necesitamos considerar [B3] cuando Tr_C ([P.sub.Aa], Pap, [P.sub.Ac]) - 0.

3.2.2. Construcción de casos basada en bloques de construcción para [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac], [P.sub.Ad] [??]. Para un escenario [S] (0 [menor o igual que] i [menor o igual que] 10) en la Figura 11, primero descomponemos [Si] en uno o varios bloques de construcción.Para un escenario [Si] [miembro de] <[S1], [S3]>, tiene sólo un bloque de construcción, y todos los casos aceptables pueden obtenerse directamente. Para [S2] - <[u.sub.1] = [B.sub1], [u.sub2] - [B.sub.1]>, no hay necesidad de considerar el conflicto entre los bordes en [u.sub.1] y [u.sub.2] porque [u.sub.1] y [u.sub.2] están desconectados. Sea [Ri] todos los casos aceptables de los pares de caminos en [u.sub.i], y deje que [T.i] denote todos los casos aceptables para [Si]. Por lo tanto, obtenemos [T2] - [R1] x [R2] donde x denota el operador del producto cartesiano del álgebra relacional.

Para [S6] = <[u.sub.1] = [B3]>, obtenemos [T6] = [R1]. Para [S.sub.i] [miembro de] <[S.sub.i] | 4 [menor o igual que] i [menor o igual que] 10 ei [no igual a] 6>, definimos el subgrafo más grande de [S.sub.i] basado en el cual construimos [T.sub. I].

Definición 7 (subgrafo más grande). Dado un escenario [Ssub.i] (4 [menor o igual que] i [menor o igual que] 10 ei [no igual a] 6), el subgrafo más grande de [Ssub.i], denotado como [Sj] se define como sigue:

(1) [S.sub.j] es un subgrafo propio de [S.sub.i]

(2) si [Si] contiene [B3], entonces [Sj] también debe contener B3

(3) no existe tal [Sk] que [Sj] sea un subgrafo propio de [Sk] mientras que [Sk] es también un subgrafo propio de [S. sub.i].

Para cada escenario [Si] (4 [menor o igual que] i [menor o igual que] 10 ei = 6), enumeramos el subgrafo más grande de [Si], denotado como [Sj] en la Tabla 2.

Para un escenario [Ssub.i] (4 [menor o igual a] i [menor o igual que] 10 ei = 6), sea Diff ([Ssub.i] [Ssub. j]) denotan el conjunto de bloques de construcción en [Ssub.i] pero no en [Ssub.j], donde [Ssub.j] es el subgrafo más grande de [Ssub.i]. Sea [valor absoluto de [Ei]] y [valor absoluto de [Ej]] el número de aristas en [Si] y [Sj], respectivamente. De acuerdo con la Tabla 2, podemos concluir que [valor absoluto de [Ei]] y [valor absoluto de [Ej]] = 1. Para aprovechar la dependencia entre los bloques de construcción, consideramos solo [B2] en Diff ([Si] [Sj]). Por ejemplo, Diff ([S5] [S3]) = <[B2]>. Sea [T3] todos los casos aceptables para [S3]. Y sea [R1] el conjunto de casos aceptables para Diff ([S5] [S3]). Entonces, podemos usar [S3] y Diff ([S5] [S3]) para construir todos los casos aceptables para [S5]. Luego, aplicamos esta idea para construir todos los casos aceptables para cada [Si] en la Tabla 2.

Dado un path-quad [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac], [P.sub.Ad] [??], un caso aceptable tiene el siguientes propiedades:

(1) si hay una ruta de superposición de raíz 3, puede haber como máximo una ruta de superposición de raíz 2

(2) de lo contrario, puede haber como máximo dos rutas de superposición de 2 raíz.

3.2.3. Fórmula de recuento de rutas para [[PHI] .abcd]. Ahora, presentamos la fórmula de conteo de rutas para [[PHI] .sub.abcd] de la siguiente manera:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (14)

donde [[PHI] .sub.AA] = (1/2) (1 + [F.sub.A]), [[PHI] .sub.AAA] = (1/4) (1 + 3 [F. sub.A]), [[PHI] .sub.AAA] = (1/8) (1 + 7 [F.sub.A]), [F.sub.A]. el coeficiente de consanguinidad de A, A: un ancestro común cuádruple de a, b, cyd, Tipo 1: raíz cero 2-superposición y raíz cero 3-ruta de superposición, Tipo 2: una raíz 2-ruta de superposición PAs que terminan en s

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (15)

y [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII] la longitud de la ruta [P.sub.Aa] (también aplicable para [P.sub.Ab], [P.sub.Ac], [P.sub.Ad] ', etc. ).

Para completar, las fórmulas de conteo de caminos para [[PHI] .sub.aabc] y [[PHI] .sub.aaab] se presentan en el Apéndice A. La exactitud de la fórmula de conteo de caminos para cuatro individuos se demuestra en el Apéndice C .

3.3. Fórmulas de conteo de caminos para dos pares de individuos

3.3.1. Terminología y definiciones

(1) Par de ruta de 2 pares. Consiste en dos pares de pares de caminos indicados como [??] ([P.sub.Sa], [P.sub.Sb]), ([P.sub.Tc], [P.sub.Td]) [??], donde [P.sub.Sa] [miembro de] P (S, a), [P.sub.Sb] [miembro de] P (S, b), [P.sub.Tc] [ miembro de] P (T, c), [P.sub.Td] [miembro de] P (T, d), S es un ancestro común de ayb, y T es un ancestro común de cy d. Si A = S = T, entonces A es un ancestro común cuádruple de a, b, c y d.

(2) Individual Homo-Overlap y Heter-Overlap. Dados dos pares de individuos [??] a, b [??] y [??] c, d [??], si s [miembro de] BLC ([P.sub.Aa], [P.sub. Ab]) (os [miembro de] BLC ([P.sub.Ac], [P.sub.Ad]), llamamos a un individuo homo-superpuesto cuando [P.sub.Aa] y (o [P.sub.sub.Ad]) sub.Ac] y [P.sub.Ad]) pasan por el mismo padre de s. If r [miembro de] Bi_C ([P.sub.Ai], [P.sub.Aj]), donde i [miembro de] yj [miembro de] , llamamos a r un individuo heter-superpuesto cuando [P.sub.Ai] y [P.sub.Aj] pasan por el mismo padre de r.

(3) Ruta de superposición de homo-superposición de raíz y heter-superposición. Dado un par de rutas de 2 pares [??] ([P.sub.Aa], [P.sub.Ab], ([P.sub.Ac], [P.sub.Ad]) [??], si s es un individuo homo-superpuesto y la ruta homo-superpuesta se extiende hasta el ancestro cuádruple común A, entonces lo llamamos una ruta homo-superpuesta raíz. Si r es un individuo heter-superpuesto y el heter-superpuesto La ruta se extiende hasta el ancestro cuádruple común A, luego lo llamamos una ruta raíz heter-superpuesta.

Ejemplo 8. A es un ancestro común cuádruple para a, b, cyd en la Figura 12. Para (a), s es un individuo homo-superpuesto entre [P.sub.Aa] y [P.sub.Ab] .

t es un individuo homo-superpuesto entre [P.sub.Ac] y [P.sub.Ad]. Y, A [flecha derecha] sy A [flecha derecha] t son trayectorias de superposición homogénea de raíz. Para (b), x es un individuo superpuesto entre [P.sub.Aa] y [P.sub.Ad]. y es un individuo con superposición heterogénea entre [P.sub.Ab] y [P.sub.Ac]. Y A [flecha derecha] xy A [flecha derecha] y son trayectorias de raíz heter-superpuestas.

3.3.2. Fórmula de recuento de rutas para [[PHI] .sub.ab, cd]. Ahora, presentamos una representación gráfica a nivel de par de rutas para [??] ([P.sub.Aa], [P.sub.Ab]), ([P.sub.Ac], [P.sub.Ad] ) [??] que se muestra en la Figura 13. Las opciones para un borde pueden ser . (Consulte la Sección 3.1.1 para conocer las definiciones de T, X y TX). Basado en los diferentes tipos de [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac], [P.sub.Ad] [??] presentados en (14) , todos los casos para <([P.sub.Aa], [P.sub.Ab]), ([P.sub.Ac], [P.sub.Ad])) se resumen en la Tabla 3, donde h es el último individuo de una ruta de homo-superposición raíz [P.sub.Ali] (es decir, la ruta [P.sub.Ah] que termina en h) y [r.sub.sub.sub.sub.sub.sub. los últimos individuos de trayectorias de heter-superposición de raíces [P.sub.Ar1] y [P.sub.Ar2], respectivamente.

Dado un gráfico genealógico que tiene uno o varios progenitores <[p.sub.i] | i & gt 0>, definimos que la generación de un progenitor

[p.sub.i] es 0, denotado como gen ([p.sub.i]) = 0. Si un individuo a tiene sólo un padre p, entonces definimos gen (a) = gen (p) + 1. Si un individuo a tiene dos padres fym, definimos gen (a) = MAX + 1.

La fórmula de recuento de rutas para [[PHI] .ab, cd] es la siguiente:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (16)

donde A: un ancestro común cuádruple de a, b, cyd, S: un ancestro común de ayb, y T: un ancestro común de cy d. Para [??] [P.sub.Aa], [P.sub.Ab]), ([P.sub.Ac], [P.sub.Ad]) [??] (S = T = A) , hay cuatro tipos (es decir, Tipo 1 a Tipo 4).

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (17)

Tipo 4: una raíz homo-solapada [PAh] terminando en hy dos raíces hetero-solapadas terminando en [r1] y [r2], y h = [r.sub. 1] = [r2]. Para (([P.sub.Sa], [P.sub.Sb]), ([P.sub.Tc], [P.sub.Td])) (S = T), hay un tipo (es decir , Tipo 5).

Tipo 5: [??] [P.sub.Sb], [P.sub.Sb] [??] tiene cero superposición individual, [??] [P.sub.Tc], [P.sub.Td] [??] tiene cero superposición individual.

Como máximo, un par de rutas (ya sea [??] [P.sub.Sa], [P.sub.Sb] [??] o [??] [P.sub.Tc], [P.sub.Td ] [??]) pueden tener individuos cruzados.

Entre una ruta de [??] [P.sub.Sa], [P.sub.Sb] [??] y una ruta de [??] [P.sub.Tc], [P.sub.Td] [??], no hay individuos superpuestos, pero puede haber individuos cruzados, x, donde x = S yx = T:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (18)

Tenga en cuenta que si (a, b) y (c, d) tienen cero antepasados ​​cuádruples comunes, tenemos la siguiente fórmula para [[PHI] .sub.ab, cd]:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (19)

Tipo 6: [??] [P.sub.Sa], [P.sub.Sb] [??] es un par de rutas no superpuestas y [??] [P.sub.Tc], [P.sub. Td] [??] es un par de rutas que no se superponen. Entre una ruta de [??] [P.sub.Sa], [P.sub.Sb] [??] y una ruta de [??] [P.sub.Tc], [P.sub.Td] [??], no hay individuos superpuestos, pero puede haber individuos cruzados.

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII] se definen como en el Tipo 5

La exactitud de la fórmula de recuento de rutas para [[PHI] .ab.cd] se comprueba en el Apéndice C. Para mayor información, consulte [18] para conocer las fórmulas de recuento de rutas para [[PHI] .sub.aa , bc], [[PHI] .ab, ac], [[PHI] .ab, ab] y [[PHI] .sub.sub.a, ab]

3.4. Resultados experimentales. En esta sección, mostramos la eficiencia de nuestro método de conteo de rutas usando NodeCodes para coeficientes de identidad condensados ​​al hacer comparaciones con el desempeño de un método recursivo usado en [10]. Implementamos dos métodos: (1) usando fórmulas recursivas para calcular cada coeficiente de parentesco requerido y coeficiente de parentesco generalizado (2) usando el método de conteo de caminos junto con NodeCodes para calcular cada coeficiente de parentesco requerido y coeficiente de parentesco generalizado de forma independiente. Nos referimos al primer método como recursivo, al segundo método como NodeCodes. Para mayor información, consulte [18] para obtener detalles sobre el método basado en NodeCodes.

Los códigos de nodo de un nodo son un conjunto de etiquetas, cada una de las cuales representa una ruta al nodo desde sus antepasados. Dado un gráfico de pedigrí, sea r el progenitor (es decir, el nodo con 0 en grado). (Para simplificar, asumimos que hay un progenitor, r, como el ancestro de todos los individuos en el árbol genealógico. De lo contrario, se puede agregar un nodo virtual r al gráfico del árbol genealógico y todos los progenitores pueden convertirse en hijos de r.) Para cada nodo u en el gráfico, el conjunto de NodeCodes de u, denotado como NC (w), se asigna usando un recorrido de búsqueda primero en amplitud comenzando por r de la siguiente manera.

(1) Si u es r, entonces NC (r) contiene solo un elemento: la cadena vacía.

(2) De lo contrario, sea u un ánodo con NC (w) y [v.sub.0], [v.sub.1],. [v.sub.k] seamos hijos en orden de hermanos, entonces para cada x [menor o igual que] NC (m), se agrega un código [xi.sup. *] a NC (v), donde 0 & lt i [menor o igual que] k, y * indica el género del individuo representado por el nodo [v.sub.i].

Los cálculos de los coeficientes de parentesco para dos individuos y los coeficientes de parentesco generalizados para tres individuos presentados en [11, 12, 14, 15] utilizan NodeCodes. Los esquemas de cálculo basados ​​en NodeCodes también se pueden aplicar para los coeficientes de parentesco generalizados para cuatro individuos y dos pares de individuos. Para más información, consulte [18] para obtener detalles utilizando NodeCodes para calcular los coeficientes de parentesco generalizados para cuatro individuos y dos pares de individuos basados ​​en nuestras fórmulas propuestas para el recuento de caminos en las Secciones 3.2 y 3.3.

Con el fin de probar la escalabilidad de nuestro enfoque para calcular los coeficientes de identidad condensados ​​en grandes árboles genealógicos, utilizamos un simulador de población implementado en [11] para generar árboles genealógicos arbitrariamente grandes. El simulador de población se basa en el algoritmo para generar poblaciones con generaciones superpuestas en el Capítulo 4 de [19] junto con los parámetros dados en el Apéndice B de [20] para modelar la subpoblación finlandesa Kainuu relativamente aislada y su crecimiento durante los años 1500-2000. . En [11,12,14] se presentó una descripción general del algoritmo de generación. Los parámetros incluyen año de inicio / finalización, tamaño de la población inicial, distribución de edad inicial, probabilidad de matrimonio, edad máxima de embarazo, número esperado de hijos por período de tiempo, tasa de inmigración y probabilidad de muerte por período de tiempo y grupo de edad.

Examinamos el desempeño de los coeficientes de identidad condensados ​​usando doce genealogías sintéticas que van desde 75 individuos hasta 195,197 individuos. El pedigrí más pequeño abarca 3 generaciones y el pedigrí más grande abarca 19 generaciones. Analizamos los efectos del tamaño del árbol genealógico y la profundidad de los individuos en el árbol genealógico (el camino más largo entre el individuo y un progenitor) en la mejora de la eficiencia de cálculo.

En el primer experimento, se seleccionaron 300 pares aleatorios de cada uno de nuestros 12 pedigrí sintéticos. La Figura 14 muestra la mejora de la eficiencia de cálculo para cada pedigrí. Como puede verse, la mejora de NodeCodes sobre el recursivo creció cada vez más a medida que aumentaba el tamaño del pedigrí, de una cantidad comparable del 26,83% en el pedigrí más pequeño al 94,75% en el pedigrí más grande. También muestra que el método de recuento de rutas junto con NodeCodes puede escalar muy bien en grandes árboles genealógicos en términos de calcular coeficientes de identidad condensados.

En nuestro siguiente experimento, examinamos el efecto de la profundidad del individuo en el pedigrí sobre el tiempo de consulta. Para cada profundidad, generamos 300 pares aleatorios del pedigrí sintético más grande.

La Figura 15 muestra el efecto de la profundidad en la mejora de la eficiencia de cálculo. Podemos ver la mejora de NodeCodes sobre los recursivos, que van desde el 86,48% al 91,30%.

Hemos introducido un marco para generalizar la fórmula de conteo de caminos de Wright para más de dos personas. Con el objetivo de calcular eficientemente los coeficientes de identidad condensados, propusimos fórmulas de recuento de caminos (PCF) para todos los coeficientes de parentesco generalizados para los cuales son suficientes para expresar los coeficientes de identidad condensados ​​mediante una combinación lineal. También realizamos experimentos para comparar la eficiencia de nuestro método con el método recursivo para calcular coeficientes de identidad condensados ​​en grandes genealogías. Nuestro trabajo futuro incluye (i) mejoras adicionales en el cálculo de coeficientes de identificación condensados ​​mediante el cálculo colectivo del conjunto de coeficientes de parentesco generalizados para evitar cálculos redundantes, y (ii) resultados experimentales para el uso de PCF junto con esquemas de codificación (por ejemplo, esquemas de codificación de ruta compactos [13]) para calcular coeficientes de identidad condensados ​​en árboles genealógicos muy grandes.

A. Fórmulas de recuento de trayectorias de casos especiales

A.1. Fórmula de recuento de rutas para [[PHI] .sub.aa, ab]. Para [??] [P.sub.Aa1], [P.sub.Aa2] [??], introducimos un caso especial, donde [P.sub.Aa1] y [P.sub.Aa2] son ​​fusionables.

Definición A.1 (Par de caminos fusionable). Un par de rutas [??] [P.sub.Aa1], [P.sub.Aa2] [??] es fusionable si y solo si las dos rutas [P.sub.Aa1] y [P.sub.Aa2 ] son ​​completamente idénticos.

A continuación, presentamos una representación gráfica de [??] [P.sub.Aa1], [P.sub.Aa2], [P.sub.Ab] [??] en la Figura 16.

Lema A.2. Para [S2] y [S3] en la Figura 16, [??] [P.Aa1], [P.sub.Aa2] [??] no puede ser un par de rutas fusionable .

Prueba. Para [S2] y [S3], si [??] [P.Aa1], [P.Aa2]) es fusionable, entonces cualquier individuo común s entre [P. sub.Aa1] y [P.sub.Ab] es también un individuo compartido entre [P.sub.Aa] 2 y [P.sub.Ab]. Significa s [miembro de] Tri_C ([P.sub.Aa1], [P.sub.Aa2], [P.sub.Ab]) que contradice el hecho de que Tri_C ([P.sub.Aa1], [P .sub.Aa2], [P.sub.Ab]) = 0.

Teniendo en cuenta los tres escenarios de la Figura 16, solo S1 puede tener un par de rutas fusionable [??] [P.sub.Aa1], [P.sub.Aa2] [??] según el Lema A.2. Ahora, presentamos nuestra fórmula de conteo de rutas para [[PHI] .sub.aab] donde a no es un ancestro de b:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (A.1)

donde A: un ancestro común de ay b.

Cuando [??] [P.sub.Aa1], [P.sub.Aa2] [??] no se pueden combinar,

Tipo 1: [??] [P.sub.Aa1], [P.sub.Aa2], [P.sub.Ab] [??] no tiene superposición de raíz 2.

Tipo 2: [??] [P.sub.Aa1], [P.sub.Aa2], [P.sub.Ab] [??] tiene una ruta de superposición de 2 raíz [P.sub.As] que termina en los individuales.

Cuando [??] [P.sub.Aa1], [P.sub.Aa2] [??] es fusionable, Tipo 3: [??] [P.sub.Aa], [P.sub.Ab] [ ??] es un par de rutas que no se superponen

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (A.2)

En aras de la integridad, si a es un antepasado de b, no hay una fórmula recursiva para [[PHI] .sub.aab] en [10], pero podemos usar la fórmula recursiva para [[PHI] .sub. abc] o la fórmula de recuento de rutas para [[PHI] .sub.abc] para calcular [[PHI] .sub.a1a2b].

A.2. Fórmula de recuento de rutas para [[PHI] .sub.aabc]. Dado un path-quad [??] [P.sub.Aa1], [P.sub.Aa2] [P.sub.Ab], [P.sub.Ac] [??], si [??] [ P.sub.Aa1], [P.sub.Aa2] [??] no es fusionable, entonces procesamos el path-quad como equivalente a [??] [P.sub.Aa], [P.sub.Ab ], [P.sub.Ac], [P.sub.Ad] [??]. Si [??] [P.sub.Aa1] & gt [P.sub.Aa2] [??] es fusionable, el path-quad [??] [P.sub.Aa1], [P.sub.Aa2] , [P.sub.Ab], [P.sub.Ac] [??] pueden condensarse en escenarios para [??] [P.sub.Aa], [P.sub.Ab], [P.sub .C.A][??].

Ahora, presentamos una fórmula de conteo de rutas para [[PHI] .sub.aabc] donde a no es un ancestro de byc de la siguiente manera:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (A.3)

donde A: un ancestro cuádruple común de a, b, c y d.

Cuando [??] [P.sub.Aa1], [P.sub.Aa2] [??] no se pueden combinar,

Tipo 1: ruta de superposición de raíz cero 2 y ruta de superposición de raíz cero 3

Tipo 2: una ruta de superposición de 2 raíz [P.sub.As] que termina en s

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (A.4)

Cuando [??] [P.sub.Aa1], [P.sub.Aa2] [??] se pueden combinar,

Tipo 4: [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] tiene una ruta de superposición de 2 raíz cero

Tipo 5: [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] tiene un PA de ruta de superposición de 2 raíz que termina en s

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (A.5)

Tenga en cuenta que si a es un antepasado de bo c, o de ambos, entonces la fórmula de conteo de rutas de [[PHI] .sub.abcd] es aplicable para calcular [[PHI] .sub.a1a2bc].

A3. Fórmula de recuento de rutas para [[PHI] .sub.aaab]. Se introduce un caso especial de [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII] cuando se puede fusionar [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII].Con la existencia de un camino-triple fusionable, [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII] se puede condensar en [??] [P.sub.Aa], [P.sub.Ab] [??].

Definición A3 (Ruta fusionable-Triple). Dados tres caminos [P.sub.Aa1], [P.sub.Aa2] y [P.sub.Aa3], son fusionables si y solo si son completamente idénticos.

Lema A.4. Dado un path-quad [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], debe haber al menos un par de rutas fusionable entre [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII].

Prueba. Para un individuo a con dos padres f y m, el alelo paterno del individuo a se transmite de f y el alelo materno se transmite de m. A nivel de alelos, solo se permiten dos caminos de descendencia a partir de un antepasado. Para un path-quad [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], debe haber al menos un par de rutas fusionable entre [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII].

Para simplificar, tratamos [??] [P.sub.Aa1], [P.sub.Aa2] [??] como un par de rutas de acceso fusionable predeterminado.

Ahora, presentamos la fórmula de conteo de rutas para [[PHI] .sub.aaab] donde a no es un ancestro de b de la siguiente manera:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], (A.6)

donde A: un ancestro común de ay b.

Cuando solo hay un par de rutas fusionable (consideremos [??] [P.sub.Aa1], [P.sub.Aa2] [??] como el par de rutas fusionable),

Tipo 1: [??] [P.sub.Aa1], [P.sub.Aa3], [P.sub.Ab] [??] tiene una ruta de superposición de 2 raíz cero,

Tipo 2: [??] [P.sub.Aa1], [P.sub.Aa3], [P.sub.Ab] [??] tiene un PA de ruta de superposición de 2 raíz que termina en s.

Cuando ([P.sub.Aa1], [P.sub.Aa2], [P.sub.Aa3] [??] se puede combinar,

Tipo 3: [??] [P.sub.Aa], [P.sub.Ab] [??] no se superpone

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (A.7)

Tenga en cuenta que si a es un antepasado de b, tratamos [[PHI] .sub.aaab] = [[PHI] .sub.a1a2a3b]. Luego, aplicamos la fórmula de conteo de rutas para [[PHI] .sub.abcd] para calcular [[PHI] .sub.a1a2a3b].

B. Prueba de fórmulas de conteo de caminos de tres individuos

Primero demostramos que, para un ancestro común triple A, el cálculo de conteo de caminos de [[PHI] .abc] es equivalente al cálculo que usa fórmulas recursivas. Luego, probamos la exactitud del cálculo del recuento de caminos para múltiples ancestros comunes triples.

B.1. Un antepasado triple común. Teniendo en cuenta los diferentes tipos de trayectorias triples a partir de un ancestro común triple A en un gráfico genealógico G que contribuye a [[PHI] .sub.abc] y [[PHI] .sub.aab], G puede tener 5 casos diferentes:

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII] (B.1)

Con base en los 5 casos del Caso 2.1 al Caso 3.2, primero construimos un gráfico de dependencia que se muestra en la Figura 17, consistente con las fórmulas recursivas (3), (4) y (5) para los coeficientes de parentesco generalizados para tres individuos.

Luego, tomamos los siguientes pasos para probar la exactitud de las fórmulas de conteo de caminos (12) y (A.1):

(i) para [[PHI] .sub.ab], la exactitud de la fórmula de conteo de rutas (es decir, la fórmula de Wright) se prueba en [21]. Para el Caso 2.1 y el Caso 2.2, la corrección se prueba con base en la corrección de los Casos 3.1 y 3.2.

(ii) para el Caso 2.3, no tiene ciclo sino que solo depende de [[PHI] .sub.ab]. Por lo tanto, probamos la exactitud del Caso 2.3 al transformar el caso a [[PHI] .sub.ab]

(iii) para los casos 3.1 y 3.2, la corrección se prueba por inducción en el número de aristas, n, en el gráfico genealógico G.

B.1.1. Prueba de corrección para el caso 3.1

Caso 3.1. Para [[PHI] .sub.abc], G no tiene ningún camino triple [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] con superposición de raíces.

Prueba (base). Hay dos escenarios básicos: (i) un individuo es padre de otro (ii) ningún individuo es padre de otro, entre a, by c.

Usando la fórmula recursiva (3) para calcular 0abc, para la Figura 18 (a), [[PHI] .sub.abc] = (1/2) [[PHI] .sub.abc] = [(1/2). sup.2] [[PHI] .sub.abc] para la Figura 18 (b), 0abc = (1/2) [[PHI] .sub.abc] = [(1/2) .sup.2] [[ PHI] .abc] = [(1/2) .sup.3] [[PHI] .sub.AAA].

Utilizando la fórmula de recuento de rutas (12), si una ruta triple [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] no tiene superposición de raíz (es decir, Tipo 1), entonces la contribución de [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] a [[PHI] .sub. abc] se puede calcular de la siguiente manera: [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII].

Para la Figura 18 (a), c es el único ancestro común triple y obtenemos [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII].

Paso de inducción. Sea n el número de aristas en G. Suponga verdadero para n & lt k, donde k & gt 2. Entonces, mostramos que es verdadero para n = k + 1.

Para las Figuras 19 (a) y 19 (b), entre a, byc, sea a el individuo que tiene el camino más largo a partir de su ancestro común triple en el gráfico genealógico G con (k + 1) aristas. Si quitamos el nodo ay cortamos el borde f [flecha derecha] a de G, entonces el nuevo gráfico [G.sup. *] Tiene k bordes. En términos de cálculo de [[PHI] .sub.fbc], [G.sup. *] Satisface la condición para la hipótesis de inducción.

Para la Figura 19 (a), [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. Basado en la fórmula recursiva (3), [[PHI] .sub.abc] = (1/2) [[PHI] .sub.fbc] + [[PHI] .sub.mbc]) donde fym son padres de a. En G, a solo tiene un padre f, por lo tanto, indica [[PHI] .sub.mbc] = 0. Luego, podemos agregar la fórmula de conteo de rutas para [[PHI] .sub.fbc] para obtener

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (B.2)

B.1.2. Prueba de corrección para el caso 3.2

Caso 3.2. Para [[PHI] .sub.abc], G tiene caminos triples ([P.sub.Aa], P ^, [P.sub.Ac]) con superposición de raíz.

Prueba (base). Hay tres escenarios básicos: (i) hay dos individuos que son padres de otro (ii) solo hay un individuo que es padre de otro (iii) no hay un individuo que es padre de otro, entre a, b, y C.

Usando la fórmula recursiva (3) para calcular [[PHI] .sub.abc]: en la Figura 20, para la Figura 20 (a), [[PHI] .sub.abc] = (1/2) [[PHI]. sub.bbc] = [(1/2) .sup.2] [[PHI] .sub.abc] = [(1/2) .sup.3] [[PHI] .sub.cc] para la Figura 20 ( b), [[PHI] .abc] = (1/2) [[PHI] .sub.bbc] = [(1/2) .sup.] Ofcc = [(1/2) .sup. 4] [[PHI] .sub.AA] para la Figura 20 (c), [[PHI] .sub.abc] = [(1/2) .sup.2] [[PHI] .sub.ssc] = ( 1/2) 3 [[PHI] .sub.sc] = [(1/2) .sup.5] [[PHI] .sub.AA].

Utilizando la fórmula de recuento de rutas (12), si un triple de ruta [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] tiene superposición de raíz ( es decir, Tipo 2), luego la contribución de [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] a [[PHI] .sub.fbc ] se puede calcular de la siguiente manera: [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII] y s es el último individuo de la ruta de superposición raíz [P.sub.As].

Para la Figura 20 (a), c es el único ancestro común triple y obtenemos [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. De manera similar, para las Figuras 20 (b) y 20 (c), obtenemos [[PHI] .abc] = [(1/2) .sup.4] [[PHI] .sub.aa] y [[PHI ] .abc] = [(1/2) .su.5] [[PHI] .sub.AA], respectivamente.

Paso de inducción. Sea n el número de aristas en G. Suponga verdadero para n [menor o igual que] k, donde k [mayor o igual que] 2. Demuestre que es cierto para = fc + 1.

Para las Figuras 21 (a), 21 (b) y 21 (c), entre a, fc y c, sea a el individuo que tiene el camino más largo y p sea un padre de a. Luego, cortamos el borde p [flecha derecha] a de G y obtenemos un nuevo gráfico [Gsup. *] Que satisface la condición de la hipótesis de inducción. Para la Figura 21 (a), usamos la fórmula de conteo de caminos para [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII].

En G, f es el único padre de a, según la fórmula recursiva (3), tenemos [[PHI] .sub.abc] = (1/2) [[PHI] .sub.afc]. Luego, podemos conectar el [[PHI] .sub.fbc] y obtener

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (B.3)

Para las Figuras 21 (b) y 21 (c), seguimos los mismos pasos que calculamos [[PHI] .abc] para la Figura 21 (a).

En resumen, es cierto para n = fc + 1.

B.1.3. Prueba de corrección para el caso 2.3

Caso 2.3. Para [[PHI] .sub.aab], los caminos triples en el gráfico genealógico G tienen un par de caminos fusionable.

Prueba. Considerando la relación entre ay fc, G tiene dos escenarios: (i) fc no es un ancestro de a (ii) fc es un ancestro de a. Utilizando la fórmula de recuento de rutas (A.1), si un triple de ruta ([P.sub.Aa1], [P.sub.Aa2], [P.sub.Ab]) 6 Tipo 3, lo que significa que tiene un par de rutas fusionable, entonces la contribución de [??] [P.sub.Aa1], [P.sub.A2], [P.sub.Ab] [??] a [[PHI] .sub. aab] se puede calcular de la siguiente manera: [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII].

Usando la fórmula recursiva (4), obtenemos [[PHI] .sub.aab] = (1/2) ([[PHI] .sub.ab] + [[PHI] .sub.fmb]).

Para la Figura 22 (a), A es un ancestro común de ay fc. [??] a solo tiene uno de los padres f

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]. (B.4)

Para [[PHI] .sub.ab], usamos la fórmula de Wright y obtenemos [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII] OAA donde P denota todos los pares de caminos no superpuestos [??] [P.sub.Aa], [P.sub .Ab] [??].

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII].

Para la Figura 22 (b), también podemos transformar el cálculo de [[PHI] .sub.aab] en [[PHI] .sub.ab].

En resumen, muestra que la fórmula de recuento de caminos (A.1) es cierta para el Caso 2.3.

B.1.4. Prueba de corrección para los casos 2.1 y 2.2. Para [[PHI] .sub.aab], cuando no hay un triple de ruta que tenga un par de rutas fusionable, (es decir, el triple de ruta pertenece al Caso 2.1 o al Caso 2.3), [[PHI] .sub.aab] se puede transformar en [EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII], que es equivalente al cálculo de [[PHI] .abc] para los Casos 3.1 y 3.2. Está probada la exactitud de nuestra fórmula de recuento de rutas para los casos 3.1 y 3.2. Por lo tanto, obtenemos la exactitud para [[PHI] .sub.aab] cuando el triple de ruta pertenece al Caso 2.1 o al Caso 2.2.

B.2. Múltiples antepasados ​​triples comunes. Ahora, proporcionamos la prueba de corrección para múltiples antepasados ​​comunes triples con respecto a las fórmulas de conteo de caminos (12) y (A.1).

Lema A. Dado un gráfico genealógico G y tres individuos a, b, c que tienen al menos un ancestro común de viaje, [[PHI] .sub.abc] se calcula correctamente usando las fórmulas de conteo de caminos (12) y (A.1 ).

Prueba. Prueba por inducción sobre el número de antepasados ​​comunes triples.

Base. G tiene solo un ancestro común triple de a, by c.

La exactitud de (12) y (A.1) para G con solo un ancestro común triple de a, byc se demuestra en la sección anterior.

Hipótesis de inducción. Suponga que si G tiene ko menos antepasados ​​comunes triples de a, byc, 12) y (A.1) son correctos para G.

Paso de inducción. Ahora, mostramos que es cierto para G con k + 1 antepasados ​​triples comunes de a, by c.

Sea Tr_C (a, b, c, G) todos los antepasados ​​comunes triples de a, byc en G, donde Tri_C (a, b, c, G) = <[A.sub.i] | 1 [menor o igual que] i [menor o igual que] k + 1>. Sea A1 el antepasado común triple superior, de manera que no haya ningún individuo entre los antepasados ​​restantes <[A.sub.i] | 2 [menor o igual que] i [menor o igual que] k + 1> que es un antepasado de [A1]. Sea [menor o igual que] ([A1]) denota la contribución de A1 a [[PHI] .abc].

Debido a que A1 es el antepasado común triple superior, no hay [menor o igual que] ningún triple de ruta de <[A.sub.i] | 2 [menor o igual que] i [menor o igual que] k + 1> a a, byc que pasa por A1. Luego, podemos eliminar [A1] de G y eliminar todos los bordes salientes de [A1] y obtener un nuevo gráfico G 'que tiene k antepasados ​​comunes triples de a, byc . Significa Tri_C (a, b, c, G ') = <[A.sub.i] | 2 [menor o igual que] i [menor o igual que] k + 1>.

Para el nuevo gráfico G ', podemos aplicar nuestra hipótesis de inducción y obtener [[PHI] .abc] (G').

Para el antepasado triple común A1 más superior, hay dos casos diferentes considerando su relación con los otros antepasados ​​triple común:

(1) no hay ningún individuo entre <[A.sub.i] | 2 [menor o igual que] i [menor o igual que] k + 1> que es descendiente de [A1]

(2) hay al menos un individuo entre <[A.sub.i] | 2 [menor o igual que] i [menor o igual que] k + 1> que es descendiente de [A1].

Para (1), dado que ningún individuo entre <[A.sub.i] | 2 [menor o igual que] i [menor o igual que] k + 1> es un descendiente de A1, el conjunto de caminos triples de [A1] a a, byc es independiente de el conjunto de caminos triples de <[A.sub.i] | 2 [menor o igual que] i [menor o igual que] k + 1> a a, by c. También significa que la contribución de

[A1] a [[PHI] .abc] es independiente de la contribución de los otros antepasados ​​triples comunes.

Resumiendo todas las contribuciones, podemos obtener [[PHI] .abc] (G) = [[PHI] .abc] (G ') + S ([A1]).

Para (2), sea [Aj] un descendiente de [A1]. Ahora tanto [A1] como [Aj] pueden alcanzar a, by c.

Si [t.sub.a], [t.sub.b] y [t.sub.c] pasan todos a través de [t.sub.j], entonces el triple de ruta [pt.sub.i] no es un triple de ruta elegible para [[PHI] .sub.abc]. Cuando calculamos la contribución de A1 a [[PHI] .sub.abc], excluimos todos esos caminos triples donde [t.sub.a], [t.sub.b] y [t.sub.c] todos pasan por un ancestro común triple inferior. En otras palabras, una ruta triple elegible de [A1] con respecto a [[PHI] .abc] no puede tener tres rutas que pasen todas a través de un ancestro común triple inferior. Por lo tanto, sabemos que la contribución de A1 a [[PHI] .sub.abc] es independiente de la contribución de los otros ancestros triples comunes. Sumando todas las contribuciones, obtenemos [[PHI] .sub.abc] (G) = [[PHI] .sub.abc] (G ') + S (A 1).

C. Prueba para cuatro individuos y dos pares de individuos

Aquí, proporcionamos un bosquejo de prueba de la exactitud de las fórmulas de conteo de trayectorias para cuatro personas. En primer lugar, para cuatro individuos en un gráfico genealógico G, presentamos todos los casos diferentes en función de los cuales construimos un gráfico de dependencia. La exactitud de las fórmulas de recuento de caminos para individuos de dos pares se puede demostrar de manera similar.

C.1. Prueba para cuatro personas. Considere la existencia de diferentes tipos de path-quads con respecto a [[PHI] .sub.abcd], [[PHI] .sub.aabc] y [[PHI] .sub.aaab] hay 15 casos para un gráfico genealógico G :

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII]

[EXPRESIÓN MATEMÁTICA NO REPRODUCIBLE EN ASCII] (C.1)

Luego, construimos un gráfico de dependencia que se muestra en la Figura 23 para todos los casos para cuatro individuos.

De acuerdo con el gráfico de dependencia de la Figura 23, los pasos intermedios, incluidos los casos 3.4 y 3.5, ya están probados para el cálculo de [[PHI] .sub.abc]. La exactitud de la transformación del Caso 4.2 al Caso 3.4 puede probarse basándose en la fórmula recursiva para [[PHI] .sub.abcd] y [[PHI] .sub.aabc]. De manera similar, podemos obtener la transformación del Caso 4.3.1 al Caso 3.5.

C.2. Prueba para dos pares de personas. Considere la existencia de diferentes tipos de pares de rutas de 2 pares con respecto a [[PHI] .sub.ab, cd]. Hay 9 casos que se enumeran a continuación.

Caso4.1. G tiene [??] ([P.sub.Aa], [P.sub.Ab], ([P.sub.Ac], [P.sub.Aa]) [??] con homooverlap de raíz cero y cero heter-superposición de raíces.

Caso 4.2. G tiene [??] ([P.sub.Aa], [P.sub.Ab]), ([P.sub.Ac], [P.sub.Ad]) [??] con homooverlap de raíz cero y una raíz heter-superpuesta.

Caso4.3.1. G tiene [??] ([P.sub.Aa], [P.sub.Ab]), ([P.sub.Ac], [P.sub.Ad]) [??] con homo- superposición y dos raíces heter-superpuestas.

Caso4.3.2. G tiene [??] ([P.sub.Aa], [P.sub.Ab]), ([P.sub.Ac], [P.sub.Aa]) [??] con una raíz homo- superposición y dos raíces heter-superpuestas.

Caso 4.4. G tiene [??] ([P.sub.Aa], [P.sub.Ab]), ([P.sub.Ac], [P.sub.Ad]) [??] con un homooverlap de raíz y heter-superposición de raíz cero.

Caso4.5. G tiene [??] ([P.sub.Aa], [P.sub.Ab]), ([P.sub.Ac], [P.sub.Ad]) [??] con dos homooverlap de raíces y heter-superposición cero de raíz.

Caso4.6. G tiene caminos triples [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] con superposición de raíz cero.

Caso 4.7. G tiene caminos triples [??] [P.sub.Aa], [P.sub.Ab], [P.sub.Ac] [??] con una superposición de raíz.

Caso 4.8. G tiene pares de caminos [??] [P.sub.Tc], [P.sub.Td] [??] con superposición de raíz cero.

Luego, construimos un gráfico de dependencia para los casos relacionados con [[PHI] .sub.ab, cd] en la Figura 24.

De acuerdo con el gráfico de dependencia de la Figura 24, los casos 4.6, 4.7 y 4.8 son los pasos intermedios que ya se han probado para el cálculo de [[PHI] .sub.abc]. La exactitud de la transformación del Caso 4.2 al Caso 4.6 se puede probar basándose en la fórmula recursiva para [[PHI] .ab, cd] y [[PHI] .ab, cd]. De manera similar, podemos obtener la transformación de los casos 4.3.1 y 4.3.2 al caso 4.7, así como del caso 4.4 al caso 4.8 en consecuencia.

Los autores declaran que no existe ningún conflicto de intereses con respecto a la publicación de este artículo.

Los autores agradecen al profesor Robert C. Elston, Case School of Medicine, por presentarles los coeficientes de identidad y remitirlos a la literatura relacionada [7, 10, 17]. Este trabajo cuenta con el apoyo parcial de las subvenciones de la Fundación Nacional de Ciencias DBI0743705, DBI0849956 y CRI0551603 y de la subvención del Instituto Nacional de Salud GM088823.

[1] Lanzamiento de la nueva herramienta de historia de salud familiar del Cirujano General, lista para la "Medicina del siglo XXI", http://compmed.com/category/people-helping-people/page/7/.

[2] M. Falchi, P. Forabosco, E. Mocci et al., "Una búsqueda en todo el genoma que utiliza un enfoque original de muestreo por pares para grandes genealogías identifica un nuevo locus para el colesterol total y las lipoproteínas de baja densidad en dos aislamientos genéticamente diferenciados de Cerdeña , "The American Journal of Human Genetics, vol. 75, no. 6, págs. 1015-1031, 2004.

[3] M. Ciullo, C. Bellenguez, V. Colonna et al., "Nuevo locus de susceptibilidad a la hipertensión en el cromosoma 8q mediante la ruptura eficiente del pedigrí en un aislado italiano", Human Molecular Genetics, vol. 15, no. 10, págs. 1735-1743, 2006.

[4] Glosario de términos genéticos, Instituto Nacional de Investigación del Genoma Humano, http://www.genome.gov/glossary/?id=148.

[5] C. W. Cotterman, Un cálculo para estadística-genética [Ph.D. tesis], Columbus, Ohio, EE. UU., Ohio State University, 1940, reimpreso en P. Ballonoff, Ed., Genetics and Social Structure, Dowden, Hutchinson & amp Ross, Stroudsburg, Pensilvania, EE. UU., 1974.

[6] G. Malecot, Les mathique de l'heredite, Masson, París, Francia, 1948, edición traducida: The Mathematics of Heredity, Freeman, San Francisco, California, EE.UU., 1969.

[7] M.Gillois, "La relación de identidad en genética", Annales de l'Institut Henri Poincaré B, vol. 2, págs. 1-94, 1964.

[8] D. L. Harris, "Covarianzas genotípicas entre parientes consanguíneos", Genética, vol. 50, págs. 1319-1348, 1964.

[9] A. Jacquard, "Logique du calcul des coefficients d'identite entre deux individuales", Population, vol. 21, págs. 751-776, 1966.

[10] G. Karigl, "Un algoritmo recursivo para el cálculo de coeficientes de identidad", Annals of Human Genetics, vol. 45, no. 3, págs. 299-305, 1981.

[11] B. Elliott, S. F. Akgul, S. Mayes, y Z. M. Ozsoyoglu, "Evaluación eficiente de consultas consanguíneas en datos de pedigrí", en Actas de la XIX Conferencia Internacional sobre Gestión de Bases de Datos Científicas y Estadísticas (SSDBM '07), julio de 2007

[12] B. Elliott, E. Cheng, S. Mayes y Z. M. Ozsoyoglu, "Cálculo eficiente de la endogamia en grandes bases de datos de pedigrí", Information Systems, vol. 34, no. 6, págs. 469-492, 2009.

[13] L. Yang, E. Cheng y ZM (Ozsoyoglu, "Uso de codificaciones com [P.sub.Ac] t para cálculos basados ​​en rutas en gráficos genealógicos", en Actas de la Conferencia ACM sobre Bioinformática, Biología Computacional y Biomedicine (ACM-BCB '11), págs.235-244, agosto de 2011.

[14] E. Cheng, B. Elliott y ZM Ozsoyoglu, "Cálculo escalable de coeficientes de parentesco e identidad en grandes genealogías", en Actas de la 7ª Conferencia Internacional Anual sobre Bioinformática de Sistemas Computacionales (CSB '08), págs. 27- 36, 2008.

[15] E. Cheng, B. Elliott y ZM (Ozsoyoglu, "Cálculo eficiente de los coeficientes de parentesco e identidad en grandes genealogías", Journal of Bioinformatics and Computational Biology (JBCB), vol. 7, no. 3, págs. 429 -453, 2009.

[16] S. Wright, "Coeficientes de endogamia y relación", The American Naturalist, vol. 56, no. 645, 1922.

[17] R. Nadot y G. Vaysseix, "Algoritmo de parentesco e identidad de los coeficientes de identidad", Biometrics, vol. 29, no. 2, págs. 347-359, 1973.

[18] E. Cheng, Cálculos escalables basados ​​en rutas sobre datos genealógicos [Ph.D. tesis], Case Western Reserve University, Cleveland, Ohio, EE. UU., 2012.

[19] V. Ollikainen, Técnicas de simulación para la localización de genes de enfermedades en poblaciones aisladas [Ph.D. tesis], Universidad de Helsinki, Helsinki, Finlandia, 2002.

[20] H. T. T. Toivonen, P. Onkamo, K. Vasko et al., "Minería de datos aplicada al mapeo de desequilibrio de ligamiento", The American Journal of Human Genetics, vol. 67, no. 1, págs. 133-145, 2000.

[21] W. Boucher, "Cálculo del coeficiente de consanguinidad", Journal of Mathematical Biology, vol. 26, no. 1, págs. 57-64, 1988.

En Cheng (1) y Z. Meral Ozsoyoglu (2)

(1) Departamento de Ciencias de la Computación, Universidad de Akron, Akron, OH 44325, EE. UU.

(2) Departamento de Ingeniería Eléctrica y Ciencias de la Computación, Case Western Reserve University, 10900 Euclid Avenue, Cleveland, OH 44106, EE. UU.


Probabilidades en el cálculo del coeficiente de parentesco - Biología

Dado que existe un número finito de alelos en la mayoría de los loci genéticos, los individuos pueden exhibir el mismo genotipo en un locus particular pero, sin embargo, portan cromosomas distintos. La información sobre las frecuencias alélicas y los marcadores vecinos se puede utilizar para estimar la probabilidad de que dos individuos en realidad hereden el mismo cromosoma de los fundadores en el pedigrí.

MERLIN puede estimar el número de alelos compartidos idénticos por descendencia entre parientes en un árbol genealógico, y resumir esta información como probabilidades de que un par dado comparta 0, 1 o 2 alelos IBD o como el coeficiente de parentesco entre cada par en un particular. lugar.

Algunos programas requieren estimaciones de EII como entrada para su análisis. Por ejemplo, QTDT prueba la asociación usando todos los fenotipos de individuos relacionados y requiere matrices de IBD para distinguir entre ligamiento y asociación.

Para este ejemplo, usaremos un conjunto de datos simulados que encontrará en el subdirectorio de ejemplos de la distribución MERLIN o en la página de descarga.

El conjunto de datos incluye 50 familias, cada una con 4 hermanos, genotipadas para 3 marcadores SNP y también se utiliza en el tutorial QTDT. Usaremos MERLIN para estimar IBD para este conjunto de datos en un formato que está listo para ser usado por QTDT.

Ya debería estar familiarizado con los formatos de archivo de entrada. Los datos consisten en un archivo de pedigrí (sibs.ped), que especifica las relaciones individuales, genotipos y fenotipos. Además, un archivo de mapa (sibs.map) proporciona ubicaciones de marcadores y un archivo de datos (sibs.dat) describe el conjunto de datos.

Como de costumbre, siempre es una buena idea verificar el contenido de los archivos de entrada ejecutando pedstats:

Para calcular matrices IBD por pares, usaremos la opción de línea de comando --ibd. Dado que MERLIN etiqueta todos los resultados con posiciones cromosómicas de forma predeterminada, también usaremos la opción --markerNames para solicitar que la salida incluya los nombres de los marcadores requeridos por QTDT. Entonces, el comando:

Estimará los coeficientes de IBD para todos los pares relativos y producirá un archivo merlin.ibd listo para ser utilizado por QTDT. Cada línea en merlin.ibd comienza con un identificador de familia seguido de identificadores para dos individuos. A esto le siguen los nombres de los marcadores y las probabilidades de compartir 0, 1 y 2 alelos de la EII.

Las opciones de uso común al estimar los coeficientes de EII incluyen --un punto (que considera cada marcador de forma independiente) y --pasos n (que solicita análisis en n posiciones entre marcadores) o la - cuadrícula k (que solicita análisis cada k cM a lo largo del cromosoma) .


FS T y parentesco para estructuras de población arbitrarias I: Definiciones generalizadas

FS T es una medida fundamental de diferenciación genética y estructura poblacional, actualmente definida para poblaciones subdivididas. FS T en la práctica, típicamente asume subpoblaciones independientes que no se superponen, que todos se separan simultáneamente de su última población ancestral común de modo que la deriva genética en cada subpoblación es probabilísticamente independiente de las otras subpoblaciones. Introducimos un generalizado FS T definición de estructuras de población arbitrarias, donde los individuos pueden estar relacionados de manera arbitraria, lo que permite una dependencia probabilística arbitraria entre individuos. Nuestras definiciones se basan en probabilidades de identidad por descendencia (EII) que relacionan a los individuos mediante coeficientes de consanguinidad y parentesco. Generalizamos FS T como el coeficiente medio de consanguinidad de las poblaciones locales de los individuos en relación con su última población ancestral común. Mostramos que la definición generalizada concuerda con las definiciones de subpoblación original e independiente de Wright como casos especiales. Definimos un modelo de coancestría novedoso basado en “frecuencias alélicas específicas de cada individuo” y probamos que sus parámetros corresponden a coeficientes de parentesco probabilístico. Por último, ampliamos el modelo de mezcla de Pritchard-Stephens-Donnelly en el contexto de nuestro modelo de coancestría y calculamos su FS T. Para motivar este trabajo, incluimos un resumen de los análisis que hemos realizado en los artículos de seguimiento, donde nuestro nuevo enfoque ha sido aplicado a simulaciones y datos humanos globales, mostrando la complejidad de la estructura de la población humana, demostrando nuestro éxito en la estimación del parentesco y FS Ty las deficiencias de los enfoques existentes. El marco probabilístico que presentamos aquí proporciona una base teórica que se extiende FS T en términos de coeficientes de consanguinidad y parentesco con estructuras de población arbitrarias, allanando el camino para nuevos estimadores y análisis novedosos.

Nota: Este artículo es la Parte I de manuscritos en dos partes. Nos referimos a estos en el texto como Parte I y Parte II, respectivamente.


Regla de probabilidad uno

Nuestra primera regla simplemente nos recuerda la propiedad básica de la probabilidad que ya hemos aprendido.

La probabilidad de un evento, que nos informa de la probabilidad de que ocurra, puede oscilar entre 0 (que indica que el evento nunca ocurrirá) y 1 (que indica que el evento es cierto).

Regla de probabilidad uno:

NOTA: Un uso práctico de esta regla es que puede usarse para identificar cualquier cálculo de probabilidad que resulte ser más de 1 (o menos de 0) como incorrecto.

Antes de pasar a las otras reglas, veamos primero un ejemplo que proporcionará un contexto para ilustrar las siguientes reglas.


Calcular coeficientes de consanguinidad a partir de datos

Si la heterocigosidad observada en una población es (H_O ), y suponemos que se cumplen las proporciones generalizadas de Hardy-Weinberg, podemos establecer (H_O ) igual a (f_ <12> ) y resolver la ecuación. para (F ) para obtener una estimación del coeficiente de consanguinidad como

Como antes, (p ) es la frecuencia del alelo (A_ <1> ) en la población. Esto se puede reescribir en términos de la heterocigosidad observada ( (H_O )) y la heterocigosidad esperada en ausencia de endogamia, (H_E = 2pq ), como [ hat = frac = 1 - frac. etiqueta] Por lo tanto, ( hat) cuantifica la desviación debida a la endogamia de la heterocigosidad observada de la esperada en el apareamiento aleatorio, en relación con este último. Si tenemos múltiples loci, podemos reemplazar (H_O ) y (H_E ) por sus medios sobre loci, ( bar_O ) y ( bar_E ), respectivamente. Tenga en cuenta que, en principio, también podríamos calcular (F ) para cada locus individual primero y luego tomar el promedio entre los loci. Sin embargo, este procedimiento es más propenso a introducir un sesgo si los tamaños de muestra varían entre los loci, lo que no es improbable cuando se trata de datos reales.

Suponga que se observan las siguientes frecuencias genotípicas en un locus de esterasa en una población de Drosophila (A denota el alelo "rápido" y B denota el alelo "lento"):

¿Cuál es la estimación del coeficiente de consanguinidad en el locus de esterasa?


Probabilidades en el cálculo del coeficiente de parentesco - Biología

Si se dispone de datos suficientes, una forma de determinar la importancia de un antepasado es calcular su contribución porcentual a los perros actuales. El% de contribución (también conocido como porcentaje de sangre) está determinada por la forma en que los genes se transmiten de los padres a la progenie. Un individuo hereda un conjunto de cromosomas y los genes que llevan de su padre y un segundo conjunto homólogo (equivalente) de la madre. Por lo tanto, cada padre hace una contribución del 50%. Como los padres de cualquier generación siempre contribuyen con el 50% de sus genes a su progenie, parece razonable esperar que el 25% provenga de cada abuelo, el 12,5% de cada bisabuelo, etc. Sin embargo, una vez que pasamos de los padres, estamos tratando con probabilidades, no con certezas. ¡Esto no es como mezclar pintura! Cuando papá le pase un juego de sus cromosomas, estos incluirán una selección de los heredados de ambos padres, pero no hay garantía de que la selección sea exactamente igual. Incluso existe una pequeña posibilidad (muy pequeña) de que transmita los de uno solo de sus padres.

En el momento en que retrocedamos 10 generaciones, la contribución de cada uno de los 1024 antepasados ​​ascendería, en teoría, a algo menos del 0,1%. Sin embargo, en el pedigrí del perro de raza pura promedio, rara vez hay más de 100-200 nombres diferentes y algunos aparecen 50 veces o más. Estos son los ancestros importantes que hacen las principales contribuciones genéticas.

Si tiene un árbol genealógico, puede calcular el porcentaje de contribución de cualquier repetición simplemente multiplicando el número de veces que aparece cada antepasado en cualquier generación por el porcentaje apropiado para esa generación y luego sume todo el porcentaje calculado de contribuciones de cada generación. La tabla que se muestra a continuación muestra el porcentaje de sangre heredada de cada antepasado en los niveles de generación dados. La generación & quot1 & quot son los padres.

Contribución genética de los antepasados
Generacion 1 2 3 4 5 6 7 8 9 10
% Contribución 50.0 25.0 12.5 6.25 3.125 1.563 0.781 0.391 0.195 0.098

Debe obtener un número entre 0 y 1 multiplicado por 100% para obtener el% de contribución.

Existen bases de datos para muchas razas que contendrán los datos que le permitirán extender un pedigrí a 10 generaciones o más. El cálculo manual, aunque tedioso, todavía es posible, pero difícilmente conveniente. Varios programas de pedigrí (por ejemplo, CompuPed) calcularán rápidamente el porcentaje de contribución para los antepasados ​​seleccionados o todos los antepasados ​​para un número específico de generaciones, brindándole información sobre qué perros han sido más influyentes.

Coeficientes de consanguinidad

Si bien la mayoría de los criadores reconocen que un apareamiento entre medio hermanos o primos representa la endogamia, la mayoría probablemente no tiene idea de cuál es la relación más cercana. Esto no se ve ayudado por la definición no estándar de endogamia en algunos libros (por ejemplo, "Breeding Better Dogs" de Onstott).

La definición estándar de endogamia es que es cualquier esquema que da como resultado que el padre y la madre tengan ancestros comunes. Muchos criadores usan el término "endogamia" para parientes cercanos y "línea de reproducción" para individuos más distantes, pero no existe una diferencia fundamental.

El parámetro utilizado para expresar esta herencia común se llama coeficiente de consanguinidad y fue propuesto por primera vez por Sewell Wright en 1922. Designado F por Wright (pero más comúnmente IC o COI por los criadores), teóricamente puede oscilar entre 0 y 100%, e indica la probabilidad de que los dos alelos de cualquier gen sean idéntico por descendencia.

La consecuencia principal de la endogamia es aumentar la homocigosidad. Sin embargo, la CI no es una medida directa de homocigosidad porque los dos alelos transmitidos de diferentes antepasados ​​pueden ser funcionalmente iguales. Además, alguna proporción de todos los genes será homocigoto porque solo hay un alelo. El IC sirve como indicador de qué proporción del resto puede haberse convertido en homocigoto por consanguinidad.

El coeficiente de consanguinidad es función del número y la ubicación de los antepasados ​​comunes en un pedigrí. Está no una función, excepto indirectamente, de la consanguinidad de los padres. Por lo tanto, se pueden aparear dos individuos altamente consanguíneos que comparten un ancestro común pequeño y producen una camada con un CI muy bajo. (Debido a que el número potencial de ancestros se duplica en cada generación, eventualmente se llega a un punto en el que el número de ancestros excede el número de individuos vivos en ese momento. Por lo tanto, está obligado a encontrar algunos ancestros comunes si retrocede lo suficiente). Por el contrario, es posible aparear dos perros estrechamente relacionados, ambos con CI bajos, y aumentar el CI sustancialmente.

El método más utilizado para calcular los coeficientes de consanguinidad es el método de "caminos" de Wright (ver nota), que se ilustra mejor con un ejemplo sencillo. Supongamos que nos emparejamos a medio hermanos, siendo el padre el antepasado común, Anson. Don es el hijo de Anson y Bess Eva, la hija de Anson y Claire. Fred es uno de sus descendientes.

Para simplificar, no mostramos los antepasados ​​que no se comparten:

Ahora consideramos un gen para el que Anson porta dos alelos diferentes, a1 y a2. Hay un 50% de probabilidad de que el alelo que Anson le pasó a Don se le pase a Fred. También hay un 50% de probabilidad de que el mismo alelo pase de Anson a Eva, y un 50% de probabilidad de que pase de Eva a Fred, si Eva lo consiguió. Cuando se trata de eventos que son contingentes (esto * y * eso debe suceder), multiplicamos las probabilidades, en este caso 0.5 x 0.5 x 0.5 = 0.125 (12.5%). Este número final es la probabilidad de que Fred sea homocigoto para cualquiera a1 o a2 por el abuelo común.

En general, el método de Wright es determinar el camino desde Fred hasta el ancestro común, Anson, y de regreso al otro lado del pedigrí (Fred-Don-Anson-Eva-Fred), contar el número de individuos en el camino, excluyendo a Fred (hay 3, Don-Anson-Eva) y luego calcule & # 189 n , donde n es ese número. Entonces, en el caso presente, tenemos (& # 189) 3 o (& # 189 x & # 189 x & # 189) = 1/8, o 12,5%. Si este fuera el único ancestro común, el coeficiente de consanguinidad de Fred sería del 12,5%.

Ahora, suponga que el antepasado común fuera uno de los abuelos de los padres (es decir, un bisabuelo de la camada). Esto agrega un individuo a cada lado del pedigrí, de modo que obtendremos un camino del tipo Fred-X-Don-Anson-Eva-Y-Fred, y la consanguinidad en Anson será (1/2) 5 o 1 / 32 (3,125%).

Como muchos otros cálculos genéticos, el IC se basa en probabilidades, no en certezas. Un individuo puede ser más o menos consanguíneo que el número calculado.

Si solo tuviéramos un ancestro común con el que lidiar, la vida sería relativamente simple. Sin embargo, hay dos complicaciones con las que lidiar. La primera es que habrá más de un ancestro común. Consideremos el caso de los primos hermanos. En las poblaciones humanas, este emparejamiento está prohibido en algunas sociedades, pero se permite en otras. Ya hemos calculado la consanguinidad para un solo abuelo compartido. Los primos hermanos tienen dos abuelos compartidos, y simplemente agregamos el coeficiente de consanguinidad para cada uno para obtener 6.25%.

La segunda complicación es que el ancestro común puede ser endogámico. Si es así, se deberá calcular su coeficiente de consanguinidad. Para tener en cuenta esto, tenemos que multiplicar el coeficiente de consanguinidad calculado para Fred por (1 + F A), donde F A es el coeficiente de consanguinidad calculado para Anson. Por ejemplo, si Anson es el producto de un apareamiento de primos hermanos, la consanguinidad total de Fred será 0,125 x 1,0625 = 0,133 (13,3%) si no hay otros antepasados ​​compartidos en el pedigrí.

Desafortunadamente, en el pedigrí promedio, hay una gran cantidad de antepasados ​​compartidos. Por lo tanto, la consanguinidad total de un perro generalmente no se puede calcular manualmente y se debe utilizar el software adecuado (por ejemplo, CompuPed). Calcular la consanguinidad solo para las primeras generaciones no es particularmente útil. Si hay más de uno o dos ancestros comunes en un pedigrí de cuatro o cinco generaciones, la consanguinidad probablemente ya sea mayor de lo deseable. Desafortunadamente, no tener ninguno no es garantía de que los ancestros comunes no ocurran en abundancia más atrás, y algunos pedigríes de este tipo aún logran coeficientes de consanguinidad moderadamente altos. Tampoco se puede utilizar el número de ancestros compartidos como una guía confiable, ya que el coeficiente de consanguinidad es muy sensible a cuándo y dónde ocurren en un pedigrí.

¿Existe una forma rápida de determinar qué tan genéticamente similares son dos perros?

Supongamos que un criador tiene dos hembras (A y B) que quiere aparearse con diferentes machos. Después de una cuidadosa investigación, ha identificado tres machos potencialmente adecuados (C, D y E), todos los cuales se ven igualmente bien. Ella espera obtener un cachorro macho de una camada y una hembra de la otra, y eventualmente le gustaría criarlos entre sí. El objetivo podría ser elegir la combinación que minimice la potencial endogamia.Alternativamente, puede estar buscando dos perros que no sean parientes cercanos pero que tengan una herencia similar.

Un enfoque sería producir camadas hipotéticas para todas las combinaciones: AC, AD, AE, BC, BD y BE. Entonces tendríamos que mirar las posibilidades para la segunda generación. Habrá seis si no permitimos abuelos compartidos y 36 si no hay restricciones. Estas camadas potenciales luego podrían evaluarse para determinar la consanguinidad o el% de contribución de ancestros importantes. Esto sin duda proporcionará los datos, pero es innecesariamente tedioso.

El coeficiente de relación

El coeficiente de relación (RC) proporciona una forma de evaluar objetivamente la similitud de dos genealogías al dar un número que es una medida directa de la ascendencia compartida. En la mayoría de las poblaciones humanas, dos individuos seleccionados al azar probablemente tendrían un RC de 0, un hermano y una hermana del 50% y gemelos idénticos del 100%. Otras relaciones caerían entre 0 y 50%.

El número generado puede verse como análogo al porcentaje de composición, excepto que está comparando dos perros en lugar de mirar uno. Un hermano y una hermana darán un valor del 50% siempre que no se repita un antepasado. Una vez que los ancestros comienzan a repetirse, los individuos ya no tienen un coeficiente de consanguinidad de cero. Dos hermanos de una línea altamente consanguínea pueden tener un RC del 80% o más, y dos perros que no son hermanos pueden tener un RC superior al 50%.

La fórmula del RC es:
RAB = 2FAB & # 247 [(1 + FA) (1 + FB)] ½
dónde FAB es el coeficiente de consanguinidad de una camada hipotética entre A y B, y FA y FB son los coeficientes de consanguinidad para los dos individuos, A y B.

Un enfoque más simple para el problema del criador sería calcular los RC para C frente a D y E, y D frente a E. Este no es un cálculo con lápiz y papel. Sin embargo, ante ese problema, me tomó alrededor de 2 minutos obtener los tres RC con la última versión de CompuPed. Mis resultados fueron RCD 10,4%, RCE 13,4%, RDelaware 17.2%.

Como D y E comparten la ascendencia más común, también lo haría la progenie de sus dos posibles camadas, mientras que C y D comparten la menor. Para minimizar la endogamia y maximizar la diversidad, serían mi elección, en igualdad de condiciones. (Estos valores en realidad caen todos por debajo del promedio de la raza, que es

El coeficiente de parentesco

los FAB El término en la ecuación RC a veces se denomina "coeficiente de parentesco" y también puede usarse como una medida de la relación entre dos individuos. Su cálculo es el mismo que el de un coeficiente de consanguinidad para una camada hipotética entre los dos perros. (No importa si son del mismo sexo).

El parentesco mediomkI) para individuo I es el promedio de los coeficientes de parentesco (Fij) Entre I y todos los demás individuos reproducibles de la población:


Un biólogo conservacionista consideraría al individuo con la más bajo significa que el parentesco es el más valioso genéticamente en términos de mantener la diversidad en la población, y trataría de favorecer a ese individuo en un programa de reproducción.

Nota: Un enfoque alternativo, a menudo denominado método "tabular", calcula la endogamia desde el antepasado más antiguo hasta el perro (o perros) actual.

& copia John B. Armstrong, 1998, 1999


Simulaciones

En esta sección, evaluamos el enfoque de la razón de verosimilitud para distinguir las relaciones 3 / 4S de FS y 2nd mediante el uso de datos simulados. Se simularon pedigríes a partir de los datos genéticos de los individuos del proyecto GCAT, utilizando el método ped-sim de Caballero et al. (2019). Aplicamos este método para tener en cuenta la recombinación mediante el uso de mapas genéticos específicos del sexo (Bherer et al., 2017) y también un modelo de interferencia cruzada (Campbell et al., 2015). Las simulaciones se llevaron a cabo como sigue. Primero, identificamos 4147 individuos potencialmente no emparentados con coeficiente de parentesco & lt0.025. De estos individuos, retenemos 537488 SNP autosómicos con frecuencia de alelos menores (MAF) & gt 0.01, Hardy-Weinberg exacto mid pag value & gt 0.05 (Graffelman y Moreno, 2013) y tasa de llamadas perdidas cero. Los genotipos de los individuos no emparentados se escalonaron con SHAPEIT4 (Delaneau et al., 2019) y se utilizaron como entrada para el método ped-sim. Luego, simulamos 500 árboles genealógicos que contienen un par FS y 500 árboles genealógicos que contienen un par 3 / 4S. En total, utilizamos 3000 individuos GCAT aleatorios como fundadores para generar 3000 individuos artificiales. El número de pares relacionados simulados fue 4.000 PO, 500 FS, 500 3 / 4S y 3.500 de segundo grado de un total de 17.997.000 de pares. Para estimar las probabilidades de EII y el coeficiente de parentesco para estos pares simulados, utilizamos 27.087 SNP obtenidos reteniendo variantes con MAF & gt 0.40 y mediante poda de LD, lo que requiere que los marcadores tengan una correlación de pares baja (r 2 y 0,20).

La Figura 1 muestra el ((< hat> _ <0>, < sombrero> _ <1>) ) -plot para estos pares de individuos simulados. Las probabilidades de EII se estimaron con el software PLINK (Purcell et al., 2007). Como se esperaba, las probabilidades estimadas de EII están cerca de los valores teóricos esperados de la Tabla 1 para la mayoría de los pares de individuos. En la Fig. 1, las relaciones 3 / 4S muestran una buena separación de las relaciones de segundo grado, pero se mezclan hasta cierto punto con los pares FS. Las probabilidades estimadas de EII parecen estar centradas en sus valores esperados para los pares FS, 3 / 4S y de segundo grado, y tienen una varianza mayor que los pares PO y UN. El poder discriminativo de nuestro método depende de manera crucial de la varianza de estas probabilidades estimadas (Hill y Weir, 2011).

18 millones de pares de individuos simulados que utilizan 27.087 SNP.

ONU: no emparentados 2do: relaciones de segundo grado 3 / 4S: hermanos tres cuartos. FS: hermanos completos. PO: padre-hijo. Los puntos abiertos marrones representan probabilidades teóricas de EII marrón + firma el promedio del grupo correspondiente.

Los diagramas de caja del estimador de parentesco propuesto recientemente por Goudet & amp Weir (Goudet et al. (2018), Weir y Goudet (2017)) que se muestran en la Fig.2 muestran claramente una diferencia en la mediana para 3 / 4S y relaciones de 1er y 2do grado , aunque la distribución del coeficiente de parentesco de los 3 / 4S se superpone con los de los pares de 1º y 2º grado. Además, los coeficientes de parentesco pueden ser idénticos para diferentes relaciones, como es el caso de PO y FS. Por lo tanto, de acuerdo con la Ec. (3), calculamos el FS

Razones de verosimilitud de la ONU para pares simulados de 500 2nd, 500 3 / 4S y 500 FS. La Figura 3 muestra que los pares FS tienen en su mayoría los valores LR más grandes en el FS

Relación ONU, los pares 3 / 4S tienen en su mayoría los valores LR más grandes en el 3 / 4S

La proporción de la ONU y los pares de segundo grado tienen mayormente LR en el segundo

NACIONES UNIDAS. Tenga en cuenta el perfil de datos trazados en forma de un patrón de signo "mayor que" ("& gt") que sugiere la inferencia de 3 / 4S para la mayoría de los pares 3 / 4S. De hecho, la tasa de clasificación correcta del enfoque LR para los pares simulados 2º, 3 / 4S y FS es 500/500 = 1, 479/500 = 0,958 y 475/500 = 0,95, respectivamente. Al comparar la tasa de clasificación correcta del enfoque LR con el enfoque LR-kinbiplot (Graffelman et al., 2019) basado en 500 FS, 500 3 / 4S, 3500 2nd y 5,000 UN pares simulados (Fig. S1), observamos tasas de clasificación ligeramente más bajas para 3 / 4S (478/500 = 0,956) y FS (468/500 = 0,936) utilizando un análisis discriminante lineal y tasas de clasificación ligeramente mejores para 3 / 4S (481/500 = 0,962) y FS (483/500 = 0,966) cuando se utiliza el análisis discriminante cuadrático como modelo predictivo. Estas simulaciones muestran que el enfoque LR propuesto es útil para distinguir las relaciones 3 / 4S de FS y relaciones de segundo grado, y tiene un rendimiento similar al enfoque LR-kinbiplot propuesto anteriormente.


Ver el vídeo: What is the Kinship? Genetics (Noviembre 2022).