Todo DNA conta uma história
como a desvendamos
As análises da Genera são realizadas em nosso parque tecnológico – o maior da América Latina. Os resultados são obtidos a partir da análise de até 700 mil regiões do DNA: marcadores genéticos selecionados são comparados com nosso banco de dados, que conta com mais de 6.400 amostras de referência, obtidas por meio de dezenas de estudos científicos e oriundas de 300 populações de todo o mundo.
As análises da Genera são realizadas em nosso parque tecnológico – o maior da América Latina. Os resultados são obtidos a partir da análise de até 700 mil regiões do DNA: marcadores genéticos selecionados são comparados com nosso banco de dados, que conta com mais de 6.400 amostras de referência, obtidas por meio de dezenas de estudos científicos e oriundas de 300 populações de todo o mundo.
PARTE I
O que procuramos?
Existem regiões do DNA que se alteraram mais que outras no decorrer de gerações e costumam ser utilizadas como marcadores genéticos. No caso do teste de ancestralidade, analisamos SNPs (sigla em inglês para “Polimorfismo de Nucleotídeo Único”). Estes marcadores em específico consistem em mutações de apenas um nucleotídeo, ou seja, em um dos quatro tipos de molécula que compõem o DNA, representadas pelas letras A, T, C e G. Portanto, um SNP é uma variação de um par de letras da sequência genética.
Por exemplo, algumas pessoas podem ter uma sequência ATTC, enquanto outras têm AGTC. Essa troca da letra T por G é um SNP. Por possuírem uma taxa de mutação muito baixa, a troca de letrinhas é considerada um evento raro e que demora muito para ter uma frequência considerável nas populações. O conjunto das frequências populacionais de milhares de SNPs nos dá um perfil genético para cada população.
O Brasil, por ter recebido a entrada de muitos imigrantes em pouco tempo, apresenta um perfil genético bastante variado, composto principalmente por europeus, africanos e ameríndios.
PARTE II
Nosso banco de dados
O gráfico abaixo mostra o perfil genético de sete grupos populacionais principais (África, América, Ásia, Europa, Judaica, Oceania e Oriente Médio), dos quais fazem parte as 78 regiões e sub-regiões. Por se tratar de populações geograficamente distantes, os perfis acabam sendo bastante distintos entre si, o que é representado pelas cores praticamente homogêneas de cada bloco.
O gráfico mostra, por exemplo, que a amostra populacional da África Subsaariana, representada pela cor branca, é quase homogênea, ou seja, ela compartilha um perfil genético em comum. Ainda assim, alguns indivíduos dessa população possuem um componente vermelho significativo, que estaria relacionado ao Oriente Médio.
As regiões e sub-regiões que compõem cada grupo do nosso teste estão descritas abaixo:
- Norte da Etiópia
- Centro-Sul da Etiópia
- Somália
- Oeste do Quênia
- Região dos Grandes Lagos (Povos Bantu Orientais)
- Sul do Sudão e Sudoeste da Etiópia
- Oeste da Etiópia
- Sudão
Oeste da África
Senegâmbia
Mandê
Costa da Mina
Bayaka
Mbuti
- Norte da Itália
- Centro-Sul da Itália
Cáucaso
- Armênia
- Geórgia
- Norte do Cáucaso (Rússia)
- Bulgária e Macedônia do Norte
- Croácia e Bósnia-Herzegovina
- Grécia
- Romênia e Moldávia
- Sérvia e Montenegro
- Rússia (região Volga-Ural)
- Lapônia (Povos Saami)
- Lituânia, Letônia e Estônia
- Centro-Oeste da Rússia
- Polônia e Eslováquia
- Ucrânia e Bielorrússia
- Ilhas Britânicas
- Alemanha, França e Países Baixos
Sardenha
Fenoscândia
América Central
América Andina
- Lago Titicaca (Uros, Quechua e Aymara)
- Região Central dos Andes (Povos Aymaras e Quechuas)
Tupi
- Tupi Ariquém
- Tupi Mondé
- Turcomenistão, Uzbequistão, Cazaquistão e Quirguistão
- Tajiquistão
- Paquistão (Província do Baluquistão)
- Bangladesh
- Índia e Sri Lanka
- Paquistão (Povos Sindhi, Burusho e Pathan)
- Laos
- Malásia
- Myanmar
- Vietnã
- China Dai
- Norte da Sibéria
- Sibéria Ocidental
- Sibéria Oriental e Mongólia
- Japão
- Coreia
- Filipinas
- Brunei
Mongol
- Jordânia
- Síria e Líbano
Arábia e Egito
- Egito
- Israel
- Arábia Saudita, Iêmen e Emirados Árabes
- Argélia e Tunísia
- Marrocos
- Ilhas Salomão
- Papua Nova Guiné
As sub-regiões de cada local apresentam um resultado qualitativo da ancestralidade de uma pessoa, diferente das regiões, que apresentam valores quantitativos. O resultado qualitativo serve para informar, dentro de cada região, qual é o local mais provável de origem do DNA detectado.
Como inferimos a ancestralidade de uma pessoa?
A partir das frequências alélicas de cada SNP para cada uma das populações, calculamos, pelo método de máxima verossimilhança, a composição ancestral mais provável do DNA do indivíduo analisado. Nesta abordagem, presume-se uma distribuição multinomial e busca-se a combinação de populações que melhor explique o genótipo do indivíduo. Além disso, utilizando modelos de machine learning, ajustamos a ancestralidade e calculamos os valores de ancestralidade dos grupos mais específicos. Para mais detalhes, ver em apêndice para nerds.
Validação
A fim de investigar a eficiência da calculadora de ancestralidade, conduziu-se uma amostragem estratificada de cada população, resultando em um total de 1530 indivíduos de ancestralidade conhecida e que foram utilizados para avaliar as métricas de precisão e sensibilidade do método. A precisão resume o quanto o método é assertivo ao indicar a maior ancestralidade, ao passo que a sensibilidade indica a proporção da maior ancestralidade assinalada corretamente pelo método, considerando os indivíduos de determinada ancestralidade. Em outras palavras, a precisão responde à pergunta:Já a métrica de sensibilidade busca responder o seguinte:“Quando o método atribui a maior ancestralidade à população X, com que frequência esta atribuição, de fato, reflete a população X?”
Por exemplo, na tabela 1, verificamos que o método resulta em 100% de sensibilidade para os indivíduos pertencentes ao grupo “América Andina”, ou seja, o mesmo indica corretamente que a maior proporção de ancestralidade dos indivíduos é de fato dessa região. Em contrapartida, para o mesmo grupo, verificamos 94,0% de precisão, revelando que 6,0% dos casos, analisados como se fossem majoritariamente da América Andina, têm outra região de origem como predominante. Essa região de origem, geralmente, corresponde a outras populações que são geneticamente semelhantes, como outros grupos populacionais nativos da América, no caso da população andina.“Das amostras oriundas da população X, com que frequência o método, corretamente, atribui a maior ancestralidade dessas amostras à população X?”
Grupo | Precisão | Sensibilidade |
Ásia central | 99,0% | 81,0% |
Sul da Ásia | 99,0% | 100,0% |
Bayaka | 100,0% | 100,0% |
Mbuti | 100,0% | 100,0% |
Melanésia | 100,0% | 100,0% |
Europa Ocidental | 95,0% | 90,0% |
Arábia e Egito | 68,0% | 90,0% |
Amazônia | 100,0% | 91,0% |
Sudeste Asiático | 99,0% | 99,0% |
Japão e Coreia | 100,0% | 100,0% |
Tupi | 100,0% | 100,0% |
América Central | 98,0% | 100,0% |
Senegâmbia | 94,0% | 100,0% |
Costa da Mina | 93,0% | 100,0% |
China Han | 97,0% | 99,0% |
América do Norte | 100,0% | 100,0% |
Itália | 92,0% | 99,0% |
Mongol | 75,0% | 71,0% |
Magrebe | 100,0% | 89,0% |
Basco | 100,0% | 83,0% |
Cáucaso | 93,0% | 99,0% |
Leste da África | 100,0% | 100,0% |
Leste Europeu | 77,7% | 97,0% |
Chifre da África | 99,0% | 100,0% |
Ibéria | 90,0% | 95,0% |
Sibéria | 83,0% | 85,0% |
Nilotas | 100,0% | 100,0% |
Oeste da África | 100,0% | 96,0% |
Lapônia e Volga-Ural | 96,0% | 76,0% |
América Andina | 94,0% | 100,0% |
Balcãs | 97,0% | 81,0% |
Filipinas e Brunei | 100,0% | 97,0% |
Fenoscândia | 97,0% | 96,0% |
Khoisan | 99,0% | 100,0% |
Mandê | 99,0% | 70,0% |
Sardenha | 100,0% | 74,0% |
Levante | 100,0% | 69,0% |
Anatólia | 100,0% | 76,0% |
Patagônia | 100,0% | 100,0% |
Outra métrica que utilizamos para investigar a eficiência da nossa calculadora consiste, com 95% de confiança, no intervalo da proporção de ancestralidade assinalada por população.
Mas como interpretar meus resultados?
Deve-se sempre ter em mente que as proporções obtidas referem-se ao conjunto de populações investigadas. Assim, um resultado indicando uma proporção maior de um determinado grupo indica que a maior parte do seu DNA é condizente com o perfil observado para esse determinado grupo. Logo, em algum momento na história, algum ancestral dessa determinada região provavelmente ingressou na sua linhagem familiar.
É importante destacar que esses valores refletem que seu DNA é parecido com o DNA dos indivíduos amostrados para determinada região. De fato, é a partir deles que predizemos o perfil genético de cada grupo utilizado para os cálculos de admixture – isto é, a mistura genética de diferentes populações. Por exemplo, é de se esperar que indivíduos do continente americano sejam um reflexo da mistura de ameríndios, europeus, africanos e de povos do Oriente Médio e judaico, conforme indicado pela história dos últimos 500 anos.
PARTE III
E os meus dados?
Apêndice para Nerds
Como funciona a estimativa por máxima verossimilhança (maximum likelihood estimation - MLE)?
O objetivo do método de máxima verossimilhança é encontrar a distribuição de probabilidade que melhor se encaixe a um conjunto de dados observados. Para isso, os parâmetros dessas distribuições são ajustados até que passem a refletir o comportamento observado dos dados. Tal ajuste é computado a partir do cálculo da probabilidade de os dados pertencerem a uma determinada distribuição para valores específicos de parâmetros testados. O conjunto de parâmetros mais adequados é, portanto, o resultado da maximização do cálculo dessas probabilidades através de métodos numéricos de otimização.
Na figura 1, ilustramos um exemplo do funcionamento do método. O conjunto de dados está representado pelas posições das bolas azuis sobre a linha horizontal, e as linhas, em roxo, são as curvas que representam diferentes tentativas de distribuições de probabilidade (A, B, C e D) para representar os dados. As linhas pontilhadas, projetadas sobre a linha horizontal, representam o valor de média (𝛍) daquela distribuição de probabilidade, e a altura de cada pedaço da curva representa a densidade de pontos que se espera naquela região. Em A, testou-se uma distribuição exponencial para explicar o conjunto de dados, porém nota-se que ela não é fiel ao comportamento dos mesmos – para que esse tipo de distribuição fosse adequado, as bolas deveriam estar mais concentradas na parte esquerda do eixo horizontal, com algumas poucas espaçadas à direita. Em B, C e D, testaram-se distribuições normais com diferentes valores de média e desvio-padrão (𝞂). Dentre estas, é visível que a distribuição D é a que melhor se adequa aos dados (matematicamente, a probabilidade de ajuste dos dados à curva é máxima em D).
Como funciona o ajuste da ancestralidade?
O ajuste da ancestralidade é feito com base em algoritmos de machine learning. Treinamos uma série de modelos de que são usados para fazer um ajuste fino na composição de ancestralidade em conjunto com o método de máxima verossimilhança.Como é feito o cálculo dos grupos mais específicos?
O cálculo de ancestralidade das sub-regiões é feito com modelos de machine learning para cada uma das regiões que podem ser subdivididas (Tabela de Populações Genera). Esse resultado é apresentado com base em uma escala de 1 a 5, sendo que quanto maior é esse valor, maior é a probabilidade de a sub-região explicar a ancestralidade encontrada nas etapas anteriores.Escolha seu pacote de exames
Genera Basic
- Ancestralidad Global
- Búsqueda de Parientes
- Linajes*
- Bienestar
- Genera Farma
- Enfermedades Genéticas
- Escala de Riesgo Genético
Genera Standard
- Ancestralidad Global
- Búsqueda de Parientes
- Linajes*
- Bienestar
- Genera Farma
- Enfermedades Genéticas
- Escala de Riesgo Genético
Genera Premium
- Ancestralidad Global
- Búsqueda de Parientes
- Linajes*
- Bienestar
- Genera Farma
- Enfermedades Genéticas
- Escala de Riesgo Genético