Inferência direta e controle da estrutura genética da população a partir de dados de sequenciamento de RNA
Biologia das Comunicações, volume 6, número do artigo: 804 (2023) Citar este artigo
2275 acessos
21 Altmétrico
Detalhes das métricas
Os dados do RNAseq podem ser usados para inferir variantes genéticas, mas seu uso para estimar a estrutura genética da população permanece pouco explorado. Aqui, construímos uma ferramenta computacional disponível gratuitamente (RGStraP) para estimar componentes principais genéticos baseados em RNAseq (RG-PCs) e avaliar se RG-PCs podem ser usados para controlar a estrutura populacional em análises de expressão gênica. Usando amostras de sangue total de populações nepalesas pouco estudadas e o estudo Geuvadis, mostramos que os RG-PCs tiveram resultados comparáveis aos genótipos baseados em arrays pareados, com alta concordância genotípica e altas correlações de componentes genéticos principais, capturando subpopulações dentro do conjunto de dados. Na análise diferencial de expressão gênica, descobrimos que a inclusão de RG-PCs como covariáveis reduziu a inflação da estatística de teste. Nosso artigo demonstra que a estrutura genética da população pode ser inferida e controlada diretamente pelo uso de dados RNAseq, facilitando assim análises retrospectivas e futuras aprimoradas de dados transcriptômicos.
O sequenciamento de RNA (RNAseq) revolucionou nossa compreensão do transcriptoma, oferecendo tanto um método de quantificação preciso para a expressão gênica quanto a identificação de locais de splicing alternativos específicos e transcritos específicos do tipo de célula . A sua aplicação estende-se ao ambiente clínico, permitindo-nos elucidar ainda mais doenças complexas e identificar potenciais biomarcadores em doenças transmissíveis e não transmissíveis3.
No entanto, os estudos que utilizam RNAseq raramente consideram a variação genética da linha germinativa também contida nos conjuntos de leitura do RNAseq. Estudos que não aproveitam essas informações podem ser vulneráveis a vieses e confusões, como a estratificação populacional, o que pode afetar a transcrição entre grupos4,5,6,7. Para superar esse problema, os pesquisadores normalmente contam com dados de matriz genômica ampla ou de sequência do genoma completo (WGS) correspondentes aos mesmos indivíduos com RNAseq. Isso permite que os pesquisadores implantem abordagens para controlar a estratificação populacional, como o cálculo de componentes principais genéticos (PCs) e seu uso como covariáveis em modelos de associação estatística subsequentes8,9,10. Os PCs genéticos são considerados como representando a estrutura genética latente dentro e entre populações, o que introduz confusão devido a diferenças no ambiente social ou (no caso de expressão gênica diferencial) devido à heterogeneidade de loci de características quantitativas entre grupos. No entanto, a necessidade de uma matriz genómica ampla ou WGS corresponder aos dados do RNAseq é potencialmente desnecessária e, na verdade, pode não ser possível em locais onde os recursos são limitados, como os países de rendimento baixo e médio baixo (PBMR) com populações altamente diversificadas e pouco estudadas.
Foi demonstrado que chamadas de genótipos podem ser feitas a partir de dados de RNAseq usando ferramentas como GATK12,13,14. A abordagem de utilização de dados RNAseq para capturar a estrutura genética tem sido aplicada para fins pecuários e agrícolas15,16,17,18, por exemplo, para investigar a estrutura populacional, história e adaptação da cevada domesticada (Hordeum vulgare)17. Embora a prova de conceito e a subsequente utilidade de genótipos baseados em RNAseq tenham sido demonstradas, como para variantes específicas de tecidos19, sua aplicação para inferir a estrutura da população humana mostra-se promissora, mas permanece relativamente subexplorada20.
Os objetivos deste estudo são (i) demonstrar que os genótipos baseados em RNAseq podem capturar a estrutura genética da população de uma população humana diversa, mas pouco estudada, e (ii) mostrar que o uso de componentes principais genéticos baseados em RNAseq (RG-PCs) pode controlar efetivamente a estrutura populacional na análise de associação. Aqui, recrutamos e geramos dados de RNAseq de sangue total de 376 indivíduos do Nepal, um país sem litoral situado no Himalaia com mais de 125 grupos étnicos21,22. Desenvolvemos um pipeline de análise RNAseq (RGStraP) para calcular os principais componentes genéticos diretamente dos dados do RNAseq e, em seguida, validamos o desempenho do RGStraP com dados genotípicos de todo o genoma dos mesmos indivíduos nepaleses. Também testamos o pipeline em amostras do consórcio Geuvadis, que contém 465 amostras com dados pareados de genótipo-RNAseq de cinco das 1000 populações do Genoma . Finalmente, mostramos a validade do ajuste para RG-PCs em uma análise de associação para identificar a expressão gênica específica do sexo. No geral, nosso estudo estabelece que a estrutura da população humana, particularmente de uma população pouco estudada, mas diversificada, pode ser efetivamente capturada e controlada diretamente usando dados de RNAseq.