Download do banco de dados Greengenes
- manbuterpo1988
- Aug 25, 2023
- 14 min read
Download do banco de dados Greengenes: um guia para pesquisadores de microbioma
A pesquisa do microbioma é o estudo das comunidades microbianas que habitam vários ambientes, como o corpo humano, solo, água, plantas e animais. A pesquisa do microbioma pode revelar a diversidade, função e interações dos microrganismos, bem como seu impacto na saúde, doença, ecologia e evolução.
greengenes database download
Uma das principais abordagens para a pesquisa do microbioma é a metagenômica, que envolve o sequenciamento do DNA de uma amostra mista de microrganismos sem cultivo prévio. A metagenômica pode fornecer informações sobre a composição, estrutura e dinâmica das comunidades microbianas, bem como seu potencial metabólico e expressão gênica.
No entanto, a metagenômica também apresenta muitos desafios computacionais, como atribuição de leitura, montagem, anotação, comparação e visualização. Para enfrentar esses desafios, os pesquisadores de microbioma precisam de bancos de dados de referência confiáveis que contenham informações genômicas de microorganismos.
Um dos bancos de dados de referência mais amplamente utilizados para pesquisa de microbioma é o Greengenes, que é uma coleção com curadoria de sequências de genes de RNA ribossômico 16S (rRNA) de bactérias e archaea. O gene 16S rRNA é um gene marcador que pode ser usado para identificar e classificar microrganismos com base em suas relações evolutivas.
Neste artigo, explicaremos o que é o banco de dados Greengenes e por que ele é útil para a análise do microbioma. Também mostraremos como baixar o banco de dados Greengenes e usá-lo para análise de microbioma. Discutiremos então as vantagens e limitações do banco de dados Greengenes, bem como algumas alternativas a ele.
O que é o banco de dados Greengenes e por que ele é útil para a análise do microbioma?
O banco de dados Greengenes é uma coleção selecionada de sequências de genes 16S rRNA
O banco de dados Greengenes foi criado em 2006 por uma equipe de pesquisadores do Lawrence Berkeley National Laboratory (LBL), na Califórnia.O objetivo do banco de dados Greengenes era fornecer uma referência abrangente e consistente para as sequências do gene 16S rRNA de bactérias e archaea.
O banco de dados Greengenes contém mais de um milhão de sequências de genes 16S rRNA que foram obtidas de várias fontes, como GenBank, RDP, SILVA, projetos de sequenciamento de Sanger e pesquisas ambientais. O banco de dados Greengenes também inclui sequências de microorganismos não cultivados que foram identificados por amplificação por PCR ou sequenciamento metagenômico.
O banco de dados Greengenes aplica várias etapas de controle de qualidade para garantir a precisão e a confiabilidade das sequências do gene 16S rRNA. Essas etapas incluem:
Verificação de quimera: remoção de sequências geradas artificialmente por erros de PCR ou contaminação
Alinhamento padrão: alinhando sequências a uma estrutura comum usando o algoritmo NAST (Nearest Alignment Space Termination)
Classificação taxonômica: atribuir sequências a uma taxonomia hierárquica com base em métodos filogenéticos e curadoria de especialistas
Agrupamento: agrupamento de sequências em unidades taxonômicas operacionais (OTUs) com base em limites de similaridade de sequência
O banco de dados Greengenes fornece vários arquivos e formatos para baixar e usar as sequências do gene 16S rRNA, como tabelas FASTA, ARB, tree e OTU. O banco de dados Greengenes também fornece uma interface web para navegar, pesquisar e visualizar as sequências do gene 16S rRNA e suas anotações taxonômicas.
O banco de dados Greengenes fornece uma taxonomia e alinhamento consistentes para táxons bacterianos e arqueológicos
Uma das principais características do banco de dados Greengenes é que ele fornece uma taxonomia consistente e abrangente para táxons bacterianos e arqueológicos. A taxonomia do banco de dados Greengenes é baseada em métodos filogenéticos, como máxima verossimilhança e inferência bayesiana, bem como curadoria especializada e revisão manual.
A taxonomia do banco de dados Greengenes consiste em oito classificações: domínio, filo, classe, ordem, família, gênero, espécie e OTU.A classificação OTU representa o melhor nível de resolução que pode ser alcançado pelas sequências do gene 16S rRNA. As OTUs são definidas por sequências de agrupamento com 97% de similaridade, o que é considerado aproximado ao nível de espécie.
A taxonomia do banco de dados Greengenes é compatível com a taxonomia do NCBI, mas também inclui táxons adicionais que não são reconhecidos pelo NCBI. Por exemplo, o banco de dados Greengenes reconhece os filos candidatos que foram descobertos por estudos metagenômicos, como TM7, OP11 e SR1. O banco de dados Greengenes também atribui nomes a táxons não nomeados com base em sua posição filogenética ou origem ambiental.
Outra característica do banco de dados Greengenes é que ele fornece um alinhamento padrão para as sequências do gene 16S rRNA. O alinhamento do banco de dados Greengenes é baseado no algoritmo NAST, que alinha sequências a um conjunto central de sequências de referência que representam a diversidade de bactérias e archaea. O alinhamento do banco de dados Greengenes abrange 1.250 posições de nucleotídeos que são informativas para análise filogenética.
O banco de dados Greengenes pode ser usado para classificação taxonômica e inferência filogenética de amostras de microbioma
O banco de dados Greengenes pode ser usado para várias aplicações na pesquisa de microbioma, como classificação taxonômica e inferência filogenética de amostras de microbioma. A classificação taxonômica é o processo de atribuição de sequências do gene 16S rRNA aos seus táxons correspondentes com base em sua similaridade ou distância às sequências de referência. A inferência filogenética é o processo de reconstrução das relações evolutivas entre as sequências do gene 16S rRNA com base em seu alinhamento e modelos de árvore.
O banco de dados Greengenes pode ser usado para classificação taxonômica e inferência filogenética de amostras de microbioma com várias ferramentas e pipelines de bioinformática, como QIIME, mothur, RDP Classifier, PhyloSeq e MG-RAST.Essas ferramentas e pipelines podem executar diferentes etapas da análise do microbioma, como filtragem de qualidade, seleção de OTU, estimativa de diversidade, teste estatístico e visualização.
Por exemplo, QIIME (Quantitative Insights Into Microbial Ecology) é um pipeline popular para análise de microbioma que pode usar o banco de dados Greengenes como referência. O QIIME pode realizar a classificação taxonômica de sequências do gene 16S rRNA usando diferentes métodos, como BLAST, UCLUST ou RDP Classifier. O QIIME também pode realizar inferência filogenética de sequências do gene 16S rRNA usando diferentes métodos, como FastTree, RAxML ou PhyML.
Como baixar o banco de dados Greengenes e usá-lo para análise de microbioma?
O banco de dados Greengenes pode ser baixado no site do Second Genome
O banco de dados Greengenes pode ser baixado do site do Second Genome ( O site Second Genome é o repositório oficial do banco de dados Greengenes desde 2016, quando foi transferido do site LBL. O site Second Genome fornece acesso à versão mais recente do banco de dados Greengenes (13_8), lançado em agosto de 2013.
O site Second Genome oferece diferentes opções para baixar o banco de dados Greengenes, dependendo das necessidades e preferências do usuário. O usuário pode baixar todo o banco de dados Greengenes ou apenas arquivos ou formatos específicos. O usuário também pode baixar diferentes versões ou subconjuntos do banco de dados Greengenes, como 13_5 ou 13_1.
O site do Second Genome fornece uma descrição detalhada de cada arquivo e formato do banco de dados Greengenes, bem como instruções sobre como baixá-los. O usuário também pode encontrar informações úteis sobre o banco de dados Greengenes no site do Second Genome, como publicações, tutoriais, perguntas frequentes e detalhes de contato.
O banco de dados Greengenes pode ser usado com várias ferramentas e pipelines de bioinformática
O banco de dados Greengenes pode ser usado com várias ferramentas de bioinformática e pipelines para análise de microbioma, conforme mencionado na seção anterior.No entanto, antes de usar o banco de dados Greengenes com essas ferramentas e pipelines, o usuário pode precisar executar algumas etapas de pré-processamento, como descompactar, formatar, indexar ou converter os arquivos.
Por exemplo, se o usuário quiser usar o banco de dados Greengenes com o QIIME, o usuário pode precisar seguir os seguintes passos:
Baixe os arquivos do banco de dados Greengenes do site do Second Genome, como as sequências do gene 16S rRNA (gg_13_8_99.fasta.gz), a taxonomia (gg_13_8_99.taxonomy.gz) e a árvore (gg_13_8_99.tre.gz).
Descompacte os arquivos usando gzip ou outras ferramentas, como unzip ou 7zip.
Formate os arquivos de acordo com os requisitos do QIIME, como adicionar um símbolo ">" antes de cada ID de sequência no arquivo FASTA e remover quaisquer espaços ou caracteres especiais no arquivo de taxonomia.
Indexe os arquivos usando comandos QIIME, como add_qiime_labels.py, make_blast_db.py ou make_phylogeny.py.
Converta os arquivos para outros formatos, se necessário, como BIOM para tabelas OTU ou Newick para árvores.
O utilizador pode encontrar mais detalhes e exemplos sobre como usar a base de dados Greengenes com o QIIME no website do QIIME ( O usuário também pode encontrar informações semelhantes sobre como usar o banco de dados Greengenes com outras ferramentas e pipelines em seus respectivos sites ou manuais.
O banco de dados Greengenes pode ser mapeado para outras taxonomias usando o software tax2tree
O banco de dados Greengenes pode ser mapeado para outras taxonomias usando o software tax2tree ( Tax2tree é uma ferramenta de software que pode gerar uma taxonomia unificada a partir de múltiplas fontes de informação, como sequências de genes 16S rRNA, árvores filogenéticas e anotações taxonômicas.
Tax2tree pode ser útil para pesquisadores de microbioma que desejam comparar ou integrar diferentes taxonomias, como Greengenes, SILVA, RDP ou NCBI. O Tax2tree também pode ser útil para pesquisadores de microbioma que desejam atualizar ou refinar suas taxonomias com base em novos dados ou conhecimentos.
Tax2tree funciona aplicando um conjunto de regras e heurísticas para resolver conflitos e inconsistências entre diferentes taxonomias. Tax2tree também usa uma pontuação de confiança para indicar a confiabilidade de cada atribuição taxonômica. Tax2tree pode gerar uma taxonomia de consenso em vários formatos, como BIOM, Newick ou CSV.
O usuário pode encontrar mais detalhes e exemplos sobre como usar o software tax2tree no site tax2tree ( O usuário também pode encontrar um tutorial sobre como usar o tax2tree com o banco de dados Greengenes no site da QIIME (
Quais são as vantagens e limitações do banco de dados Greengenes?
O banco de dados Greengenes possui alta cobertura e qualidade de sequências do gene 16S rRNA
Uma das vantagens do banco de dados Greengenes é que ele possui uma alta cobertura e qualidade das sequências do gene 16S rRNA de bactérias e archaea. O banco de dados Greengenes contém mais de um milhão de sequências de genes 16S rRNA que representam uma ampla variedade de ambientes e diversidade microbiana. O banco de dados Greengenes também aplica etapas rigorosas de controle de qualidade para remover quimeras, erros e redundâncias das sequências do gene 16S rRNA.
A alta cobertura e qualidade do banco de dados Greengenes pode permitir que os pesquisadores de microbioma realizem análises precisas e abrangentes de suas amostras de microbioma. Por exemplo, pesquisadores de microbioma podem usar o banco de dados Greengenes para identificar táxons raros ou novos que podem não estar presentes em outros bancos de dados. Os pesquisadores de microbioma também podem usar o banco de dados Greengenes para comparar suas amostras de microbioma com outras amostras de diferentes habitats ou hospedeiros.
O banco de dados Greengenes possui uma taxonomia robusta e abrangente baseada em métodos filogenéticos
Outra vantagem do banco de dados Greengenes é que ele possui uma taxonomia robusta e abrangente baseada em métodos filogenéticos.O banco de dados Greengenes usa métodos filogenéticos, como máxima verossimilhança e inferência bayesiana, para atribuir sequências de genes 16S rRNA a seus táxons correspondentes com base em suas relações evolutivas. O banco de dados Greengenes também usa curadoria especializada e revisão manual para garantir a consistência e precisão da taxonomia.
A taxonomia robusta e abrangente do banco de dados Greengenes pode permitir que os pesquisadores de microbioma realizem análises confiáveis e significativas de suas amostras de microbioma. Por exemplo, os pesquisadores de microbioma podem usar o banco de dados Greengenes para inferir a diversidade filogenética e a estrutura de suas amostras de microbioma. Os pesquisadores do microbioma também podem usar o banco de dados Greengenes para explorar a história evolutiva e os papéis ecológicos de suas amostras de microbioma.
O banco de dados Greengenes não é atualizado desde 2013 e pode não refletir as últimas revisões taxonômicas
Uma das limitações do banco de dados Greengenes é que ele não é atualizado desde 2013 e pode não refletir as últimas revisões taxonômicas. O banco de dados Greengenes foi atualizado pela última vez em agosto de 2013, quando a versão 13_8 foi lançada. Desde então, nenhuma nova versão ou atualização foi lançada pela equipe de banco de dados Greengenes.
A falta de atualizações do banco de dados Greengenes pode afetar a precisão e integridade das sequências do gene 16S rRNA e suas anotações taxonômicas. Por exemplo, o banco de dados Greengenes pode não incluir novas sequências do gene 16S rRNA que foram descobertas ou depositadas em outros bancos de dados. O banco de dados Greengenes também pode não refletir as últimas mudanças taxonômicas que foram propostas ou aceitas pela comunidade científica.
A falta de atualizações do banco de dados Greengenes pode limitar a aplicabilidade e relevância do banco de dados Greengenes para pesquisa de microbioma. Por exemplo, os pesquisadores de microbioma podem não ser capazes de identificar ou classificar alguns taxa que estão presentes em suas amostras de microbioma usando o banco de dados Greengenes.Os pesquisadores de microbioma também podem não conseguir comparar ou integrar suas amostras de microbioma com outras amostras que usam taxonomias diferentes ou atualizadas.
Quais são algumas alternativas ao banco de dados Greengenes para análise de microbioma?
SILVA, RDP, NCBI e OTT são outros bancos de dados populares de genes 16S rRNA
O banco de dados Greengenes não é o único banco de dados de referência para sequências de genes 16S rRNA de bactérias e archaea. Existem outros bancos de dados populares de genes 16S rRNA que podem ser usados para análise de microbioma, como SILVA, RDP, NCBI e OTT.
SILVA ( é um banco de dados abrangente e com controle de qualidade para sequências de genes de RNA ribossômico (rRNA) de todos os domínios da vida. SILVA contém mais de seis milhões de sequências de genes rRNA, incluindo mais de quatro milhões de sequências de genes 16S rRNA de bactérias e archaea. SILVA fornece uma taxonomia consistente e hierárquica para sequências de genes de rRNA com base em métodos filogenéticos e curadoria manual.
RDP ( é um banco de dados curado e anotado para sequências de genes 16S rRNA de bactérias e archaea. O RDP contém mais de três milhões de sequências de genes 16S rRNA que foram obtidas de várias fontes, como GenBank, projetos de sequenciamento de Sanger e pesquisas ambientais. O RDP fornece uma taxonomia hierárquica para sequências de genes 16S rRNA com base em um classificador bayesiano ingênuo e curadoria de especialistas.
NCBI ( é um banco de dados abrangente e confiável para sequências de nucleotídeos de todos os domínios da vida. O NCBI contém mais de 300 milhões de sequências de nucleotídeos, incluindo mais de 100 milhões de sequências de genes 16S rRNA de bactérias e archaea. O NCBI fornece uma taxonomia hierárquica para sequências de nucleotídeos com base na similaridade de sequência e na revisão da literatura.
OTT ( é uma taxonomia unificada que integra múltiplas fontes de informação, como taxonomias, filogenias e publicações.OTT contém mais de três milhões de táxons de todos os domínios da vida, incluindo mais de um milhão de táxons de bactérias e archaea. OTT fornece uma taxonomia consistente e abrangente para táxons com base em métodos de síntese e curadoria de especialistas.
SILVA, RDP e NCBI têm atualizações mais frequentes e tamanhos maiores que o Greengenes
Uma das vantagens do SILVA, RDP e NCBI sobre o Greengenes é que eles têm atualizações mais frequentes e tamanhos maiores que o Greengenes. SILVA, RDP e NCBI são atualizados regularmente com novos dados e conhecimentos de várias fontes, como GenBank, projetos de sequenciamento de Sanger, pesquisas ambientais e publicações científicas. SILVA, RDP e NCBI também têm tamanhos maiores que Greengenes, pois contêm mais sequências de genes 16S rRNA de bactérias e archaea.
As atualizações mais frequentes e tamanhos maiores de SILVA, RDP e NCBI podem permitir que os pesquisadores de microbioma realizem análises mais precisas e abrangentes de suas amostras de microbioma. Por exemplo, os pesquisadores de microbioma podem usar SILVA, RDP e NCBI para identificar e classificar mais taxa que estão presentes em suas amostras de microbioma usando as últimas sequências de genes 16S rRNA e revisões taxonômicas. Os pesquisadores de microbioma também podem usar SILVA, RDP e NCBI para comparar e integrar suas amostras de microbioma com outras amostras que usam bancos de dados de referência iguais ou semelhantes.
OTT é uma taxonomia unificada que integra múltiplas fontes de informação
Uma das vantagens do OTT sobre Greengenes é que é uma taxonomia unificada que integra múltiplas fontes de informação, como taxonomias, filogenias e publicações. OTT sintetiza informações de várias fontes, como Greengenes, SILVA, RDP, NCBI e outras, para gerar uma taxonomia consensual que reflita o melhor conhecimento e evidências disponíveis. OTT também incorpora informações de estudos filogenéticos e publicações científicas para resolver conflitos e incertezas entre diferentes taxonomias.
A taxonomia unificada do OTT pode permitir que os pesquisadores de microbioma realizem análises consistentes e abrangentes de suas amostras de microbioma. Por exemplo, os pesquisadores do microbioma podem usar o OTT para atribuir suas sequências de genes 16S rRNA a uma taxonomia única e coerente que abrange todos os domínios da vida. Os pesquisadores de microbioma também podem usar o OTT para explorar as relações evolutivas e os papéis ecológicos de suas amostras de microbioma com base em várias fontes de informação.
Conclusão
O banco de dados Greengenes é uma coleção selecionada de sequências de genes 16S rRNA de bactérias e archaea que podem ser usadas para análise de microbioma. O banco de dados Greengenes fornece uma taxonomia e alinhamento consistentes para táxons bacterianos e archaeais com base em métodos filogenéticos e curadoria especializada. O banco de dados Greengenes pode ser usado para classificação taxonômica e inferência filogenética de amostras de microbioma com várias ferramentas e pipelines de bioinformática.
No entanto, o banco de dados Greengenes não é atualizado desde 2013 e pode não refletir as últimas revisões taxonômicas. O banco de dados Greengenes também pode ter algumas limitações em termos de cobertura e qualidade das sequências do gene 16S rRNA. Portanto, os pesquisadores de microbioma podem querer considerar algumas alternativas ao banco de dados Greengenes para análise de microbioma, como SILVA, RDP, NCBI e OTT.
SILVA, RDP e NCBI são outros bancos de dados de genes 16S rRNA populares que têm atualizações mais frequentes e tamanhos maiores que o Greengenes. SILVA, RDP e NCBI fornecem diferentes taxonomias e alinhamentos para táxons bacterianos e arqueológicos com base em diferentes métodos e fontes. OTT é uma taxonomia unificada que integra múltiplas fontes de informação, como taxonomias, filogenias e publicações. OTT fornece uma taxonomia consistente e abrangente para todos os domínios da vida com base em métodos de síntese e curadoria especializada.
Em conclusão, o banco de dados Greengenes é uma referência útil para a análise do microbioma, mas pode não ser a melhor ou a única opção.Os pesquisadores do microbioma devem avaliar as vantagens e limitações do banco de dados Greengenes e suas alternativas antes de escolher a referência mais adequada para a análise do microbioma.
perguntas frequentes
Qual é a diferença entre as sequências do gene 16S rRNA e as sequências 16S rRNA?
As sequências do gene 16S rRNA são as sequências de DNA que codificam as moléculas de 16S rRNA. As sequências 16S rRNA são as sequências de RNA que são transcritas a partir dos genes 16S rRNA. As sequências do gene 16S rRNA são mais estáveis e abundantes do que as sequências 16S rRNA, o que as torna mais adequadas para sequenciamento e análise.
Qual é a diferença entre OTUs e táxons?
OTUs são unidades taxonômicas operacionais definidas pelo agrupamento de sequências do gene 16S rRNA em um certo limite de similaridade, como 97%. Taxa são unidades taxonômicas definidas pela atribuição de sequências do gene 16S rRNA a uma taxonomia hierárquica baseada em suas relações evolutivas. As OTUs são mais objetivas e reprodutíveis que os táxons, mas os táxons são mais informativos e significativos que os OTUs.
Qual é a diferença entre os algoritmos NAST e MAFFT?
NAST (Nearest Alignment Space Termination) é um algoritmo que alinha sequências de genes 16S rRNA a um conjunto central de sequências de referência que representam a diversidade de bactérias e archaea. O NAST é rápido e preciso, mas pode não alinhar bem sequências novas ou divergentes. MAFFT (Multiple Alignment using Fast Fourier Transform) é um algoritmo que alinha sequências de genes 16S rRNA entre si usando um método progressivo. O MAFFT é mais flexível e sensível, mas pode introduzir mais erros ou lacunas no alinhamento.
Qual é a diferença entre os algoritmos FastTree e RAxML?
FastTree e RAxML são algoritmos que inferem árvores filogenéticas de sequências de genes 16S rRNA com base em seu alinhamento. FastTree é um algoritmo rápido e aproximado que usa uma busca heurística e um método de subida de colina local.RAxML é um algoritmo lento e exato que usa uma abordagem de máxima verossimilhança e um método de otimização global. O FastTree é mais eficiente e escalável, mas o RAxML é mais preciso e robusto.
Qual é a diferença entre os formatos BIOM e Newick?
O BIOM (Matriz de Observação Biológica) é um formato que armazena tabelas OTU de forma compacta e padronizada. O BIOM pode incluir metadados, como nomes de amostras, IDs de OTU, anotações taxonômicas e variáveis ambientais. Newick é um formato que armazena árvores filogenéticas de forma simples e parcimoniosa. Newick pode incluir comprimentos de ramificação, rótulos de nó e valores de bootstrap. 0517a86e26
コメント