Genetic diversity of the novel coronavirus SARS-CoV-2 (COVID-19) in Portugal

The Portuguese National Institute of Health [Instituto Nacional de Saude Doutor Ricardo Jorge (INSA)] is coordinating a national project to monitor the spread of the pandemic novel coronavirus SARS-CoV-2 in Portugal using whole-genome sequencing (WGS) data, in collaboration with a nationwide network of hospitals/labs.

SARS-CoV-2 genome sequence data was obtained through next-generation sequencing (NGS) and bioinformatics analyses using the INSaFLU platform. Up to the current date, INSA analysed 41994 SARS-CoV-2 genome sequences.

This study has been counting with the collaboration with the Instituto Gulbenkian de Ciência (IGC), the Institute of Biomedicine (iBiMED, Universidade de Aveiro), the BioSystems & Integrative Sciences Institute (BioISI, Universidade de Lisboa), the Instituto de Investigação e Inovação em Saúde(i3S) and the Research Centre in Biodiversity and Genetic Resources (CIBIO, Universidade do Porto) for sample WGS processing and with a network of more than 60 country spread hospitals/labs for the collection of positive samples (listed in “Nextstrain” visualization below)

Main objectives:

  • Determination of SARS-CoV-2 mutational profiles for identification and monitoring of transmission chains, as well as identification of novel introductions of SARS-CoV-2 variants in Portugal.
  • Track and forecast the viral transmission dynamics in the community and measure the impact of the containment efforts on transmission chain outcomes.
  • Determination of the genetic variability of antigens and targets of antiviral drugs, with impact on the development / effectiveness of prophylactic (vaccines) and therapeutic measures.
  • Determination of the possible association between specific mutations / genetic profiles (SARS-CoV-2) with clinical outcomes (e.g., disease severity of COVID-19).

The interactive graphs show the evolution of the weekly relative frequency of the SARS-CoV-2 variants/lineages at national and regional levels.

Diversidade genética do novo coronavírus SARS-CoV-2 (COVID-19) em Portugal

O Instituto Nacional de Saúde Doutor Ricardo Jorge, I.P. (INSA) está a coordenar o estudo de monitorização da disseminação do novo coronavirus SARS-CoV-2 em Portugal através da análise do genoma deste vírus pandémico, contando com a colaboração de uma vasta rede de hospitais/laboratórios a nível nacional.

A sequência completa do genoma é identificada com recurso a tecnologias de sequenciação de nova geração e análise bioinformática através da plataforma online INSaFLU. Até à data, foram analisadas pelo INSA 41994 sequências do genoma de SARS-CoV-2.

Este estudo tem contado com a colaboração do Instituto Gulbenkian de Ciência (IGC), o Institute of Biomedicine (iBiMED, Universidade de Aveiro), o BioSystems & Integrative Sciences Institute (BioISI, Universidade de Lisboa), o Instituto de Investigação e Inovação em Saúde (i3S) e o Centro de Investigação em Biodiversidade e Recursos Genéticos (CIBIO, Universidade do Porto), para efeitos de processamento de amostras, e com uma rede de mais de 60 hospitais/laboratórios espalhados pelo país para envio de amostras positivas para o INSA (listados na visualização “Nextstrain” abaixo).

Principais objetivos:
  • Determinação dos perfis mutacionais do SARS-CoV-2 para identificação e monitorização de cadeias de transmissão, bem como identificação de novas introduções de variantes do vírus em Portugal.
  • Monitorizar e antecipar a dinâmica de transmissão do vírus na comunidade e aferir o impacto das medidas de contenção.
  • Determinação do grau de variabilidade genética de antigénios ou alvos de fármacos antivirais com possível impacto no desenvolvimento / eficiência de medidas profiláticas (vacinas) e terapêuticas.
  • Determinação de possíveis associações entre perfis genéticos (mutacionais) do SARS-CoV-2 e determinadas manifestações clínicas (ex. diferentes graus severidade da COVID-19).

Os gráficos interativos abaixo permitem consultar a evolução da frequência relativa semanal das variantes/linhagens de SARS-CoV-2 a nível nacional e regional.





  • No menu acima de cada gráfico, pode escolher o conjunto de dados a visualizar (frequência relativa nacional ou por Região de Saúde).
  • Pode passar o cursor sobre as barras para consultar o número de sequências e frequência relativa das diversas variantes/linhagens estimadas semanalmente.
  • Nos gráficos de barras (à esquerda) do painel acima, pode clicar numa barra ou “clicar e arrastar” para selecionar um conjunto de barras por forma a que o gráfico circular (à direita) apresente a proporção de cada uma das variantes/linhagens no intervalo de tempo selecionado. O intervalo de tempo seleccionado com a opção "clicar e arrastar" pode ser movido (arrastando) ao longo gráfico.
  • Na legenda, pode também clicar no nome de uma variante/linhagem específica para ver a sua proporção em destaque ao longo do tempo.
  • Clique duas vezes fora dos gráficos para voltar à apresentação inicial.
  • Os dados de números de casos são extraidos de https://covid19.min-saude.pt/wp-content/uploads/2022/09/covid_dados_2022-09-26_xlxs-51kb.xlsx (26/09/2022).

  • In the panel above each graph, you can select the dataset to visualize in the interactive bar graph (relative frequency at national or regional levels).
  • Place the cursor over the bars (ISO weeks) to consult the respective number of sequences and relative frequency of the variants/lineages weekly estimated.
  • In the bar graphs above (left side of the panel), you can click in a bar or “click and slide” over several bars to select a time period to be represented in the circular graph on the right (which reflects the proportion of each variant/lineage in the selected time period). You can also move the time period selected by “click and slide” option along the graph.
  • In the colour legend, you can also click on the name of a given variant/lineage to highlight it through time.
  • Double click to set the default visualization.
  • Number of cases are obtained from https://covid19.min-saude.pt/wp-content/uploads/2022/09/covid_dados_2022-09-26_xlxs-51kb.xlsx(2022/09/26).

Os gráficos interativos abaixo permitem consultar a evolução da frequência relativa semanal das variantes/linhagens de SARS-CoV-2 a nível regional nas últimas 5 amostragens semanais.

The interactive graphs below show the evolution of the weekly relative frequency of the SARS-CoV-2 variants/lineages in the last five weekly surveys per Region

Below you can find links to a dynamic dashboard with the integrative phylogenetic, geospatial and temporal data analysis of SARS-CoV-2 circulating in Portugal using Nextstrain (Hadfield et al. 2018, Bioinformatics) tools.

It is possible to explore 5 datasets:

The results will be continuously revised and updated as more metadata/WGS data is collected.

Abaixo pode encontrar links para uma análise integrativa da diversidade genética (filogenia) e dispersão geotemporal do vírus SARS-CoV-2 em Portugal realizada com o recurso às ferramentas do projecto Nextstrain (Hadfield et al. 2018, Bioinformatics).

É possível navegar em 5 conjuntos de dados:

Os resultados serão revistos e continuamente atualizados à medida que forem obtidos mais dados.

  • In the left panel, you can select the type of tree as "divergence" (branch lengths in this tree measure nucleotide divergence) or "time" (branch lengths in this "time tree" are adjusted according to the date of sample collection). You can also see the tree and map "side by side" by clicking in "GRID" on (Panel Options).
  • The trees can be colored according to several variables, including "Admin division", "Originating lab" or "Exposure history".
  • The map shows the geographic location* of the cases corresponding to the viral genomes analysed.
  • In the botton panel below the tree/map, you can see a graphical representation of the SARS-Cov-2 genome showing the nucleotide and amino acid diversity at each position for the genomes analysed. By clicking on a specific position, the diversity of that position is shown on the tree/map across all the samples, showing which samples share a given mutation.
  • Also below the tree/map, you can filter the data in order to highlight some data subsets, e.g., by clicking on Admin Division, Originating Lab, etc.
  • The date (reflecting date of sample collection) range (“Date range”) can be adjusted to show the samples collected in a specific time interval.

(see also: https://nextstrain.org/#ncov; https://nextstrain.org/help/general/about-nextstrain):

Additional notes:

  • Geographical data:
    • Admin Division* = District
    • Location* = Municipality

* Geographical points refer to Admin division/Location of residence, or in case no information is available, to the location of exposure or of the hospital/lab that sent the sample.

  • No painel da esquerda, pode selecionar o tipo de árvore como “divergence” (o comprimento dos braços da árvore refletem a divergência ao nível dos nucleótidos) ou “time” (o comprimento dos braços nesta “árvore temporal” é ajustado de acordo com a data de colheita das amostras). Pode ainda colocar a árvore e o mapa lado a lado clicando em GRID (Panel Options).
  • As árvores podem ser coloridas de acordo com diversas variáveis, tais como "Admin division" (Distrito), "Location" (Concelho), "Originating lab" (laboratório que enviou a amostra), "Exposure history" (potencial local de contágio), etc.
  • O mapa indica a localização geográfica* dos casos correspondentes aos genomas virais analisados.
  • O painel de baixo representa graficamente o genoma do coronavirus SARS-Cov-2 em que é exibida a diversidade de nucleótidos e de aminoácidos em cada posição, para o conjunto de genomas analisados. “Clicando” numa posição específica, a diversidade dessa posição é exibida na árvore e no mapa, mostrando quais os genomas que partilham essa mutação.
  • Abaixo destes painéis, é possível filtrar ("Filter by") os dados para que sejam realçados na árvore e no mapa apenas alguns subconjuntos de amostras, "clicando", por exemplo, em "Admin Division", "Originating lab", etc.
  • O "Date range" pode ser ajustado para que sejam apresentadas apenas as amostras que foram colhidas num determinado intervalo de tempo.

(ver também: https://nextstrain.org/#ncov; https://nextstrain.org/help/general/about-nextstrain):

Notas adicionais

  • Dados Geográficos:
    • Admin Division* = Distrito
    • Location* = Concelho

* Local (Distrito ou Concelho) de residência ou, caso não exista informação, local de ocorrência ou da entidade que enviou a amostra.

Variants/lineages: frequency and geotemporal distribution

This table sumarizes the cumulative number of sequences, relative frequency (monthly and weekly snaphots) and geotemporal distribution of all variants/lineages* detected so far (Last update: 2022-09-27).

* Classification: Pango lineages (https://pangolin.cog-uk.io/). Last update: 2022-09-27 (pre-Omicron: Pangolin-3.1.20/PangolinLearn-2022-02-02/Pango-designation-v1.2.12 with manual curation; Omicron: pangolin-4.1.2/pangolin-data-1.14/constellations-v0.1.10/scorpio-0.3.17; Usher mode, with manual curation)

Note: the sequence counts in the "n District" column includes the 18 Districts of Portugal mainlaind and 2 Autonomous Regions (Madeira and Azores).

To consult the daily evolution of the proportion of S gene target failure (SGTF) positive samples - proxy for Omicron (BA.1/BA.4/BA.5) click here.

Variantes/linhagens: frequência e dispersão geotemporal

Esta tabela compila o número de sequências total, frequência relativa (nas amostragens mensais e semanais) e dispersão temporal e geográfica de todas as variantes/linhagens* detetadas até à data em Portugal (última actualização: 2022-09-27).

* Classificação: Pango lineages (https://pangolin.cog-uk.io/). Última actualização: 2022-09-27 (pre-Omicron: Pangolin-3.1.20/PangolinLearn-2022-02-02/Pango-designation-v1.2.124, com inspecção manual; Omicron: pangolin-4.1.2/pangolin-data-1.14/constellations-v0.1.10/scorpio-0.3.17; Usher, com inspecção manual)

Nota: as contagens na coluna "n District" incluem os 18 distritos de Portugal continental e duas Regiões Autónomas.

Para consultar a evolução diária da proporção de amostras positivas com falha do gene S (SGTF – S gene target failure) – indicador de caso provável de Omicron (BA.1/BA.4/BA.5) clique aqui.

Esta tabela compila alterações aminoacídicas de interesse na proteína Spike detectadas em cada variante/linhagem* até à data. Os números reflectem a contagem de sequências com uma determinada mutação por linhagem (Última actualização: 2022-09-27).

* Classificação: Pango lineages (https://pangolin.cog-uk.io/). Última actualização: 2022-09-27 (pre-Omicron: Pangolin-3.1.20/PangolinLearn-2022-02-02/Pango-designation-v1.2.124, com inspecção manual; Omicron: pangolin-4.1.2/pangolin-data-1.14/constellations-v0.1.10/scorpio-0.3.17; Usher, com inspecção manual)

NOTA: Para algumas amostras não foi possível validar todas as posições da Spike, pelo que, em alguns casos, as contagens indicadas para mutações marcadoras de uma determinada linhagem podem não corresponder ao número total de sequências dessa linhagem (o qual é apresentado na tabela acima).

This table sumarizes amino acid changes of interest in Spike detected for each variant/lineage*. Counts reflect the number of sequences with a particular mutation per variant/lineage (Last update: 2022-09-27).

* Classification: Pango lineages (https://pangolin.cog-uk.io/). Last update: 2022-09-27 (pre-Omicron: Pangolin-3.1.20/PangolinLearn-2022-02-02/Pango-designation-v1.2.12 with manual curation; Omicron: pangolin-4.1.2/pangolin-data-1.14/constellations-v0.1.10/scorpio-0.3.17; Usher mode, with manual curation)

NOTE: Not all Spike positions could be validated for all samples, so, in some cases, the counts presented for marker mutations of a specific lineage might not correspond to the total number of sequences of that lineage (the total number of sequences per lineage is shown in the table above).

Teams involved so far in genome-based monitoring of SARS-CoV-2 spread in Portugal
Equipas envolvidas até à data na avaliação da diversidade genética do vírus SARS-CoV-2 em Portugal
Methods
Métodos
Publications on behalf of the genomic surveillance of SARS-CoV-2 in Portugal
Publicações no âmbito da vigilância genómica de SARS-CoV-2
Acknowledgments

We gratefully acknowledge:

This study is co-funded by Fundação para a Ciência e Tecnologia (234_596874175) on behalf of the "call" Research 4 COVID-19.

Agradecimentos

Este estudo é co-financiado pela Fundação para a Ciência e Tecnologia (234_596874175) no âmbito da "call" Research 4 COVID-19.

Contacts

If you have any questions, comments or suggestions, please contact us:

Contactos

Caso tenha alguma dúvida, comentário ou sugestão, contacte-nos:

Note: The SARS-CoV-2 genome sequences generated by INSA are periodically shared with international authorities. To access those sequences please contact us to enroll a collaboration.

Nota: As sequências do SARS-CoV-2 geradas pelo INSA são periodicamente disponibilizadas às autoridades internacionais. Para aceder às sequências, solicitamos que nos contactem para encetarmos a devida colaboração.