Receba análises de carreira em dados e saúde direto no email
Escola de Dados Crash Course · 18 min de leitura · 18 Fev 2026

Do Sangue ao
Dashboard

Como transformei dados genômicos de 655 amostras de sangue em dashboards que ajudam médicos a detectar progressão de câncer semanas mais cedo. Baseado em artigo científico publicado onde participei como co-autor.

ctDNA Biópsia Líquida Cosine Similarity Python ETL Tableau

Por que este é um dos meus projetos favoritos

Genômica clínica é um campo fascinante. É onde dados encontram medicina de verdade. Cada linha de um CSV representa uma possível pista sobre o tumor de alguém. Cada pipeline que automatizamos pode acelerar o diagnóstico de um paciente real. Quando trabalhei neste projeto durante meu mestrado, fiquei impressionado com o potencial.

O melhor de tudo: é um campo relativamente novo e precisa de gente de dados. Hospitais e centros de pesquisa têm montanhas de dados genômicos, mas faltam profissionais que saibam SQL, Python e visualização. Se você já trabalha com analytics, suas habilidades transferem diretamente. Você não precisa ser biólogo. Você precisa saber transformar dados em insights.

Neste crash course, vou mostrar o projeto completo: do exame de sangue ao dashboard final. Vou te ensinar os conceitos de genética do câncer de forma prática, mostrar o pipeline de dados que construímos, e explicar como usamos cosine similarity para identificar pacientes anônimos. É a mesma técnica que sistemas de recomendação usam — quando a Netflix sugere filmes parecidos com o que você assistiu, ela está calculando similaridade entre perfis. Aqui, calculamos similaridade entre perfis genéticos. No final, você vai entender exatamente como suas skills de dados podem ser aplicadas em pesquisa médica.

Este é um campo verde, cheio de problemas interessantes para resolver, e com impacto real na vida das pessoas. Vamos lá.

01 / Do Sangue ao Dado

Uma coleta simples de sangue pode detectar mutações de câncer antes de qualquer sintoma aparecer

Pense no seu sangue como um rio que passa por todos os tecidos do corpo. Quando um tumor cresce, ele libera pequenos pedaços de DNA nesse rio. As células cancerosas deixam um rastro químico. O desafio é conseguir ler esse rastro.

Entre 2021 e 2022, enquanto fazia meu mestrado na UC Davis, trabalhei com uma equipe do California Pacific Medical Center Research Institute (CPMC-RI) em San Francisco. Analisamos 655 amostras de sangue de pacientes com câncer. O objetivo era automatizar a identificação de mutações genéticas que indicam progressão ou remissão da doença.

Esse trabalho fez parte do Cancer Avatar Program, um programa de pesquisa que testa tratamentos em modelos vivos do tumor antes de aplicar no paciente. Publicamos os resultados em 2023 na revista científica Methods and Protocols. Você pode ler o artigo completo aqui.

655
Amostras de plasma analisadas
56
Genes de câncer sequenciados
600+
Relatórios de biópsia processados
0
Falsos positivos no matching

O Problema

Mais de 600 relatórios de exames de sangue chegavam ao laboratório. Cada um precisava ser analisado manualmente, passo a passo:

O gargalo: fazer tudo isso manualmente levava semanas. E quando você está tratando câncer, semanas podem fazer toda a diferença entre o sucesso do tratamento e a progressão da doença. Um paciente pode piorar significativamente enquanto espera os resultados da análise manual.

Processo Manual Processo Automatizado

Manual

  • Abrir relatório PDF
  • Identificar gene e mutação
  • Buscar no COSMIC database
  • Anotar patogenicidade
  • Repetir 56× por relatório
  • Tentar agrupar por paciente (sem ID)
  • Semanas de trabalho

Automatizado

  • Upload automático do CSV
  • Classificação instantânea via COSMIC
  • Match de pacientes via cosine similarity
  • Dashboard longitudinal em Tableau
  • Alertas de novas mutações
  • Próximo relatório já classificado
  • Resultado em minutos
← ARRASTE PARA COMPARAR →
Publicado e Revisado por Pares

Este crash course é baseado no artigo científico "Automated Dashboards for the Identification of Pathogenic Circulating Tumor DNA Mutations in Longitudinal Blood Draws of Cancer Patients" publicado no Methods and Protocols (MDPI, 2023). Participei desse trabalho como co-autor.

02 / A Ciência em 5 Minutos

ctDNA, VAF, NGS: o vocabulário que conecta medicina e dados

ctDNA (DNA tumoral circulante): Quando um tumor cresce, algumas células morrem e liberam pedaços do seu DNA no sangue. Quanto mais agressivo o tumor, mais fragmentos de DNA circulam. O tumor deixa pistas químicas que podemos detectar em um simples exame de sangue.

Biópsia líquida: Um exame de sangue comum que substitui a biópsia tradicional (que precisa de cirurgia). O laboratório coleta sangue em tubos especiais que preservam o DNA circulante livre (ccfDNA - cell-free circulating DNA). É rápido e não invasivo.

Sequenciamento de Nova Geração (NGS): Uma tecnologia que lê milhões de pedaços de DNA ao mesmo tempo. No nosso estudo, focamos em 56 genes específicos que estão associados a diferentes tipos de câncer. Alguns exemplos:

Ao todo, esses 56 genes cobrem os principais tipos de câncer: mama, pulmão, cólon, pâncreas, próstata, ovário, melanoma, leucemias, entre outros. A ideia é detectar mutações nesses genes antes mesmo de o paciente ter sintomas.

VAF (Frequência Alélica de Variante): É o percentual de DNA tumoral no sangue. Imagine que você coleta 100 fragmentos de DNA. Se 5 deles têm a mutação do câncer, o VAF é 5%. Quanto maior o VAF, mais tumor circulando no sangue. A tecnologia moderna consegue detectar valores a partir de 1% (ou seja, 1 fragmento mutado em cada 100). Se você trabalha com dados, pense no VAF como um KPI: se ele sobe ao longo do tempo, o tumor está crescendo. Se desce, o tratamento está funcionando.

Mutação patogênica vs. neutra: Nem toda mutação causa câncer. Algumas são apenas variações normais do DNA (polimorfismos). Para classificar cada mutação, usamos um score chamado FATHMM (Functional Analysis Through Hidden Markov Models) que vai de 0 a 1. Esse algoritmo analisa se a mutação provavelmente afeta a função da proteína (proteínas são as moléculas que executam as funções na célula — quando uma proteína fica defeituosa, pode causar câncer). Acima de 0.8 é considerada patogênica (causa doença). Abaixo disso, provavelmente é neutra ou de significado incerto.

Exemplo: Relatório de Biópsia Líquida (panc-0146-ctdna)
Paciente: panc-3 | Coleta: 18 Nov 2021
GENE MUTAÇÃO VAF FATHMM TIPO
KRAS p.G12D 12.00%
0.98 Patogênica
TP53 p.P152L 9.67%
0.95 Patogênica
TP53 p.Pro72Arg 47.54%
0.36 Neutra
APC Synon 100.00%
Neutra
EGFR p.Q787Q 2.15%
0.12 Neutra

👆 Este é um exemplo real de como um relatório chega do sequenciador. Perceba que há 5 mutações detectadas, mas apenas 2 são patogênicas (KRAS e TP53 p.P152L). As outras são polimorfismos normais ou mutações sinônimas que não alteram a proteína.

1. Coleta de sangue (655 amostras) 100%
2. Extração de DNA do plasma ~90%
3. Sequenciamento NGS (56 genes) ~80%
4. Identificação de mutações patogênicas ~35%
~35%
das mutações detectadas são classificadas como patogênicas
A maioria das mutações são polimorfismos neutros (variações genéticas normais). O desafio é separar sinal (patogênico) de ruído (neutro) automaticamente.

A próxima seção mostra como construímos o pipeline de dados que automatiza essa separação.

03 / O Pipeline de Dados

Do relatório CSV ao dashboard: 5 etapas de transformação

Vou mostrar como transformamos os relatórios brutos em informação útil. São 5 etapas, cada uma resolvendo um problema específico.

1
Relatório Genialis
2
Banco COSMIC
3
Classificação
4
Validação
5
Dashboard

Step 1 — Dados brutos (Genialis)

Os relatórios chegam em formato CSV (planilha) gerados pela plataforma Genialis (um software de análise genômica usado pelos laboratórios). Cada linha mostra uma mutação encontrada, com informações como: qual cromossomo (tipo chr7, chr17), posição exata no DNA (um número que funciona como endereço), qual gene foi afetado, qual a mudança na proteína, e a frequência dessa mutação (VAF).

Step 2 — Banco de referência (COSMIC)

COSMIC (Catalogue of Somatic Mutations in Cancer) é uma base de dados global que cataloga todas as mutações já encontradas em cânceres ao redor do mundo. Funciona como uma biblioteca: baixamos a lista completa de mutações conhecidas, filtramos para guardar só o essencial (nome do gene, tipo de mutação, se é patogênica ou neutra, e a pontuação FATHMM), e carregamos num banco MySQL local para consulta rápida.

Coluna Tipo Descrição
ID INT Chave primária
GENE_NAME VARCHAR(20) Nome do gene
MUTATION_AA VARCHAR(200) Mutação aminoácida (AA = amino acid, as "letras" que formam proteínas)
TYPE VARCHAR(20) Pathogenic / Neutral
SCORE DECIMAL(2,2) FATHMM score (0-1)

Step 3 — Classificação de mutações

Aqui entra o script Python. Ele pega cada mutação do relatório, converte para o formato que o COSMIC entende (ex: "p.Cys275Tyr" vira "C275Y"), e busca essa mutação no banco de dados. O resultado é a classificação: patogênica ou neutra, com a pontuação FATHMM.

🧪 Experimente: Classificador COSMIC Interativo

Selecione uma mutação conhecida para ver como ela seria classificada pelo banco COSMIC:

Gene:
Mutação:
COSMIC ID:
FATHMM Score:
Classificação:

👆 Experimente selecionar diferentes combinações de gene e mutação. Compare as patogênicas (score alto) com as neutras (score baixo). Perceba como cada mutação tem uma explicação clínica específica.

Step 4 — Validação de qualidade

Nem todo relatório é confiável. Se um arquivo tem poucas mutações detectadas (menos de 32 combinações gene-mutação) ou muitas mutações por gene (mais de 0.25 de proporção), ele é marcado para revisão manual. Isso ajuda a detectar erros no sequenciamento ou amostras de sangue degradadas.

Step 5 — Resultado no banco

Por fim, todos os dados são salvos num banco MySQL organizado. Cada linha representa uma mutação classificada, com informações como: nome do arquivo original, gene afetado, tipo de mudança na proteína, frequência (VAF), classificação (patogênica/neutra), score FATHMM, e o ID do paciente (quando identificado).

600+
Amostras processadas automaticamente
100%
Das mutações patogênicas conhecidas identificadas
3
Novas mutações patogênicas descobertas que revisão manual não encontrou

Agora vem a parte mais desafiadora: como saber quais relatórios pertencem ao mesmo paciente quando todos chegam sem identificação?

04 / Matching de Pacientes

Por que precisamos identificar o mesmo paciente ao longo do tempo?

Imagine esta situação real do nosso estudo:

📅 18 de Agosto, 2021: Amostra panc-0117 chega ao lab

✓ Detectamos mutação FGFR3 com VAF de 4.25%

📅 15 de Setembro, 2021: Amostra panc-0130 chega ao lab

✓ Não detectamos mutações patogênicas
→ Paciente parece estar em remissão!

📅 18 de Novembro, 2021: Amostra panc-0146 chega ao lab

⚠️ Nova mutação KRAS p.G12D detectada com VAF de 12%
⚠️ Mutação TP53 p.P152L com VAF de 9.67%
→ Tumor está crescendo de novo. E agora com mutações mais agressivas.

A pergunta crítica: Essas 3 amostras são do mesmo paciente?

Se SIM: Essa é uma história de progressão do câncer. O médico precisa saber urgentemente que:

Se NÃO: São 3 pacientes diferentes. Não há história longitudinal. Cada amostra é um ponto isolado.

O problema: Os relatórios chegam sem o nome do paciente para proteger a privacidade. Só temos códigos anônimos (panc-0117, panc-0130, panc-0146). Como saber se pertencem à mesma pessoa?

É aqui que entra a análise de dados.

A Solução: Impressão Digital Genética

Cada pessoa tem um perfil genético único — é como uma impressão digital de DNA. Algumas mutações você herda dos seus pais (mutações germinaisMutações que você recebe dos seus pais no momento da concepção. Estão presentes em todas as células do corpo e não mudam ao longo da vida.), outras são apenas variações normais (polimorfismosVariações genéticas comuns na população que não causam doença. Por exemplo, genes que determinam cor dos olhos ou tipo sanguíneo.). Essas características genéticas não mudam ao longo da vida.

A sacada: Se dois relatórios mostram o mesmo perfil genético de base (aquelas mutações herdadas e polimorfismos), provavelmente são da mesma pessoa. É isso que usamos para fazer o matching.

Cosine similarity: Para comparar dois relatórios, transformamos cada um em um vetor matemático. Funciona assim: cada gene vira uma dimensão (56 genes = 56 dimensões). A intensidade em cada dimensão é a frequência da mutação (VAF). Depois, calculamos o ângulo entre esses dois vetores. Quanto menor o ângulo, mais parecidos são os perfis genéticos. É como comparar a "direção" dos dois relatórios no espaço matemático.

Se você trabalha com dados: é exatamente a mesma técnica que sistemas de recomendação usam. A Netflix compara seu perfil de filmes assistidos com o perfil de outros usuários para recomendar o que você pode gostar. Aqui, comparamos o perfil genético de uma amostra com outras amostras para identificar se são do mesmo paciente.

K-means clustering: Para acelerar o processo (comparar 600 amostras uma a uma seria muito lento), primeiro dividimos as amostras em 2 grupos usando k-means (um algoritmo que agrupa itens similares). Assim, só comparamos amostras dentro do mesmo grupo. Se alguma amostra não encontra par no seu grupo, ela é movida para o outro grupo e comparada de novo.

Resultado: Testamos com 600 amostras, usando o limiar de 98% (ou seja, só consideramos "mesmo paciente" se a similaridade for ≥ 98%). Conseguimos zero falsos positivos — nenhuma vez dissemos que duas amostras eram do mesmo paciente quando na verdade eram de pessoas diferentes. Validamos isso comparando com 10% das amostras que já tinham identificação conhecida.

🧮 Calculadora de Similaridade Genética

Compare os perfis genéticos de duas amostras reais do estudo:

AMOSTRA panc-0154
Arraste os sliders para ajustar os VAF (%)
TP53 45.2%
KRAS 0%
APC 98.5%
BRAF 0%
AMOSTRA panc-0161
Arraste os sliders para ajustar os VAF (%)
TP53 46.8%
KRAS 0%
APC 99.2%
BRAF 0%

👆 Experimente modificar os valores de VAF e veja como a similaridade muda. Perceba que as amostras 0154 e 0161 têm perfis quase idênticos (score 0.99), indicando que são do mesmo paciente.

Visualizando os Resultados: Matriz de Similaridade

Agora vamos olhar para os resultados reais do nosso estudo. A matriz abaixo mostra a similaridade entre 7 amostras diferentes de pacientes com câncer de pâncreas. Cada célula mostra o score de similaridade (0-100%):

Como ler a matriz:
Diagonal (100): Cada amostra comparada com ela mesma (sempre 100%)
Verde escuro (≥98): Mesmo paciente! Perfis genéticos praticamente idênticos
Verde claro (<40): Pacientes diferentes

Observe as descobertas:
• Amostras 0154 e 0161 têm score de 99% → mesmo paciente
• Amostras 0157 e 0160 têm score de 98% → mesmo paciente
• Todas as outras combinações ficam abaixo de 40% → pacientes diferentes
0154
0157
0160
0161
0162
0169
0172
0154
100
35
32
99
28
30
33
0157
35
100
98
36
34
29
31
0160
32
98
100
30
35
27
33
0161
99
36
30
100
29
31
34
0162
28
34
35
29
100
26
32
0169
30
29
27
31
26
100
28
0172
33
31
33
34
32
28
100
Par de amostras Score Match?
0154 × 0161 99% ✅ Mesmo paciente
0157 × 0160 98% ✅ Mesmo paciente
0154 × 0157 35% ❌ Pacientes diferentes
0162 × 0169 26% ❌ Pacientes diferentes
Zona Cinzenta (0.95-0.98)

Quando o score fica entre 0.95 e 0.98, pode ser: (a) o mesmo paciente, mas houve algum erro no sequenciamento, ou (b) pacientes geneticamente muito próximos (por exemplo, irmãos gêmeos). Nesses casos, recomendamos validação manual.

Voltando ao Caso Real

Lembra das 3 amostras que mostramos no início? panc-0117, panc-0130 e panc-0146?

Quando rodamos o algoritmo de similaridade, descobrimos que todas as 3 pertencem ao mesmo paciente (score > 0.98 em todas as comparações). Isso significa que:

  1. Agosto 2021: Tumor detectado (FGFR3 mutação)
  2. Setembro 2021: Remissão aparente (nenhuma mutação patogênica)
  3. Novembro 2021: Recorrência com mutações mais agressivas (KRAS + TP53)

Impacto clínico: O médico agora tem uma linha do tempo completa da progressão do tumor. Ele sabe que o tratamento inicial não foi suficiente e que precisa escalar para uma terapia mais agressiva. Sem o matching de pacientes, essas seriam apenas 3 amostras isoladas, sem história.

05 / Quiz

Você consegue identificar a mutação patogênica?

Vamos testar o que você aprendeu até agora. Imagine que você recebeu um relatório de exame de sangue com estas mutações:

Cenário: Qual(is) mutação(ões) são patogênicas?
Gene Mutação VAF FATHMM
TP53 p.Cys275Tyr 0.049 0.99
TP53 p.Pro72Arg 0.4754 0.36
KRAS p.Gly12Asp 0.0256 0.98
APC Synon 1.000
A)
Todas — qualquer mutação em gene de câncer é perigosa
B)
TP53 p.Cys275Tyr e KRAS p.Gly12Asp
C)
Apenas KRAS p.Gly12Asp — é o gene mais associado a câncer
D)
Nenhuma — VAF abaixo de 1% não é confiável

Ótimo! Agora você já entende os conceitos básicos. Vamos para a parte prática: como transformar esses dados em dashboards que ajudam médicos a tomar decisões mais rápidas.

06 / Do Dado ao Dashboard

Como transformamos dados genômicos em dashboards úteis

O Dashboard Final

Os dados processados pelo pipeline vão direto para um dashboard em Tableau. Ele tem três páginas principais:

Busca
Visão geral de cada amostra individual
Relatório
Detalhes de classificação e matching
Longitudinal
Evolução temporal por paciente
📊 DASHBOARD LONGITUDINAL ctDNA
Paciente: panc-3 | Última atualização: 18 Nov 2021
Monitoramento de VAF ao Longo do Tempo
0%
3%
6%
9%
12%
4.25%
FGFR3
18 Ago 2021
0%
Remissão ✓
15 Set 2021
12%
⚠️ KRAS
18 Nov 2021

Interpretação: Após remissão completa em setembro, detectamos novo pico de VAF em novembro indicando recorrência do tumor com mutação mais agressiva (KRAS p.G12D).

Linha do Tempo de Mutações
18 Ago 2021
FGFR3|LETM1 p.E712V
VAF: 4.255% | FATHMM: 0.91 | Primeira detecção
15 Set 2021
✓ Remissão Completa
Nenhuma mutação patogênica detectada | Tratamento eficaz
18 Nov 2021
⚠️ KRAS p.G12D (NOVA)
VAF: 12.0% | FATHMM: 0.98 | Alerta: Progressão detectada
18 Nov 2021
⚠️ TP53 p.P152L (NOVA)
VAF: 9.667% | FATHMM: 0.95 | Alerta: Segunda mutação patogênica
⚡ AÇÕES RECOMENDADAS
  • Notificar oncologista imediatamente sobre nova mutação KRAS
  • Avaliar mudança de protocolo de tratamento
  • Agendar nova coleta em 2 semanas para monitoramento
  • Considerar terapia direcionada para KRAS G12D

👆 Este é o tipo de insight que o dashboard fornece. Ao invés de olhar para 3 relatórios CSV separados, o médico vê uma história completa: remissão seguida de recorrência agressiva. O sistema automaticamente detecta e alerta sobre novas mutações patogênicas.

O Cancer Avatar Project

Este trabalho faz parte de um programa maior: o Cancer Avatar Program do California Pacific Medical Center Research Institute (CPMC-RI), que faz parte da rede Sutter Health em San Francisco. O objetivo do programa é permitir tratamento personalizado para cada paciente com câncer. Para isso, eles combinam duas abordagens:

  1. "Avatares" de tumor (PDX - Patient-Derived Xenografts): São modelos vivos do tumor de cada paciente, criados em camundongos. Pense assim: os pesquisadores pegam uma pequena amostra do tumor do paciente e transplantam para um camundongo. O tumor cresce no animal exatamente como cresceria no paciente. Com esses modelos, os médicos podem testar diferentes drogas antes de aplicar no paciente real. A taxa de acerto é de 87% quando comparada com o resultado no paciente.
  2. Mapeamento genético do tumor: Usar exames de sangue para identificar as mutações genéticas e acompanhar como elas evoluem ao longo do tempo. Esse é o foco do nosso trabalho.

A ideia é simples: em vez de tratar todos os pacientes com câncer de pâncreas da mesma forma, usar dados para descobrir qual tratamento funciona melhor para cada pessoa. É medicina de precisão na prática.

Métrica Resultado
Acurácia preditiva dos modelos PDX 87%
Tipos de câncer com biblioteca de modelos 8 (cérebro, mama, colorretal, fígado, pulmão, melanoma, ovário, pâncreas)
Internações oncológicas reduzidas -20% (via protocolos baseados em evidência)
Validação clínica Cobimetinib + regorafenib reverteu resistência a imunoterapia em melanoma avançado (2025)
Reconhecimento Acreditações do American College of Surgeons e ASCO (principais entidades de oncologia dos EUA)
Terapia alvo desenvolvida no CPMC-RI Nivolumab — primeira imunoterapia FDA-aprovada para melanoma

O maior desafio: tempo

O programa enfrenta o mesmo obstáculo de todas as iniciativas de "avatar" ao redor do mundo: criar o modelo PDX leva meses, porque você precisa esperar o tumor crescer no camundongo. Pacientes com câncer agressivo podem piorar clinicamente antes que os resultados do avatar estejam prontos. É por isso que o monitoramento via exame de sangue é tão importante: ele dá respostas em minutos, não em meses.

Nosso papel no projeto

Nossa equipe era formada por cinco pesquisadores da UC Davis (Aleksandr Udalov, Lexman Kumar, Anna Gaudette, Ran Zhang e eu) trabalhando junto com os pesquisadores do CPMC-RI (Mehdi Nosrati, Sean McAllister e Pierre-Yves Desprez).

Nosso objetivo era resolver um gargalo específico: mais de 600 relatórios de exames de sangue chegavam ao laboratório e precisavam ser analisados manualmente. Cada relatório passava por identificação de mutações perigosas, classificação, e tentativa de agrupar por paciente. Esse processo levava semanas.

Construímos o pipeline automatizado que você viu neste crash course: coleta de sangue, classificação usando o banco COSMIC, identificação de pacientes usando cosine similarity, e dashboards em Tableau mostrando a evolução ao longo do tempo. Publicamos essa metodologia em 2023 na revista científica Methods and Protocols para que outras equipes de pesquisa possam replicar.

Estudos de Caso: Dados Reais

Caso A: Paciente com Câncer de Pâncreas

Caso B: Paciente com Câncer Colorretal

Tempo é Vida

No tratamento de câncer, detectar uma nova mutação perigosa algumas semanas antes pode mudar completamente o protocolo de tratamento. O dashboard que construímos transformou um processo que levava semanas em algo que leva minutos.

Dados Anonimizados

Todos os dados apresentados foram coletados com consentimento informado, aprovados pelo Institutional Review Board do Sutter Health (protocolo 2015.059-1) e seguem as diretrizes da Declaração de Helsinki. Nenhuma informação identificável do paciente é utilizada.

07 / Suas Skills Já Servem

SQL, Python e similaridade que você já conhece aplicados em genômica

Se você já trabalha com dados, você tem 80% do que precisa para trabalhar em genômica clínica. Veja como suas habilidades atuais se transferem diretamente:

Skill que você já tem Aplicação em genômica clínica Transferência
SQL / Banco de dados Consultar bases genômicas (COSMIC, ClinVar, gnomAD) Direta
Python / ETL Pipeline de processamento de sequenciamento Direta
Similaridade de cosseno Matching de pacientes anônimos Direta
Time-series analysis Monitoramento longitudinal de VAF Direta
Classificação binária Pathogenic vs. Neutral (FATHMM) Adaptação
Data quality checks Validação de qualidade do sequenciamento Adaptação
Dashboard / BI Visualização de dados genômicos Direta
Regex / Text parsing Tradução de nomenclatura (ex: "p.Cys275Tyr" → "C275Y") Adaptação

Na tabela acima, "Direta" significa que você usa a mesma técnica sem modificação. "Adaptação" significa que você precisa ajustar a técnica para o contexto de genômica (mas o conceito é o mesmo).

O que você precisa aprender:

~8h
Biologia molecular básica
~6h
Genética do câncer
~4h
Regulação (LGPD/HIPAA)
~2h
Ética em pesquisa

Perceba que a parte técnica de dados (SQL, Python, dashboards) você já domina. O que falta aprender é o contexto de biologia molecular. E esse contexto pode ser adquirido em cerca de 20 horas de estudo. Você pode ser a ponte entre o laboratório e a equipe de dados.

🤖 Como GenAI Está Transformando Este Campo

Quando fizemos este projeto (2021-2022), tudo era manual e baseado em regras. Hoje, IA generativa está acelerando cada etapa do processo:

Variant Calling
DeepVariant (Google) usa deep learning para identificar mutações com 99.9% de precisão
Interpretação
LLMs analisam literatura médica e sugerem significado clínico de mutações raras
Relatórios
GPT-4 gera relatórios clínicos automatizados a partir dos dados genômicos

Exemplos práticos de como GenAI ajudaria no nosso projeto:

Oportunidade: Se você já trabalha com dados e quer entrar em genômica, conhecimento de LLMs e treinamento de modelos é um diferencial enorme. A maioria dos bioinformatas ainda não domina IA generativa. Você pode ser a pessoa que conecta os dois mundos.

Ferramentas GenAI para genômica que você pode aprender (todas têm APIs ou versões gratuitas):

08 / Próximo Passo

O que fazer amanhã de manhã

Caminhos de Carreira no Brasil

Este mercado está crescendo rápido no Brasil. Aqui estão opções reais de carreira com empresas que contratam:

1. Bioinformata Clínico

O que faz: Analisar dados genômicos de pacientes, interpretar mutações, gerar relatórios para médicos.

Empresas no Brasil:

  • Varstation: Plataforma de análise genômica (São Paulo)
  • Mendelics: Testes genéticos e diagnóstico (São Paulo)
  • Genera Genomics: Sequenciamento e análise (Rio de Janeiro)
  • DB Molecular: Diagnóstico molecular (Paraná)

2. Data Engineer em Healthtech

O que faz: Construir pipelines de dados clínicos, integrar sistemas hospitalares, trabalhar com FHIR e HL7.

Empresas no Brasil:

  • Hospital Israelita Albert Einstein: Centro de dados e analytics
  • Fleury: Maior rede de medicina diagnóstica do Brasil
  • Dasa: Maior laboratório da América Latina
  • Grupo NotreDame Intermédica: Operadora de saúde com forte foco em dados

3. Analista de Dados em Pesquisa

O que faz: Criar dashboards para pesquisadores, fazer análises estatísticas, visualizar dados de estudos clínicos.

Onde trabalhar:

  • A.C.Camargo Cancer Center: Referência em pesquisa oncológica
  • Hospital Sírio-Libanês: Instituto de ensino e pesquisa
  • Instituto do Câncer do Estado de São Paulo (ICESP)
  • Rede D'Or: Centros de pesquisa clínica

4. Cientista de Dados em Biotech

O que faz: Desenvolver modelos preditivos, trabalhar com ML/AI, analisar ensaios clínicos.

Startups brasileiras contratando:

  • Hilab: Diagnóstico descentralizado com IA
  • Sharecare: Plataforma de saúde digital
  • Alice: Plano de saúde digital
  • Vittude: Saúde mental e analytics

Dica prática: Busque no LinkedIn por "bioinformática Brasil" ou "dados genômicos São Paulo". Muitas dessas vagas não são anunciadas publicamente. Entre em contato direto com recrutadores dessas empresas mostrando um projeto de portfólio (como o sugerido abaixo).

Template: Meu Primeiro Pipeline Genômico
# Pipeline: Análise de Mutações em Biópsia Líquida # Baseado no artigo: Udalov et al., Methods Protoc. 2023 ## 1. OBTER DADOS DE REFERÊNCIA # Fonte: COSMIC (Catalogue of Somatic Mutations in Cancer) # URL: https://cancer.sanger.ac.uk/cosmic # Filtrar: gene_name, mutation_aa, type, fathmm_score # Remover duplicatas → Carregar em banco SQL ## 2. PROCESSAR RELATÓRIO DE SEQUENCIAMENTO # Input: CSV do Genialis (ou equivalente) # Colunas: GENE, AA (Amino Acid Change), AF (Allele Frequency) # Traduzir nomenclatura AA para formato COSMIC ## 3. CLASSIFICAR MUTAÇÕES # JOIN: relatório × COSMIC (gene + mutação) # Se match: atribuir tipo + score FATHMM # Limiar patogênico: FATHMM >= 0.8 ## 4. VALIDAR QUALIDADE # Flag se: total_rows < 32 OU ratio(mutações/genes) > 0.25 ## 5. MATCHING DE PACIENTES (se anônimo) # Vetor de 56 dimensões (genes) × frequências alélicas # Cosine similarity → limiar >= 0.98 = mesmo paciente ## 6. VISUALIZAR # Tableau/Dash/Shiny: busca, relatório, longitudinal

Projeto de Final de Semana

Quer começar agora? Aqui está um projeto prático que você pode fazer neste fim de semana:

  1. Entre no cBioPortal (plataforma gratuita com dados genômicos de milhares de pacientes) e baixe dados públicos de algum tipo de câncer
  2. Escolha um tipo de câncer que te interessa (por exemplo: BRCA para câncer de mama)
  3. Filtre as mutações por gene e tipo (patogênicas vs. neutras)
  4. Calcule o VAF (frequência alélica) de cada amostra
  5. Monte um dashboard simples usando Streamlit ou Dash mostrando as mutações mais comuns
  6. Publique no GitHub e use como projeto de portfólio
Faça
Aprender SQL para bancos genômicos (comece com cBioPortal)
Estudar biologia molecular básica (Khan Academy é suficiente)
Fazer o curso de LGPD aplicada a dados de saúde
Contribuir para projetos open-source em bioinformática
Montar um portfólio com dados públicos de genômica
Evite
Achar que precisa de doutorado para começar (muitas vagas aceitam graduados)
Ignorar as leis de proteção de dados (LGPD/HIPAA são obrigatórias nessa área)
Pular a parte de biologia (você precisa entender o contexto clínico)
Esperar por permissão ou oportunidade perfeita (dados públicos estão disponíveis hoje)
Tratar como "só mais um dashboard" (cada número representa uma pessoa real)

Você pode começar hoje, sem gastar nada, usando dados públicos e ferramentas gratuitas.