Voltar à plataforma
Model Card · v3.1.0 · production

Oral Cancer High-Risk Classifier

Modelo de triagem de risco de câncer oral (Inicial vs. Avançado), otimizado para Recall e governado por um pipeline completo de MLOps. Não é diagnóstico — apoio à decisão com supervisão médica obrigatória.

≈0.50
ROC-AUC (CV k=5)
≈0.45
Recall @0.5 (CV)
3.1.0
Versão
protótipo
Stage
Documentação

Especificação completa do modelo

Transparência clínica de ponta a ponta — da arquitetura à fairness, limitações e compliance.

01 / 09

Detalhes do Modelo

Desenvolvedor
Vitor Diogo Fonseca da Silva — FIAP Pós-Tech (Tech Challenge 01)
Tipo
MLP — classificação binária probabilística calibrada
Arquitetura
Input → [128, 64, 32] → 1 logit · BatchNorm · ReLU · Dropout(0.3)
Treino
BCEWithLogitsLoss(pos_weight) · early stopping (patience=10) · HPO Optuna (TPE)
Frameworks
PyTorch · scikit-learn · Pandera (data contract)
Registro MLflow
AetherOncologyOralCancerHighRisk
Artefatos
aether_mlp_v2.pth · preprocessor.joblib · calibrator.joblib · ood_detector.joblib
Licença
MIT

A fonte da verdade gerada automaticamente (hashes de lineage, métricas de calibração, fairness por subgrupo) vive em models/model_card.md, produzida a cada treino. Esta é a versão curada e contextualizada.

02 / 09

Uso Pretendido

Enquadramento real: protótipo acadêmico (Tech Challenge FIAP) — demonstração de pipeline de ML end-to-end, não um produto clínico. A narrativa de CDSS abaixo é a persona/cenário hipotético do exercício, não uma reivindicação de uso clínico real.

Público-alvo (persona)
oncologistas e cirurgiões de cabeça e pescoço — cenário hipotético do exercício.
Uso primário (simulado)
CDSS para triagem de risco — Estágio Inicial (Early) vs. Avançado (Moderate/Late).
Custo do erro
o custo de um Falso Negativo é incomensuravelmente maior que o de um Falso Positivo — por isso o objetivo de projeto priorizou Recall. Porém, o benchmark reprodutível (k=5) mostra ROC-AUC ≈ 0,50: o modelo não supera a taxa-base (ver §7).
Fora de escopo (real)
não é dispositivo médico, não foi validado clinicamente, não diagnostica autonomamente e não deve tocar decisões sobre pacientes reais.
03 / 09

Dados de Treinamento & Features

Dataset
Oral Cancer Top 30 Countries (MIT)
Alvo
high_risk = Diagnosis_Stage ∈ {Moderate, Late}
Features brutas (8)
Age, Survival_Rate, Tobacco_Use, Alcohol_Use, Country, Gender, Socioeconomic_Status, Treatment_Type
Derivadas
risk_index (tabaco+álcool+HPV), age_bucket, high_incidence_country
Pré-proc
ClinicalFeatureExtractor → StandardScaler + OneHotEncoder
Split
Temporal/sequencial por ID — 70% / 15% / 15%
Fontes clínicas
WHO · NCCN · SEER · IARC

Governança no treino: contratos Pandera distintos para treino/inferência, regras de coerência clínica (OK/WARNING/HIGH/CRITICAL), auditoria de vazamento (Pearson |r|>0,95, MI>0,95, permutação>0,45), detecção OOD (Isolation Forest) e snapshots imutáveis indexados por SHA-256.

04 / 09

Calibração

ISOTONIC
Método selecionado
0.210
Brier Score
≈3.84e-8
ECE (10 bins)
≈4.94e-8
MCE (10 bins)

O modelo seleciona automaticamente o melhor método (Platt vs. Isotônica) por Brier score — menor é melhor.

05 / 09

Auditoria de Fairness (Equalized Odds)

A auditoria computa Recall / FPR / FNR / Brier por subgrupo de Gênero, faixa etária e País (30 países), com threshold de disparidade de 15%.

Nota de integridade (transparência obrigatória)

O relatório de fairness versionado reporta Recall 100% e FPR 100% em todos os subgrupos simultaneamente — matematicamente inconsistente com um holdout clínico real (compatível apenas com limiar degenerado ou conjunto sintético).

Interpretação honesta: a infraestrutura de auditoria é de nível de produção e funcional; os números reportados são provisórios e não devem ser citados como evidência de equidade clínica até validação sobre dados reais rotulados (roadmap: Fairlearn).

06 / 09

Explicabilidade (XAI) & RAG

Interpretabilidade
atribuição via Integrated Gradients sobre o modelo local; o portal exibe o gatilho decisório em gráfico radar. (Implementado; atribuição em produção em validação.)
RAG
busca de evidência em PubMed (Entrez), Cochrane e Semantic Scholar, com circuit breaker por provedor, dedup por URL e cache 24h. (Vector store semântico stub → fallback ao vivo.)
07 / 09

Limitações, Vieses & Cenários de Falha

Limitações
Dataset sintético
Treinado sobre o Oral Cancer Top 30 Countries (MIT, ~160k registros), de origem sintética/gerada. Boas métricas indicam aderência ao gerador de dados, não capacidade preditiva real.
Métricas infladas por construção
Um dataset sintético pode ser trivialmente separável. Sempre comparar contra DummyClassifier e baselines lineares — métricas quase perfeitas são artefato do dado.
Escopo de features reduzido
Apenas 6 fatores demográficos/comportamentais. Sem exames, imagem, histopatologia ou biomarcadores — insuficiente para juízo de risco individual.
Ausência de validação
Sem validação externa, validação clínica ou calibração em população real. As probabilidades não representam risco absoluto.
Vieses identificados
Viés por país (country)
Atribui risco diferente a indivíduos idênticos só pela nacionalidade — tratamento desigual inaceitável para decisão individual. Não generaliza fora dos 30 países.
Viés socioeconômico (socioeconomic_status)
Faz o risco variar pela faixa socioeconômica, podendo codificar desigualdade estrutural e penalizar grupos vulneráveis.
Viés de representação
Sintético e restrito a 30 países; não representa a diversidade real (etnia, acesso à saúde, hábitos regionais).
Tratamento de vazamento (data leakage)

treatment_type e survival_rate são consequências do diagnóstico, não preditores — foram excluídas da inferência. No servidor recebem valores neutros default; o portal de triagem documenta a exclusão ao usuário.

Cenários de falha
Decisão clínica individual
Triar/diagnosticar/priorizar um paciente real — principal cenário de falha; o modelo não tem base para isso.
Entrada fora da distribuição
Idades extremas, país não listado ou combinações raras produzem predições não confiáveis.
Drift de distribuição
Dados reais divergiriam da sintética desde o dia 1; o modelo degradaria imediatamente em produção real.
Interpretação indevida da probabilidade
Tratar o percentual como certeza diagnóstica — erro de uso previsível e perigoso.
Mitigações & recomendações
  • Manter o enquadramento de protótipo / demonstração de engenharia, com disclaimer visível.
  • Antes de qualquer uso real: recoletar dados clínicos reais, validação externa, calibração e auditoria de fairness por subgrupo.
  • Reavaliar features sensíveis — idealmente remover country e socioeconomic_status como drivers individuais.
  • Implementar monitoramento de drift (PSI/KS) e um playbook de resposta a dados fora do treino.
08 / 09

Governança, Compliance & Ambiente

HIPAA / LGPD
Trilha de auditoria Fernet (AES-128-CBC + HMAC); IndexedDB cifrado (PBKDF2 + AES-GCM-256); scrubber de PHI.
FDA SaMD
Classe II (apoio à decisão); model cards + lineage SHA-256 + replay event-sourced.
EU AI Act
Alto Risco (Anexo III) com supervisão humana integrada.
Rastreabilidade
Middleware X-Request-ID ligando request → audit trail → logs.
Drift
KS-Test / PSI / JS divergence; gatilho global quando >33% das features sofrem drift.
Resiliência
Circuit breakers em PubMed/Scholar/HF e na cadeia LLM (Groq → Gemini).
Green AI
Otimizado para CPU; rastreamento de energia/CO₂ por inferência.
09 / 09

Referências Técnicas

  • GLOBOCAN / IARC. Global Cancer Observatory — Lip & Oral Cavity Cancer.
  • NCCN. Clinical Practice Guidelines in Oncology — Head and Neck Cancers.
  • Sundararajan, Taly & Yan (2017). Axiomatic Attribution for Deep Networks (Integrated Gradients). ICML.
  • Guo et al. (2017). On Calibration of Modern Neural Networks. ICML.
  • Hardt, Price & Srebro (2016). Equality of Opportunity in Supervised Learning. NeurIPS.
  • Pandera Documentation. Data Contracts and Validation Patterns for ML.

Aether Oncology — Medicina é Arte, Ciência é a Ferramenta.