Model Card · v3.1.0 · production

Oral Cancer High-Risk Classifier

Modelo de triagem de risco de câncer oral (Inicial vs. Avançado), otimizado para Recall e governado por um pipeline completo de MLOps. Não é diagnóstico — apoio à decisão com supervisão médica obrigatória.

Ver doc completo Métricas no dashboard

≈0.50

ROC-AUC (CV k=5)

≈0.45

Recall @0.5 (CV)

3.1.0

Versão

protótipo

Stage

Documentação

Especificação completa do modelo

Transparência clínica de ponta a ponta — da arquitetura à fairness, limitações e compliance.

01 / 09

Detalhes do Modelo

Desenvolvedor: Vitor Diogo Fonseca da Silva — FIAP Pós-Tech (Tech Challenge 01)
Tipo: MLP — classificação binária probabilística calibrada
Arquitetura: Input → [128, 64, 32] → 1 logit · BatchNorm · ReLU · Dropout(0.3)
Treino: BCEWithLogitsLoss(pos_weight) · early stopping (patience=10) · HPO Optuna (TPE)
Frameworks: PyTorch · scikit-learn · Pandera (data contract)
Registro MLflow: AetherOncologyOralCancerHighRisk
Artefatos: aether_mlp_v2.pth · preprocessor.joblib · calibrator.joblib · ood_detector.joblib
Licença: MIT

A fonte da verdade gerada automaticamente (hashes de lineage, métricas de calibração, fairness por subgrupo) vive em models/model_card.md, produzida a cada treino. Esta é a versão curada e contextualizada.

02 / 09

Uso Pretendido

Enquadramento real: protótipo acadêmico (Tech Challenge FIAP) — demonstração de pipeline de ML end-to-end, não um produto clínico. A narrativa de CDSS abaixo é a persona/cenário hipotético do exercício, não uma reivindicação de uso clínico real.

Público-alvo (persona): oncologistas e cirurgiões de cabeça e pescoço — cenário hipotético do exercício.
Uso primário (simulado): CDSS para triagem de risco — Estágio Inicial (Early) vs. Avançado (Moderate/Late).
Custo do erro: o custo de um Falso Negativo é incomensuravelmente maior que o de um Falso Positivo — por isso o objetivo de projeto priorizou Recall. Porém, o benchmark reprodutível (k=5) mostra ROC-AUC ≈ 0,50: o modelo não supera a taxa-base (ver §7).
Fora de escopo (real): não é dispositivo médico, não foi validado clinicamente, não diagnostica autonomamente e não deve tocar decisões sobre pacientes reais.

03 / 09

Dados de Treinamento & Features

Dataset: Oral Cancer Top 30 Countries (MIT)
Alvo: high_risk = Diagnosis_Stage ∈ {Moderate, Late}
Features brutas (8): Age, Survival_Rate, Tobacco_Use, Alcohol_Use, Country, Gender, Socioeconomic_Status, Treatment_Type
Derivadas: risk_index (tabaco+álcool+HPV), age_bucket, high_incidence_country
Pré-proc: ClinicalFeatureExtractor → StandardScaler + OneHotEncoder
Split: Temporal/sequencial por ID — 70% / 15% / 15%
Fontes clínicas: WHO · NCCN · SEER · IARC

Governança no treino: contratos Pandera distintos para treino/inferência, regras de coerência clínica (OK/WARNING/HIGH/CRITICAL), auditoria de vazamento (Pearson |r|>0,95, MI>0,95, permutação>0,45), detecção OOD (Isolation Forest) e snapshots imutáveis indexados por SHA-256.

04 / 09

Calibração

ISOTONIC

Método selecionado

0.210

Brier Score

≈3.84e-8

ECE (10 bins)

≈4.94e-8

MCE (10 bins)

O modelo seleciona automaticamente o melhor método (Platt vs. Isotônica) por Brier score — menor é melhor.

05 / 09

Auditoria de Fairness (Equalized Odds)

A auditoria computa Recall / FPR / FNR / Brier por subgrupo de Gênero, faixa etária e País (30 países), com threshold de disparidade de 15%.

Nota de integridade (transparência obrigatória)

O relatório de fairness versionado reporta Recall 100% e FPR 100% em todos os subgrupos simultaneamente — matematicamente inconsistente com um holdout clínico real (compatível apenas com limiar degenerado ou conjunto sintético).

Interpretação honesta: a infraestrutura de auditoria é de nível de produção e funcional; os números reportados são provisórios e não devem ser citados como evidência de equidade clínica até validação sobre dados reais rotulados (roadmap: Fairlearn).

06 / 09

Explicabilidade (XAI) & RAG

Interpretabilidade: atribuição via Integrated Gradients sobre o modelo local; o portal exibe o gatilho decisório em gráfico radar. (Implementado; atribuição em produção em validação.)
RAG: busca de evidência em PubMed (Entrez), Cochrane e Semantic Scholar, com circuit breaker por provedor, dedup por URL e cache 24h. (Vector store semântico stub → fallback ao vivo.)

07 / 09

Limitações, Vieses & Cenários de Falha

Limitações

Dataset sintético: Treinado sobre o Oral Cancer Top 30 Countries (MIT, ~160k registros), de origem sintética/gerada. Boas métricas indicam aderência ao gerador de dados, não capacidade preditiva real.
Métricas infladas por construção: Um dataset sintético pode ser trivialmente separável. Sempre comparar contra DummyClassifier e baselines lineares — métricas quase perfeitas são artefato do dado.
Escopo de features reduzido: Apenas 6 fatores demográficos/comportamentais. Sem exames, imagem, histopatologia ou biomarcadores — insuficiente para juízo de risco individual.
Ausência de validação: Sem validação externa, validação clínica ou calibração em população real. As probabilidades não representam risco absoluto.

Vieses identificados

Viés por país (country): Atribui risco diferente a indivíduos idênticos só pela nacionalidade — tratamento desigual inaceitável para decisão individual. Não generaliza fora dos 30 países.
Viés socioeconômico (socioeconomic_status): Faz o risco variar pela faixa socioeconômica, podendo codificar desigualdade estrutural e penalizar grupos vulneráveis.
Viés de representação: Sintético e restrito a 30 países; não representa a diversidade real (etnia, acesso à saúde, hábitos regionais).

Tratamento de vazamento (data leakage)

treatment_type e survival_rate são consequências do diagnóstico, não preditores — foram excluídas da inferência. No servidor recebem valores neutros default; o portal de triagem documenta a exclusão ao usuário.

Cenários de falha

Decisão clínica individual: Triar/diagnosticar/priorizar um paciente real — principal cenário de falha; o modelo não tem base para isso.
Entrada fora da distribuição: Idades extremas, país não listado ou combinações raras produzem predições não confiáveis.
Drift de distribuição: Dados reais divergiriam da sintética desde o dia 1; o modelo degradaria imediatamente em produção real.
Interpretação indevida da probabilidade: Tratar o percentual como certeza diagnóstica — erro de uso previsível e perigoso.

Mitigações & recomendações

▸Manter o enquadramento de protótipo / demonstração de engenharia, com disclaimer visível.
▸Antes de qualquer uso real: recoletar dados clínicos reais, validação externa, calibração e auditoria de fairness por subgrupo.
▸Reavaliar features sensíveis — idealmente remover country e socioeconomic_status como drivers individuais.
▸Implementar monitoramento de drift (PSI/KS) e um playbook de resposta a dados fora do treino.

08 / 09

Governança, Compliance & Ambiente

HIPAA / LGPD: Trilha de auditoria Fernet (AES-128-CBC + HMAC); IndexedDB cifrado (PBKDF2 + AES-GCM-256); scrubber de PHI.
FDA SaMD: Classe II (apoio à decisão); model cards + lineage SHA-256 + replay event-sourced.
EU AI Act: Alto Risco (Anexo III) com supervisão humana integrada.
Rastreabilidade: Middleware X-Request-ID ligando request → audit trail → logs.
Drift: KS-Test / PSI / JS divergence; gatilho global quando >33% das features sofrem drift.
Resiliência: Circuit breakers em PubMed/Scholar/HF e na cadeia LLM (Groq → Gemini).
Green AI: Otimizado para CPU; rastreamento de energia/CO₂ por inferência.

09 / 09

Referências Técnicas

GLOBOCAN / IARC. Global Cancer Observatory — Lip & Oral Cavity Cancer.
NCCN. Clinical Practice Guidelines in Oncology — Head and Neck Cancers.
Sundararajan, Taly & Yan (2017). Axiomatic Attribution for Deep Networks (Integrated Gradients). ICML.
Guo et al. (2017). On Calibration of Modern Neural Networks. ICML.
Hardt, Price & Srebro (2016). Equality of Opportunity in Supervised Learning. NeurIPS.
Pandera Documentation. Data Contracts and Validation Patterns for ML.

Aether Oncology — Medicina é Arte, Ciência é a Ferramenta.