Multimodal Artificial Intelligence-based Models for Non-Invasive Assessment and Decision Support in Hepatology

Kresevic, Simone

Chronic liver disease is a significant global health burden, accounting for more than two million deaths per year. Non-invasive pathways are central to prevention and longitudinal care, yet they remain limited by uncertainty and variability: rigid rule-based thresholds leave many patients in indeterminate “gray zones”, non-invasive biomarkers can be misleading under common confounders, clinical decisions may vary because guideline recommendations require integrating multiple conditional criteria, and ultrasound-based scoring is affected by operator dependence and limited reproducibility. This thesis investigates clinically coherent artificial intelligence strategies to reduce these sources of uncertainty across the evidence-generation and decision-making chain. The first part focuses on uncertainty-aware risk stratification using statistical machine learning. A pan-elastography model was developed and externally validated for clinically significant portal hypertension, demonstrating robust discrimination (external validation AUC 0.91) and, importantly, a substantial reduction of the diagnostic gray zone to 12.3% compared with 47.9% under current clinical practice criteria, while maintaining stringent rule-out and rule-in safety targets. A complementary aspect of diagnostic uncertainty was addressed in the assessment of liver fibrosis in hepatitis C infection, by reframing the task from “predicting fibrosis” to identifying when baseline staging is likely unreliable. The resulting model achieved 88% test accuracy with good calibration, supporting a workflow in which questionable measurements can be flagged for repeat or alternative assessment before long-term follow-up decisions are made. The second part addresses a different layer of uncertainty in how evidence-based guidelines are translated into actionable decisions. Because large language models can generate plausible but incorrect recommendations when not explicitly grounded, a retrieval-augmented generation (RAG) framework was designed to constrain outputs to authoritative guideline segments and preserve traceability. Across all 33 european hepatology guidelines, RAG increased expert-graded answer accuracy from approximately 60% to above 90% for both a proprietary model (60.9% to 91.9%) and an open-weight model (59.9% to 90.9%), with no significant differences once grounding was applied. The final part extends the same aim to imaging, where the dominant limitations are not only accuracy but reproducibility and interpretability. A vision--language framework was developed to operationalize clinical-aligned reasoning at the examination level by integrating multiple ultrasound views and producing auditable feature-level outputs. In a biopsy-linked bariatric cohort (a technically demanding setting), the AI-derived Hamaguchi score showed a strong monotonic association with histological steatosis percentage (ρ=0.94) and achieved high discrimination for MASLD and clinically significant steatosis (AUC 0.93 and 0.99, respectively), while remaining structured and reviewable.\newline Overall, the thesis addressed a critical and timely challenges in modern hepatology by developing novel artificial intelligence models specifically designed in a clinically coherent manner to support non-invasive liver diagnostics.

Le malattie epatiche croniche, con oltre due milioni di decessi all'anno, rappresentano un problema di sanità pubblica a livello mondiale. Nella pratica clinica, gli approcci diagnostici non invasivi sono fondamentali per la prevenzione e il monitoraggio nel tempo, ma presentano importanti limiti legati all'incertezza e alla variabilità: l'uso di soglie fisse determina zone grigie in cui molti pazienti rimangono in una situazione diagnostica indeterminata; i biomarcatori non invasivi possono essere alterati in presenza di fattori confondenti comuni; l'applicazione delle linee guida può portare a decisioni cliniche variabili, data la necessità di integrare criteri multipli e condizionali; infine, le valutazioni dell'imaging ecografico risentono della variabilità inter-operatore e della scarsa riproducibilità. L’obiettivo di questa tesi è sviluppare soluzioni di intelligenza artificiale clinicamente rilevanti per ridurre tali fonti di incertezza, sia nella produzione delle evidenze diagnostiche sia nel processo decisionale. Nella prima parte vengono sviluppati modelli di machine learning per la stratificazione del rischio, progettati per gestire esplicitamente l’incertezza. È stato sviluppato e validato un modello pan-elastografico per la diagnosi di ipertensione portale che ha mostrato un’elevata capacità discriminativa (AUC 0,91 in validazione esterna) e una marcata riduzione della zona grigia diagnostica (12,3% rispetto al 47,9% dei criteri clinici correnti). Un secondo studio complementare ha affrontato la valutazione della fibrosi epatica nell’epatite C cronica con un cambio di prospettiva: non stimare direttamente lo stadio di fibrosi, ma identificare i casi in cui la stadiazione non invasiva iniziale è probabilmente inattendibile. Il modello ha raggiunto un’accuratezza dell’88%, consentendo di individuare misurazioni da rivalutare prima di definire strategie di follow-up a lungo termine. La seconda parte della tesi affronta l’incertezza legata all’applicazione delle linee guida cliniche. I modelli linguistici di grandi dimensioni possono generare risposte plausibili ma errate se non guidati nel processo generativo da fonti affidabili. Per questo è stato sviluppato un sistema di retrieval-augmented generation (RAG) che vincola le risposte ai contenuti delle linee guida e ne garantisce la tracciabilitá. Applicato alle 33 linee guida europee di epatologia, il sistema sviluppato ha migliorato l’accuratezza delle risposte, valutate da esperti rispetto al contenuto delle linee guida, dal 60% a oltre il 90%, sia con modelli proprietari sia con modelli open-weight eseguibili in locale, senza differenze significative tra i due una volta implementato l'ancoraggio alle fonti. L’ultima parte estende questo approccio all’imaging ecografico, dove oltre all’accuratezza sono cruciali riproducibilità e interpretabilità. È stato sviluppato un sistema multimodale capace di analizzare l’intero esame ecografico integrando più proiezioni e producendo output strutturati e verificabili. In una coorte di pazienti bariatrici con riferimento istologico, lo score di Hamaguchi stimato dal sistema ha mostrato un’elevata correlazione con la steatosi istologica (ρ=0,94) e un’ottima capacità diagnostica per MASLD e steatosi moderata/severa (AUC 0,93 e 0,99), mantenendo al contempo una struttura interpretabile e verificabile. Nel complesso, questa tesi ha affrontato questioni critiche e attuali dell'epatologia moderna, sviluppando modelli innovativi di intelligenza artificiale progettati con approccio clinicamente coerente per migliorare la diagnostica epatica non invasiva.

Multimodal Artificial Intelligence-based Models for Non-Invasive Assessment and Decision Support in Hepatology / Kresevic, Simone. - (2026 Apr 17).