COVERSTORY I

Künstliche Intelligenz in der Mamma-Radiologie

von Barbara Bennani-Baiti und Pascal A. Baltzer

Künstliche Intelligenz (KI) ist aus unserem Alltag nicht mehr wegzudenken. Sie hat mit Alexa, Siri und auch in Form von Staubsaugerrobotoren, Einparkhilfen und dergleichen schon lange in fast alle Lebensbereiche Einzug gehalten. KI ist dabei nur das aktuelle wording und auch heute noch nicht wörtlich zu nehmen, wobei der Fortschritt der Computertechnik gerade in den letzten Jahren hohe Komplexitätsgrade der verwendeten Systeme erreicht. Nun betrifft die KI auch den Beruf des Radiologen, droht ihn gar zu eliminieren wenn man einigen Experten glauben schenken mag („in 10 Jahren sind alle Radiologen arbeitslos“)(1).


Dabei bietet KI für unseren Berufsstand eine veritable Chance Medizin auf einem bis dato unmöglichen Niveau zu betreiben. Die Mammaradiologie kombiniert direkten Patientenkontakt, eine Vielzahl an angewandter Modalitäten und einen leichten Zugang zu histologischer Verifikation und ist damit in einer Schlüsselposition die Rolle von KI in der Radiologie mit zu definieren und davon in hohem Ausmaß zu profitieren.  Unser Umgang mit KI bedingt, welche Rolle die Radiologie mittel-und langfristig in der Diagnostik einnehmen wird. Je mehr wir uns damit befassen und je eher wir definieren welche Bereiche durch KI ergänzt, verbessert oder abgedeckt werden können, desto mehr wird unser Berufsstand durch KI aufgewertet werden.

Dass gerade die Mamma-Diagnostik schon seit knapp 25 Jahren von KI begleitet wird, ist kaum jemandem bewusst. Damals wurde Image Checker M1000 (R2 Technology, Los Altos, Kalifornien, USA), eines der ersten Computer-Aided-Diagnostis (CAD) Systeme für die Mammographie entwickelt und 1998 von der FDA zugelassen (siehe Grafik 1)(2). Parascript AccuDetect und VuCOMP M-Vu CAD sind weitere gängige CAD-Systeme. Seitdem ist gerade die Mammographie eines der Kernanwendungsgebiete von KI, die in den USA aufgrund der dort bereits frühzeitig begonnenen kassenseitiger Refundierung von CAD-gestütztem Befunden fest in den Befundalltag integriert ist. Beispielsweise wurden 2008 in den USA 74% der der Medicare Population zugeordneten Mammographien CAD-unterstützt befundet. Die jährlichen Kosten beliefen sich dabei auf rund 400 Millionen Dollar, bzw. ungefähr 10 Dollar pro Befund für CAD(3). 

 

Grafik 1. Image Checker M1000 (R2 Technology, Los Altos, Kalifornien USA) – Abbildung modifiziert von (4).

 

Was vermag die KI nun in der Mamma-Diagnostik zu leisten und wo sind potenziell sinnvolle Einsatzbereiche?

Prinzipiell ist KI dem menschlichen Befunder einerseits bei monotonen Aufgabenstellungen mit hohem Volumen und andererseits bei hoch komplexen Aufgabenstellungen, die eine enorme Rechenleistung benötigen überlegen. Daraus ergeben sich primär zwei Anwendungsgebiete: 1) (Vor)Selektion von abnormen Befunden und daraus resultierend reduzierter Arbeitslast (z.B. Screening-Mammographien) mit möglicherweise auch verbesserter diagnostischer Genauigkeit, da ein Algorithmus im Gegensatz zum Menschen bei hoher Arbeitslast nicht ermüdet. 2) Integration großer Bilddatensätze mit biologischer Information (z.B. MRT-Datensätze) und zugehörige molekularbiologische Datensätze um anhand der vorliegenden Bildinformationen biologische Kernaussagen treffen zu können, die das menschliche Auge aufgrund ihrer Subtilität nicht am Bild ablesen kann.


Hier könnte die KI einen wesentlichen Beitrag durch pathologisch-klinische Korrelation mit radiologischen Merkmalen für eine Risikoabschätzung oder zur Prädiktion von Therapieansprechen und zur Selektion einer entsprechend angepassten Therapie beitragen. Dafür scheinen aber Modalitäten wie die Magnetresonanztomographie, die Positronen-Emissions-Tomographie (5,6) oder auch der multiparametrische Ultraschall (7) geeigneter als die Mammographie, da erstgenannte wesentlich mehr biologische und tumorbiologische Informationen liefern als die Mammographie.


Weitere Anwendungsbereiche von KI wären 3) automatisierte standardisierte Dichtemessungen (Mammographie) oder auch automatisierte Bestimmung von FGT/BPE (MRT) 4) automatische Integration von Bildmaterial unterschiedlicher bildgebender Modalitäten (z.B. Mammographie, multiparametrischer Ultraschall, Magnetresonanztomographie oder Tomosynthese) und 5) simpel und doch arbeitserleichternd das automatische Erkennen und Erfassen von technischen Parametern, Daten und Modalität von Voruntersuchungen, und deren Integration in einen Befund. Hier wären beispielsweise bei Tumorverlaufskontrollen das automatisierte Erfassen der vom Tumor betroffenen Region bei Folgeuntersuchungen, sowie der Übertrag von in Voruntersuchungen erhobenen Tumoreckdaten (je nach Modalität: Größe, Elastizität, FDG-Aufnahme etc.) und idealerweise auch automatisierte Neuerhebung dieser Parameter der Zielläsionen im Verlauf hilfreich.

Aufgrund des hohen Arbeitsvolumens und des daraus resultierend großen finanziellen Interesses beschäftigt sich ein Gutteil der kommerziellen KI-Entwicklung mit CAD-gestützten Lösungen für die Screening-Mammographie. Hierbei wird der CAD-Befundung zumeist die Rolle des Zweitbefunders zugewiesen. Rezentere Entwicklungen zielen hingegen darauf ab, dass CAD-gestützte Systeme eine Vorselektion ausführen, um den menschlichen Befunder zu entlasten, der dann lediglich auffällige Befunde zur weiteren Begutachtung erhält. Teure Fachkräfte würden sohin durch die Reduktion an monotoner Arbeitslast entlastet und wären frei sich diffizileren Aufgabenstellungen zu widmen.


Allerdings gibt es im Bereich der Screening-Mammographien noch eine weitere Facette, die im Sinne der Patientensicherheit von großem Interesse für KI-gestützte Forschung wäre: Derzeit führt ein nicht unwesentlicher Bestandteil der Mammographien zu falsch negativen Ergebnissen und resultiert bei einer Sensitivität der Mammographie im Screening Setting bei etwa 77-87% zur „Unterdiagnose“ von Brustkrebs (3,8). Zur Reduktion falsch negativ befundeter Mammographien und auch zur Reduktion von Intervallkarzinomen wäre der Einsatz von KI Methoden aber aus medizinischer Sicht sehr wünschenswert.

Was vermögen nun derzeit verfügbare CAD-Lösungen zu leisten?

Die meisten Daten hierzu liegen zur CAD-gestützten Befundung von Mammographien vor. Dies ist darin begründet, dass es einerseits im Gegensatz zu MRT-Datensätzen vergleichsweise überschaubare Datensätze sind und dass es andererseits hierzu aufgrund des Screening-Einsatzes ein erhebliches kommerzielles Interesse gibt. Mit entsprechender Vorsicht sind die regelhaft von „conflicts of interest“ nicht freien Ergebnisse zu der jeweiligen Performance einzelner Systeme zu interpretieren.


Die Literatur zu diesem Thema und der diagnostischen Genauigkeit von CAD-gestützter Befundung ist gespalten. Die größte Studie bis dato zu diesem Thema stammt von Lehman et al. und kommt zum Schluss, dass  das Befunden mit CAD (Sensitivität von 85.3% und Spezifität von 91.6%) keine bessere diagnostische Genauigkeit aufweist als konventionelles Befunden (höhere Sensitivität von 87.3%, sowie eine minimal geringere Spezifität von 91.4%). Diese 2015 publizierte Studie beruht auf Daten von knapp 500.000 Mammographien, die mit CAD, versus knapp 130.000 Mammographien, die ohne CAD zwischen 2003 und 2009 befundet worden waren (3). Die neueste große Studie zu diesem Thema wurde in Nature Anfang 2020 publiziert und zeichnet ein anderes Bild(9). Hier kommen die Autoren (primär von Google Health und DeepMind, einem Unternehmen das ebenfalls zu Google inc. zählt) zum Schluss, dass der KI-basierte Ansatz dem menschlichen Befunder überlegen ist und sowohl die Anzahl der falsch-positiven, als auch die der falsch-negativen Befunde reduziert. 


Kritisch anzumerken ist, dass die Studie primär die Performance von 6 US-amerikanischen Radiologen („not fellowship trained“) misst und mit dem KI-Ansatz vergleicht. Weiters wurde der Großteil der Daten des menschlichen Befunders aus sowohl US-amerikanischen (2001 – 2018) und englischen Befunden (2012 – 2015) retrospektiv erhoben, sprich aus den bereits erstellten Befunden ausgelesen. Das Argument der Autoren ist, dass diese damit eigentlich dem KI-Ansatz überlegen sein müssten, da sie auch Zugang zu biometrischen Daten des Patienten sowie eventuell vorhandenen Tomosynthesedaten hatten. 500 dieser Befunde wurden von den US-amerikanischen Radiologen neu ausgelesen.


Schon beim Vergleich der britischen und amerikanischen Daten fällt auf, dass die Performance der amerikanischen Befunder deutlich schlechter ausfällt, als die des britischen Systems, wobei das britische Befundungssystem ähnlich wie bei uns auf einer menschlichen Doppelbefundung beruht. Nicht auszuschliessen ist weiters, ob nicht ein Teil der amerikanischen Daten auf einer älteren CAD-assistierten Befundung beruht, was den Studienansatz ad absurdum führen würde. Bei älteren CAD Systemen wurden vordefinierte bekannte diagnostische Merkmale eingesetzt um zum Beispiel Architekturunterschiede/Asymmetrien durch Gegenüberstellen der beidseitigen Mammographien zu detektieren. Diese konnten im Vergleich zu heutigen Algorithmen nicht dazulernen (10) und sind wie mehrheitlich in der Literatur dargelegt der menschlichen Befundung unterlegen.


Erst nach 2012 kam es zu einer intensivierten Anwendung von Deep Learning mit wesentlich mehr zwischengeschalteten verborgenen Schichten der eingesetzten neuronalen Netzwerke (Grafik 2) wobei es hier keinen definierten unteren Grenzwert gibt. Dies wurde damals aufgrund des technischen Fortschritts durch parallelisierte Berechnungen und der Einbindung eigenständiger Grafikprozessoren, mit einer einhergehend deutlich erhöhten Rechenleistung, möglich.  Deep Learning ist dabei per definitionem unter dem Überbegriff von Maschinellem Lernen einzuordnen (siehe Grafik 3). Deep Learning nutzt vor allem Convolutional Neural Networks (CNN) zur Mustererkennung. Dabei können auch Pooling Layers Anwendung finden, die wesentlich zur Vereinfachung des Datensatzes beitragen, indem überflüssige Informationen verworfen werden. R-CNN (Region-based Convolutional Neuronal Networks) bieten zusätzlich eine Annotation der Lokalisation des auffälligen Befundes im Bild an. CNN werden vielerorts nahezu als Synonym für Deep Learning verwendet.

 

 


Grafik 3. Schematische Einordnung von Überbegriffen (11).

Dementsprechend würde es nicht verwundern, wenn ein neuerer KI-Ansatz einem älteren KI-Ansatz gegenüber überlegen wäre, was allerdings simplifiziert dargestellt nicht bedingen würde, dass der neuere KI-Ansatz der menschlichen Doppelbefundung überlegen wäre.

Grafik 2 (11). Schematische Darstellung eines neuronalen Netzwerkes (in dem Fall ein Feed-Forward Neuronales Netzwerk, da sich die Information ausschließlich nach vorne ausbreitet). Das einfachste neuronale Netzwerk (Perzeptron) besteht aus einer Eingangs- und einer Ausgangsschicht. Darüber hinaus sind der Komplexität neuronaler Netzwerke kaum Grenzen gesetzt.

Ein wesentlicher Punkt jedoch, auf den diese Studie hinweist, ist der des Referenzstandardes. Wenn man bei KI-basierten Studien den Nachverfolgungszeitraum (Follow Up) in dem Läsionen als benigne/maligne bewertet werden zu kurz bemisst, führt das aufgrund eines Gatekeeping Effektes zu einem „Test Verification Bias“ zugunsten einer besseren Performance des menschlichen Befunders. Das liegt daran, dass basierend auf dessen Bildbewertung eine etwaige histologische Verifizierung etc. eingeleitet wird oder eben nicht.

Sollte ein Karzinom übersehen worden sein, würde das bei langsamem Wachstum erst nach Erreichen einer unübersehbaren Größe entsprechend detektiert werden und nicht zwingend bereits nach einem Jahr. Auch hier gilt jedoch ähnlich wie bei der Diskussion um niedriggradige DCIS Läsionen inwieweit derartige Karzinome zu dem Zeitpunkt biologisch relevant sind und hier eventuell eine Überdiagnostik gegebenenfalls eher dem Patientenwohl abträglich wäre. Letztlich geht es vorrangig darum biologisch relevante Karzinome ehestmöglich zu erkennen. Mit diesem Hintergrund sollten entsprechende Bilddatenbanken generiert und referenziert werden. Die Algorithmen sollten zum Zwecke der Vergleichbarkeit auf diesen öffentlichen Datenbanken trainiert und validiert werden und zudem mit der Leistung anerkannter Experten auf dem Fachgebiet vergleichen werden. Nur so sind bestmögliche Performance und Patientensicherheit zu gewährleisten.

An dieser Stelle ist die „Digital Mammography DREAM Challenge (DM Challenge)“ aus den Jahren 2016-2017 anzuführen (siehe auch weiterführende Links).  Im Rahmen der DM Challenge (12) sollte ein Algorithmus zur verlässlichen Bewertung von Screening-Mammographien als maligne oder benigne entwickelt werden. Dafür wurde den Teilnehmern ein Datenset mit 640000 Bildern von über 86000 Patientinnen ohne Pixelannotation aber mit Bewertung (maligne/benigne; Diagnose erfolgte binnen 12 Monaten nach der Untersuchung) zur Verfügung gestellt. Dabei wurde jede Brust separat bewertet. Ziel war die Identifikation biologisch aggressiver, invasiver und somit einer ungünstigeren Sterblichkeitsprognose assoziierter Brusttumoren. Die Daten wurden den Teilnehmern auf einer cloudbasierten Plattform zugänglich gemacht. Dieses Projekt war insofern beispielhaft, da erstmals verschiedene Lösungsansätze aufgrund des identen Trainings- und Bewertungsdatensatzes verglichen werden konnten. Lobenswerterweise hat die zweitplatzierte Gruppe um Dr. Ribli bereits ihren Algorithmus öffentlich zugänglich gemacht (13).

Zusammenfassend festzustellen ist, dass man für Deep Learning riesige, adäquat referenzierte und kalibrierte öffentlich zugängliche Datensätze benötigt, um die nötige Qualität zu gewährleisten (14). Unerlässlich dafür sind enge internationale und interdisziplinäre Kollaboration, einheitliche Befundschemata und Definitionen sowie fächerübergreifender Konsens. Hier könnte die komplementäre Mammadiagnostik eine der Vorreiterrollen in der KI der Bildgebung einnehmen, da man aufgrund der engen Patienteninteraktion Zugang zu Anamnese und verschiedenen Untersuchungsmodalitäten hat, sowie histologische Verifikation und sowie Follow-Up Untersuchungen zur Verfügung stehen.

Problematisch sind derzeit nicht nur ungenügende Datenbanken sondern auch teilweise die großen Datenmengen - um auch die Detektion von Verkalkungen und subtilen Befunden zu ermöglichen benötigt die Mammographie eine weitaus größere Menge an Bildinformationen (ca. 3000 x 3000 Pixel) als natürliches, nicht radiologisches Bildmaterial (ca. 300 x 300 Pixel) (15). Allerdings ist diese Limitation nur eine sehr bedingte und eine, die mit der Weiterentwicklung von Grafikkarten und technischem Fortschritt, nur eine Limitation auf Zeit ist.

Dieses Zeitfenster sollten wir nutzen um die KI in der Mamma-Diagnostik mit radiologischer Expertise so zu gestalten, dass die Entwicklung nicht primär wirtschaftlichen Interessen unterliegt, sondern unsere radiologischen Möglichkeiten im Sinne des Patientwohls erweitert. Dazu abschließend passt ein Bild, das überdimensioniert auf eine riesige Leinwand beim ESMRMB-ISMRM in Paris 2018 projiziert, das Bild des Radiologen der Zukunft zwar nicht genderneutral aber doch in vielerlei Hinsicht recht zutreffend skizziert: Man sieht einen Drachen auf dem ein Mann reitet. Der Mann, verschwindend klein auf dem mächtigen Körper des Drachens, ist als heroischer Kämpfer gekleidet und bezähmt dieses gewaltige Fabelwesen um es schier mühelos durch die Luft lenken zu können.

 

 

  1. Langs G, Röhrich S, Hofmanninger J, et al. Machine learning: from radiomics to discovery and routine. Radiologe. 2018;58(S1):1–6.
  2. U.S. Food and Drug Administration. Summary of safety and effectiveness data: R2 technologies (P970058). 1998.
  3. Lehman CD, Wellman RD, Buist DSM, Kerlikowske K, Tosteson ANA, Miglioretti DL. Diagnostic Accuracy of Digital Screening Mammography With and Without Computer-Aided Detection. JAMA Intern Med. 2015;175(11):1828.
  4. MedPlus07. R2 Image Checker. https://www.ebay.com/itm/R2-Technology-Image-Checker-System-Motorize-Viewer-with-Processor-/172503860695. Accessed April 27, 2020.
  5. Andrzejewski P, Wengert G, Helbich TH, et al. Sequential [ 18 F]FDG-[ 18 F]FMISO PET and Multiparametric MRI at 3T for Insights into Breast Cancer Heterogeneity and Correlation with Patient Outcomes: First Clinical Experience. Contrast Media & Molecular Imaging. 2019;2019:1–9.
  6. Stadlbauer A, Zimmermann M, Bennani-Baiti B, et al. Development of a Non-invasive Assessment of Hypoxia and Neovascularization with Magnetic Resonance Imaging in Benign and Malignant Breast Tumors: Initial Results. Mol Imaging Biol. 2018;
  7. Kapetas P, Clauser P, Woitek R, et al. Quantitative Multiparametric Breast Ultrasound: Application of Contrast-Enhanced Ultrasound and Elastography Leads to an Improved Differentiation of Benign and Malignant Lesions. Investigative Radiology. 2019;54(5):257–264.
  8. Banks E, Reeves G, Beral V, et al. Influence of personal characteristics of individual women on sensitivity and specificity of mammography in the Million Women Study: cohort study. BMJ. 2004;329(7464):477.
  9. McKinney SM, Sieniek M, Godbole V, et al. International evaluation of an AI system for breast cancer screening. Nature. 2020;577(7788):89–94.
  10. Mohammed M, Khan MB, Bashier EBM. Machine learning: algorithms and applications. Boca Raton: CRC Press, Taylor & Francis Group; 2017.
  11. Bennani-Baiti B, Baltzer P a. T. [Artificial intelligence in the diagnosis of breast cancer : Yesterday, today and tomorrow]. Radiologe. 2020;60(1):56–63.
  12. Trister AD, Buist DSM, Lee CI. Will Machine Learning Tip the Balance in Breast Cancer Screening? JAMA Oncol. 2017;3(11):1463.
  13. Ribli D, Horváth A, Unger Z, Pollner P, Csabai I. Detecting and classifying lesions in mammograms with Deep Learning. Sci Rep. 2018;8(1):4165.
  14. Schütze B, Schlieter H. Künstliche Intelligenz: Ein nützliches Werkzeug für den Radiologen? Radiologe. 2019;http://link.springer.com/10.1007/s00117-019-00599-9. Accessed October 11, 2019.
  15. Le EPV, Wang Y, Huang Y, Hickman S, Gilbert FJ. Artificial intelligence in breast imaging. Clin Radiol. 2019;74(5):357–366.