Являясь второй по значимости причиной смерти в Соединенных Штатах, рак - это кризис общественного здравоохранения, от которого страдает почти каждый второй человек в течение жизни. Рак является тяжелым заболеванием. Сотни типов рака, поражающих более 70 органов, были зарегистрированы в национальных реестрах рака - в базах данных с информацией об отдельных случаях заболевания раком, которые предоставляют важную статистику врачам, исследователям и политикам.
«Эпиднадзор за раком на уровне населения имеет решающее значение для мониторинга эффективности инициатив общественного здравоохранения, направленных на профилактику, выявление и лечение рака», - сказала Джина Турасси, директор Института наук о данных в области здравоохранения и Национального центра вычислительных наук Министерства энергетики США, Ок Ридж Национальная лаборатория. «В сотрудничестве с Национальным институтом рака моя команда разрабатывает передовые решения в области искусственного интеллекта для модернизации национальной программы эпиднадзора за раком за счет автоматизации трудоемких операций по сбору данных и предоставления отчетов о раке практически в режиме реального времени».
С помощью цифровых реестров рака ученые могут определять тенденции в диагностике рака и ответных реакциях на лечение, что, в свою очередь, может помочь направлять исследовательские средства и государственные ресурсы. Однако, как и болезнь, которую они отслеживают, раковые патологические отчеты являются сложными. Различия в нотации и языке должны интерпретироваться регистраторами рака человека, обученными анализировать отчеты.
Чтобы лучше использовать данные о раке для исследований, ученые разрабатывают инструмент обработки естественного языка на основе искусственного интеллекта, чтобы улучшить извлечение информации из текстовых отчетов о патологии. Этот проект является частью сотрудничества DOE и Национального института рака, известного как совместная разработка передовых вычислительных решений для рака (JDACS4C), которое ускоряет исследования путем объединения данных о раке с передовым анализом данных и высокопроизводительными вычислениями.
Будучи крупнейшей лабораторией Министерства науки и науки США, ORNL располагает уникальными вычислительными ресурсами для решения этой задачи, включая самый мощный в мире суперкомпьютер для искусственного интеллекта и защищенную среду данных для обработки защищенной информации, такой как данные о состоянии здоровья. В рамках своей программы эпиднадзора, эпидемиологии и конечных результатов (SEER) NCI получает данные из реестров раковых заболеваний, таких как реестр опухолей Луизианы, который включает информацию о диагностике и патологии для отдельных случаев раковых опухолей.
«Ручное извлечение информации является дорогостоящим, отнимает много времени и подвержено ошибкам, поэтому мы разрабатываем инструмент на основе ИИ», - сказал Мохаммед Алавад, научный сотрудник Управления компьютерных и вычислительных наук ORNL.
В первых отчетах о раковой патологии команда разработала многозадачную сверточную нейронную сеть, или CNN - модель глубокого обучения, которая учится выполнять задачи, такие как определение ключевых слов в тексте, обрабатывая язык как двумерный числовой набор данных.
«Мы используем общую технику, называемую встраивание слов, которая представляет каждое слово в виде последовательности числовых значений», - сказал Алавад.
Слова, которые имеют семантические отношения - или которые вместе передают значение - близки друг к другу в пространственном пространстве как векторы (значения, которые имеют величину и направление). Эти текстовые данные вводятся в нейронную сеть и фильтруются через сетевые уровни в соответствии с параметрами, которые находят соединения в данных. Эти параметры затем становятся все более точными по мере того, как обрабатывается все больше и больше данных.
Хотя некоторые модели CNN для одной задачи уже используются для прохождения через отчеты о патологии, каждая модель может извлечь только одну характеристику из диапазона информации в отчетах. Например, CNN с одним заданием может быть обучен извлекать только первичный участок рака, выводя орган, в котором был обнаружен рак, такой как легкие, предстательная железа, мочевой пузырь или другие. Но получение информации о гистологической степени или росте раковых клеток потребовало бы обучения отдельной модели глубокого обучения.
Исследовательская группа повысила эффективность, разработав сеть, которая может выполнять несколько задач примерно за то же время, что и CNN с одной задачей. Нейронная сеть команды одновременно извлекает информацию по пяти характеристикам: первичный сайт (орган тела), латеральность (правый или левый орган, если применимо), поведение, гистологический тип (тип клеток) и гистологический уровень (как быстро растут раковые клетки или распространяются).
Многозадачная команда CNN выполнила и превзошла однозадачную CNN для всех пяти задач за одно и то же время, сделав ее в пять раз быстрее. Однако Алавад сказал: «Это не так много, как в пять раз быстрее. Дело в том, что это в n раз быстрее. Если бы у нас было n разных задач, то это заняло бы одну девятую часть времени на задачу».
Ключом к успеху команды была разработка архитектуры CNN, которая позволяет слоям обмениваться информацией между задачами, не снижая эффективность и не снижая производительность.
«Это эффективность в вычислениях и эффективность в производительности», сказал Алавад. «Если мы используем модели с одной задачей, то нам нужно разработать отдельную модель для каждой задачи. Однако при многозадачном обучении нам нужно разработать только одну модель - но разработка этой одной модели, вычисляющей архитектуру, потребовала вычислительных затрат времени. Нам нужен суперкомпьютер для разработки моделей».
Чтобы создать эффективную многозадачную сеть CNN, они обратились к самому мощному и самому интеллектуальному суперкомпьютеру в мире - суперкомпьютеру на 200 петафлопов Summit в ORNL, который имеет более 27 600 графических процессоров, оптимизированных для глубокого обучения.
Команда начала с разработки двух типов многозадачных архитектур CNN - общего метода машинного обучения, известного как совместное использование параметров, и метода, который показал некоторый успех в классификации изображений, известный как вышивка крестом. Жесткий общий доступ к параметрам использует одни и те же параметры во всех задачах, в то время как для вышивки крестом используется больше параметров, фрагментированных между задачами, что приводит к выходным данным, которые должны быть «сшиты» вместе.
Для обучения и тестирования многозадачных CNN с реальными данными о состоянии здоровья команда использовала безопасную среду данных ORNL и более 95 000 сообщений о патологии из реестра опухолей Луизианы. Они сравнили свои CNN с тремя другими установленными моделями искусственного интеллекта, включая CNN с одним заданием.
«Помимо предоставления высокопроизводительных вычислений и научных вычислительных ресурсов, в ORNL есть место для обучения и хранения защищенных данных - все это вместе очень важно», - сказал Алавад.
Во время тестирования они обнаружили, что многозадачная модель с жестким разделением параметров превзошла четыре другие модели (включая многозадачную модель с вышивкой крестом) и увеличила эффективность за счет сокращения времени вычислений и энергопотребления. По сравнению с однозадачными моделями CNN и традиционными моделями искусственного интеллекта многозадачный CNN с параметром жесткого разделения выполнил задачу за короткое время и наиболее точно классифицировал каждую из пяти характеристик рака.
Источник: https://www.sciencedaily.com/releases/2020/02/200212150148.htm