Аннотация
Распознавание лабораторных показателей в PDF — частая задача в медтех-сервисах и системах медучреждений и лабораторий: результаты приходят как файлы, но для аналитики и процессов их нужно превратить в структурированные данные. Лабораторные исследования часто доступны только в виде PDF. Чтобы извлечь из них данные, нужно распознать показатели, привести значения к единому формату, нормализовать единицы измерения и корректно разобрать значения в тексте в разном формате, например «< 5,00», «≥ 130», «0.5–1.2» или «отрицательный».
Мы разработали систему, которая это делает автоматически: извлекает результаты из PDF, нормализует значения и единицы, сопоставляет каждый показатель со справочником и формирует структурированный результат. Сложные случаи система отправляет на проверку эксперту.
Подход, который мы реализовали в кейсе, относится к классу Intelligent Document Processing (IDP) — см. обзор этих решений у Gartner.
Краткое описание
Задача
Автоматически извлекать из PDF-документов из различных лабораторий структурированные данные «показатель — значение — единица измерения — референсы» и связывать показатели с каноническими терминами из справочника. При этом важно поддерживать и корректно обрабатывать различные шаблоны, единицы измерения и форматы значений и не терять качество в массовом потоке документов. Спорные случаи должны уходить на проверку и подтверждение эксперту.
Решение
Промышленный конвейер извлечения и анализа данных из документов с разной структурой с нормализацией и сопоставлением распознанных значений со справочником, дополненный встроенным контролем качества: система отделяет те данные, что можно принять автоматически, от тех, которые требуют верификации экспертом, и фиксирует решения эксперта для последующего уточнения справочника и дообучения системы.
Результаты
Корректное извлечение и сопоставление более 96% показателей из документов разных лабораторий; обработка одного документа — за секунды; поддержка сложных форматов значений и более 100 вариантов названий; маршрутизация и проверка экспертом.
В результате мы внедрили систему полного цикла: документы загружаются в общую очередь, проходят через автоматическое извлечение и нормализацию данных, результаты проверяет и подтверждает эксперт, а методологи в специально разработанных пользовательских интерфейсах задают терминологию, синонимы и правила — без обращения к ИТ за каждой правкой или доработкой.
О клиенте
Медтех-сервис, где лабораторные результаты регулярно поступают в виде PDF и должны превращаться в структурированные данные для анализа, контроля качества, отчётности и поддержки процессов. Сервис не заменяет консультацию врача и не ставит диагнозы.
Как выглядел процесс до автоматизации
Открыть PDF и вручную перенести показатели.
Очистить формат и привести числа к единому виду.
Нормализовать единицы измерения и разобрать операторы/диапазоны/качественные результаты.
Сопоставить название показателя с канонической записью справочника (синонимы/аббревиатуры/латиница/варианты написания).
Пока это не сделано, анализ остаётся файлом, а не данными — и его нельзя надёжно использовать в автоматизированных процессах.
Почему это сложнее, чем кажется
1) Разные лаборатории — разные документы
Стандарта «как выглядит бланк» нет. Где-то это таблица, где-то список, где-то смешанный формат. Встречаются объединённые ячейки, многострочные заголовки, переносы колонок, вертикальная ориентация, «невидимая» разметка. Даже у одной и той же лаборатории формат меняется со временем и зависит от вида исследования.
Нельзя один раз настроить парсер «под шаблон» — нужна устойчивость к вариативности форматов.

Рис. 1. Примеры исходных бланков: разные лаборатории — разная верстка, обозначения и формат результатов.
2) Один показатель может называться десятками способов
«СРБ», «CRP», «С-реактивный белок», «hsCRP», варианты с латиницей, сокращениями, опечатками. Иногда одно и то же сокращение в разных контекстах означает разные показатели (омонимия). Для человека это очевидно, для системы — нет.
Без качественных справочников и механизма сопоставления данные останутся несопоставимыми между источниками
3) Единицы и форматы значений — есть много вариаций
Единицы измерения могут записывать по-разному: «мг/л», «mg/L», «мг\л», «мг на литр». Значения тоже не всегда «просто число»:
- операторы («< 5,00», «≥ 130»),
- диапазоны («0.5–1.2»),
- качественные результаты («отрицательный», «слабо положительный»),
- разные десятичные разделители, пробелы
- референсные интервалы могут быть в свободной форме, завязаны на пол/возраст или отсутствовать вовсе.
Извлечение без нормализации даёт «похожие, но разные» данные, которые невозможно надёжно сравнивать и агрегировать.
4) Многостраничные PDF разрывают связи «что к чему относится»
Показатель может закончиться внизу одной страницы, а его значение — продолжиться в начале следующей. Заголовки таблиц теряются при переносе, не всегда очевидно, к чему именно относятся примечания и сноски. Простая обработка текста здесь не помогает — нужно восстанавливать структуру и контекст.
5) Ошибка на раннем шаге превращается в системную ошибку
Если система неверно связала показатель с единицей измерения или неправильно прочла значение, последующие шаги (нормализация, сопоставление со справочником) могут сделать ошибку ещё более убедительной: она будет выглядеть «структурированно», но при этом останется неправильной.
Без встроенных проверок и управляемого контроля качества такие данные становятся источником неверных выводов — и это критично.
6) Справочники постоянно дополняются и обновляются, это не «табличка один раз»
НСИ постоянно меняется: появляются новые показатели, добавляются синонимы, уточняются единицы, правила и допустимые варианты записи. Если справочник не поддерживается, качество распознавания деградирует в массовом потоке документов.
Под НСИ (нормативно-справочной информацией) мы понимаем справочник терминов лабораторных показателей. Он задаёт «канон» (единый идентификатор и название), содержит синонимы и варианты написания, а также правила по единицам измерения.
Нужно не просто распознавать, а иметь удобный способ обновлять НСИ и быстро применять изменения в системе.
7) Каждая новая лаборатория — новые правила
Даже после настройки на десятки источников PDF из новой лаборатории может “сломать” привычную работу: нестандартные колонки, новый тип бланка, необычные обозначения. Если адаптация занимает недели, масштабирование превращается в серию мини-проектов.
Система должна быть рассчитана на подключение новых источников как на регулярную операцию, а не как на исключение.
9) Сотрудник остаётся в контуре обработки документов — вопрос в том, сколько его времени это требует
Спорные случаи неизбежны, особенно в начале работы системы. Важно минимизировать ручной труд и сделать проверку процедурой: чтобы эксперт подтверждал и уточнял только то, что действительно требует внимания, а не переписывал цифры из PDF.
Без продуманного и удобного пользовательского интерфейса любая автоматизация упирается в узкое горлышко проверки.
Границы проекта
- Цель проекта — извлекать из лабораторных PDF структурированные показатели и приводить их к единому виду для дальнейшего использования в аналитике и процессах. Система не выполняет клиническую интерпретацию результатов, не ставит диагнозы и не даёт медицинских рекомендаций.
- Тип входных документов — только PDF (не сканы): лаборатории присылают исследования в электронном виде, поэтому обработку сканов в проект не включили.
- Поддерживаемая структура PDF — документы с разной организацией данных: таблицы, свободный текст и смешанные представления (табличные блоки + текстовые фрагменты).
- Критерии качества — корректность связки «показатель—значение—единица (+референсы)» и корректность сопоставления показателя с канонической сущностью в справочнике.
Распознавание лабораторных показателей в PDF: как устроено решение
Решением стала система обработки лабораторных PDF на базе Epsilon Workspace. Задача была не «подключить распознавание», а:
автоматизировать извлечение лабораторных показателей и приведение результата к единому формату (значения, единицы, референсы, операторы и диапазоны);
обеспечить сопоставление показателей с каноническими сущностями НСИ, чтобы данные были сопоставимыми между лабораториями и документами;
встроить управляемый контроль качества: автоматически обрабатывать массовый поток и направлять спорные случаи эксперту — с фиксацией решений и возможностью улучшать систему без переписывания конвейера.
Система реализована командой «Эпсилон Метрикс» на платформе Epsilon Workspace.
На стороне платформы были настроены рабочие процессы, конвейер обработки и контур управления справочниками. Для команды Заказчика разработаны отдельные пользовательские интерфейсы — для эксперта и методологов. В этих интерфейсах:
ведётся очередь документов и статусы обработки;
выполняется проверка и подтверждение результатов извлечения данных;
управляются записи справочников: канонические термины, синонимы, допустимые единицы и правила обязательности;
настраиваются пороги уверенности и правила маршрутизации эксперту;
фиксируются решения и аудит действий для воспроизводимости и контроля качества.
Все изменения в терминологии и правилах выполняются через пользовательские интерфейсы — без участия разработчиков. Базовая конфигурация была создана на этапе запуска, а дальше справочники и правила уточняются по мере появления новых вариантов написания, новых показателей и подключения новых источников документов.
Кратко конвейер распознавания можно описать так:
Видит (уровень 1: парсинг и правила).
Понимает (уровень 2: сопоставление с НСИ).
Думает (уровень 3: арбитр решений).
Учится и контролируется (уровень 4: HITL и пороги).
Уровень 1. Структурный анализ и правила извлечения
Документ проходит структурный разбор таблиц: выделяются строки/столбцы, корректно обрабатываются объединённые ячейки; из каждой строки извлекаются название показателя, значение, единица и референсы.
Там, где данные оформлены не таблицей, применяется извлечение из свободного текста на базе морфологии и грамматических правил. Далее выполняется нормализация и парсинг сложных значений: «< 5,00», «≥ 130», «0.5–1.2», а также качественных результатов.
Уровень 2. Сопоставление с НСИ
Задача уровня — свести разные написания одного и того же показателя к одной канонической записи справочника с конкретным кодом. Это позволяет устойчиво обрабатывать синонимы, сокращения, латиницу и вариации написания.
Уровень 3. Арбитр решений
Арбитр завершает “сборку” результата и отвечает за качество итоговой записи.
Арбитр для каждой извлечённой сущности сопоставляет то, что удалось извлечь из документа (название, значение, единицы, референсы), с тем, что вернул справочник (каноническая сущность), и собирает из этого одну согласованную запись. Если есть расхождения, арбитр выбирает наиболее надёжный вариант по проверкам согласованности; всё спорное помечает и отправляет эксперту.
На практике арбитр:
снимает дубликаты (один показатель, найденный разными способами);
проверяет согласованность (показатель↔единица, формат значения, конфликты референсов);
отбрасывает заведомо невалидные комбинации и маршрутизирует пограничные случаи в HITL.
Пороги уверенности системы
У разных методов извлечения и сопоставления — свои пороги уверенности, подобранные экспериментально на реальных медицинских документах:
точное совпадение — 0,95;
факторизованная фраза — 0,92;
морфологическая фраза — 0,90;
однословное сопоставление — 0,80;
регулярные выражения — 0,70.
Пороги помогают управляемо решать, какие результаты можно автоподтверждать, а какие отправлять в экспертную проверку. Для некоторых сущностей допустим более низкий порог уверенности — это снижает риск пропуска (recall), но такие результаты чаще попадают в режим «требует проверки».
Уровень 4. HITL: карточка документа и инспектор сущностей
Автоматически извлечённые данные проходят через интерфейс верификации: эксперт видит исходный PDF рядом с результатами и может подтвердить, скорректировать или отклонить каждый результат.
Используется статусная модель «автоподтверждено → требует проверки → верифицировано», которая отделяет массовый поток от пограничных случаев и удерживает качество на каждом этапе. Действия эксперта фиксируются в журнале (кто и когда подтвердил/изменил).
Пользовательский интерфейс: как это выглядит в работе
1) Очередь документов: маршрутизация входящих PDF, статусы, этапы и контроль «что уже готово, а что требует проверки»
Все поступившие лабораторные PDF отображаются в едином списке: для каждого файла видны источник (загружен автоматически или вручную), статус обработки, объём (страницы) и результат извлечения (количество сущностей), а также дата загрузки. Из очереди можно быстро открыть карточку документа для проверки. Для работы с потоком документов предусмотрены поиск по списку и постраничная навигация.

Рис. 1. Очередь документов: единый список входящих PDF из двух каналов (загрузка вручную или API) со статусами обработки, ключевыми метриками (страницы, число выявленных сущностей), датой загрузки и быстрым переходом в карточку документа.
2) Карточка документа: совместная работа ИИ и эксперта
В карточке документа эксперт видит PDF и результаты извлечения рядом — так, чтобы каждый показатель можно было быстро проверить по первоисточнику. Для каждой сущности показываются значение, единицы измерения, референсные диапазоны, оценка уверенности и статус.
Автоподтверждение получают только результаты, которые проходят пороги уверенности и проверки согласованности (например, корректную пару «показатель–единица» и допустимый формат значения). Всё, что не укладывается в эти рамки, помечается как «требует проверки»: неоднозначные названия показателей, нестандартные записи (диапазоны, операторы «<», качественные результаты), конфликты единиц или референсов.
Эксперт может массово подтвердить высокоуверенные сущности и точечно обработать пограничные случаи — подтвердить, исправить или отклонить результат. При необходимости доступен PDF с разметкой: все извлечённые сущности привязаны к фрагментам исходного документа.
Рис. 2. Карточка документа: PDF и результаты извлечения рядом; по каждой сущности показываются значение, единицы и референсы, оценка уверенности и статус. Результаты с высоким порогом уверенности можно подтвердить массово, а другие — проверить точечно.
Карточка работает одинаково и для документов загруженных автоматически, и вручную: система принимает документы, извлекает сущности и выводит их в карточку для проверки и подтверждения. Привязка к страницам и выделение сущностей в PDF ускоряет сверку: эксперт видит, на какой странице и где именно находится каждый показатель в исходном PDF файле.
4) Инспектор сущности: точечная проверка результатов с низким порогом уверенности
Часть извлечённых показателей система не подтверждает автоматически. Это случаи, где уверенность ниже порога или есть несогласованность: неоднозначное название, спорные единицы измерения, нестандартный формат значения, или расхождения референсами.
Для таких ситуаций используется специальный пользовательский интерфейс Инспектор сущности. Эксперт открывает карточку и видит всё рядом, в одном месте:
- исходный PDF (первоисточник) с подсветкой фрагмента, из которого извлечена сущность;
- эталон из справочника (НСИ): название и синонимы;
- то, что извлекла система: термин, значение, оператор, единица измерения, референс.
Дальше эксперт делает одну из двух вещей:
- подтверждает, если всё корректно;
- исправляет точечно, если есть ошибка: выбирает правильный термин, правит значение, оператор (“=”, “<”, “>”), единицу измерения и границы референса — и сохраняет решение.
Этот режим нужен, чтобы система не «теряла» редкие и нестандартные случаи. Мы специально допускаем более низкий порог уверенности для части сущностей: система поднимает кандидатов, а финальное решение принимает эксперт, сверяясь с подсвеченным фрагментом первоисточника. В итоге ручная работа сводится к короткой проверке спорных мест, а не к переписыванию данных из PDF.
Этот пользовательский интерфейс поддерживает технологию Human-in-the-Loop (HITL): эксперт подтверждает и исправляет «спорные» сущности, а система фиксирует решение и дальше использует его в обработке следующих документов.

Рис. 3. Инспектор сущности: сверка результатов автоматического извлечения с эталоном НСИ и точечная правка при необходимости (термин, значение, оператор, единицы, референс) с сохранением решения экспертом.
Справочники (НСИ): фундамент качества
В основе системы — управляемые справочники: они задают канонические термины, набор синонимов и правила нормализации единиц. Это делает качество извлечения воспроизводимым: система опирается на конкретные записи НСИ и настроенные правила.
5) Справочник НСИ: управление терминологией и переиндексация
Справочник представлен в виде списка терминов. Для каждой записи видны тип сущности, единицы по умолчанию и допустимые единицы, количество синонимов и дата обновления. Справочник можно пополнять вручную, загружать пакетно через CSV и переиндексировать, чтобы изменения сразу учитывались в сопоставлении.

Рис. 4. Справочник НСИ: список канонических терминов с типами сущностей, единицами и числом синонимов; доступны добавление термина, импорт CSV и переиндексация после обновлений.
6) Карточка термина НСИ: канон, синонимы, единицы и правила обязательности
Карточка термина задаёт “эталон”: каноническое название, синонимы, тип сущности, единицы (включая псевдонимы), версию и требования к наличию значения/референса. Пополнение синонимов и уточнение единиц напрямую снижает долю ручной проверки на следующих документах.
Рис. 5. Карточка термина НСИ: редактирование канонической записи — синонимы, тип сущности, единицы (по умолчанию и псевдонимы), версия и флаги обязательности значения/референсов.
Как изменилась работа специалистов
Для эксперта / аналитика данных
Вместо ручного переноса данных из PDF теперь достаточно работать в карточке документа с готовым черновиком извлечения. Внимание переключается на сложные случаи, а массовая рутина закрывается пакетным подтверждением.
Для владельцев справочников / методологов
Синонимы и нормализации превратились в управляемый актив. Их можно централизованно редактировать и дополнять (в том числе импортом CSV), улучшая качество распознавания без изменения кода.
Результаты
F1-score 0,968: корректно извлекаем и сопоставляем более 96% показателей на документах разных лабораторий.
Скорость: обработка одного анализа — секунды.
Нормализация: 100+ вариантов написания единиц; поддержка «< / ≥ / диапазоны / качественные значения».
Контроль качества: пороги уверенности на разных методах + экспертная верификация (подтвердить/исправить/отклонить) и аудит действий.
Есть идея для автоматизации? Запишитесь к нам на демонстрацию, и мы покажем, как за несколько дней настроить ИИ-инструмент, полезный именно для вашей компании.
