
Алексей Сизов
Вице-президент по развитию Ассоциации КорпФинтех
Источник: Advancing Invoice Document Processing at Uber using GenAI
Проблема
Uber ежедневно обрабатывает огромный объем счетов-фактур от глобальных поставщиков. Традиционные методы обработки (ручной ввод, RPA, rule-based системы) были медленными, дорогими и неточными из-за огромного разнообразия форматов, языков (более 25) и сложности документов (включая рукописные тексты и сканы).
Решение
Для преодоления ограничений существующих систем было принято решение внедрить систему автоматизации на основе GenAI. После оценки нескольких моделей (включая fine-tuned Llama 2 и T5) выбор пал на OpenAI GPT-4 из-за его высокой точности, особенно в извлечении данных из строковых items, и способности работать со сложными неструктурированными данными.
Подход
Была разработана платформа TextSense — модульная, масштабируемая система для обработки документов. Ее архитектура включает:
- Препроцессинг и OCR для извлечения текста.
- Использование LLM (GPT-4) для извлечения ключевых атрибутов.
- Постобработку и применение бизнес-правил.
- Интерфейс для Human-in-the-Loop (HITL) проверки с side-by-side сравнением PDF и извлеченных данных.
Результат
Внедрение системы привело к значительным улучшениям:
- Точность: Общая точность извлечения данных достигла 90%.
- Эффективность: Время обработки счета сократилось на 70%, а объем ручного труда уменьшился в 2 раза.
- Экономика: Достигнута экономия затрат в 25-30% по сравнению с ручным процессом.
Если тема заинтересовала, обязательно читайте статью источник. Материал очень детальный. С большим количеством деталей, схем и пояснений.







