Реализация различных сценариев data retrieval из документов с применением генеративных моделей (RAG-архитектура, выбор и до-обучение моделей), разработка OCR-инструмента для сложных таблиц на технологиях типа TATR. Проект про применение генеративных моделей в корпоративных финансах.
Нужно будет заниматься следующими задачами
- Создавать различные proof of concept по бизнес-сценариям клиентов с выбором LLM моделей и интерфейсами на streamlit/gradio
Реализация различных сценариев data retrieval из документов с применением генеративных моделей (RAG-архитектура, выбор и до-обучение моделей), разработка OCR-инструмента для сложных таблиц на технологиях типа TATR. Проект про применение генеративных моделей в корпоративных финансах.
Нужно будет заниматься следующими задачами
- Создавать различные proof of concept по бизнес-сценариям клиентов с выбором LLM моделей и интерфейсами на streamlit/gradio
- Разбираться с технологиями CV в применении к OCR, включая fine tuning моделей. Нужно добиться возможности распознавания сканов нескольких типов таблиц в структурированный текстовый вид
-Формулировать задачи по разметке данных для исполнителей (определять необходимые форматы и инструменты) Проверять и использовать размеченные данные.
- Участвовать в разработке решений для продакшена, отвечать за интеграцию ML-модулей в общую систему.
Требуется от кандидата
- Знание Python и фреймворков для машинного обучения
- Желательно знакомство с llamaindex и langchain
- Опыт работы в командах более одного года