Оцифровка изображений
Техническое зрение. Процесс извлечения текста с сохранением орфографии и пунктуации перед его передачей в основной алгоритм.
При реализации функции «Разбор по фото» было решено отказаться от устаревших OCR-библиотек вроде Tesseract. Они хорошо справляются с чистыми сканами, но не всегда эффективны при наличии теней, бликов и рукописного текста в тетрадях.
Использование нейросетей в качестве OCR
В основе распознавания лежат современные мультимодальные модели. Модель анализирует фотографию аналогично человеку: она понимает контекст написанного, что позволяет безошибочно расшифровывать даже сложный почерк.
Процесс обработки фото (Pipeline)
-
1
Сжатие на клиенте (JavaScript)
Фотография с телефона может весить 5-10 МБ. Прежде чем отправить изображение на сервер, скрипт через Canvas API ужимает его до ширины 1200px и конвертирует в Base64. Это экономит трафик и повышает скорость обработки.
-
2
Запрос к Vision API
Сервер формирует жесткий промпт: "Извлеки текст с фото. Сохрани оригинальную орфографию и пунктуацию. Выведи только текст." Изображение передается модели вместе с промптом.
-
3
Бесшовный переход к разбору
Полученный от модели чистый текст моментально отправляется в классический инструмент
syntax-analyzer. Для пользователя это выглядит как единый процесс: загрузил фото → получил готовые подчеркивания и схему.
Почему важна оригинальная орфография?
Если в слове допущена ошибка, нейросеть может попытаться автоматически ее исправить при распознавании. Подобные действия строго запрещены на уровне системного промпта. Задача состоит в том, чтобы разобрать именно исходное предложение с фотографии, включая все знаки препинания и возможные опечатки. В противном случае разбор не совпадет с исходным текстом.