Семантический слой
Почему мы вообще используем ИИ? Сила языковых моделей в понимании контекста и лексической омонимии.
Если классические словарные базы (вроде Pymorphy) так хороши в определении форм слов, почему мы не используем только их? Зачем усложнять систему вызовом тяжелых и дорогих LLM?
Ответ заключается в одной из главных проблем русского языка — омонимии и синтаксической многозначности.
Слепота классических парсеров
Обычный программный скрипт анализирует текст пословно. Он берет слово, заглядывает в базу данных и выдает результат. Давайте посмотрим на классический пример:
Для классического словаря слово «стекло» — это всегда загадка. Pymorphy честно вернет нам массив вероятностей: с вероятностью 70% это существительное среднего рода, а с вероятностью 30% — глагол прошедшего времени. Программа не знает, о каком именно предложении идет речь.
Суперспособность LLM (Контекст)
Здесь на сцену выходит искусственный интеллект. LLM обладает механизмом Attention (внимания). Модель не смотрит на слово «стекло» изолированно. Она анализирует весь вектор предложения целиком.
ИИ понимает, что в первом предложении рядом есть субъект «молоко» и обстоятельство направления «на пол», значит «стекло» выполняет роль действия (сказуемое, глагол). Во втором предложении есть активный субъект «Я» и действие «разбил», направленное на объект, следовательно «стекло» — это дополнение (существительное).
Роль ИИ в конвейере Razbor.org
Мы используем нейросеть исключительно как мастера контекста. Ее задача: разметить структуру предложения, разбить его на предикативные части (clauses), определить синтаксическую роль каждого слова (подлежащее, сказуемое, дополнение) и сделать первичную ставку на часть речи. Точную академическую выверку (какой это падеж или склонение) ИИ не делает — это задача следующего слоя.