Яндекс усиливает борьбу с рерайтом

logo-big-txtНовость уже не новая, но все же важная, для всех, кто занимается рерайтом. Похоже Яндекс усиливает борьбу с рерайтом. Как стало известно, Яндекс купил у ранее широко неизвестной компании Cognitive Technologies программный продукт для синтаксического анализа текста.

На сайте Cognitive Technologies говорится следующее:

Компания Cognitive Technologies объявляет о продаже (предоставление права использования за вознаграждение) компании «Яндекс» Программного Комплекса, включающего в себя возможности синтаксического анализа текста.

Пишут о том, что софт позволяет определять тематику текста на основе смысловой нагрузки не отдельных слов, а их синтаксической связи в предложениях. Это нужно, например, для определения значения омонимов – разных по значению, но одинаковых по написанию и звучанию слов (пример – в скалах забил ключ и ключ от дома).

Вот что написано на сайте Cognitive Technologies о синтаксическом анализаторе:

Синтаксический анализатор позволяет определить, какими синтаксическими отношениями связаны слова предложения. Это может звучать неожиданно, но для понимания текста эта информация гораздо важнее, чем значение отдельных слов. Потеря знаков препинания в классической фразе «казнить нельзя помиловать» приводит именно к потере однозначности синтаксических связей.

Использование синтаксического анализатора для больших корпусов текста позволяет определять и изучать статистические закономерности языка (встречаемость слов и конструкций). Такого рода закономерности могут быть использованы, в частности, при разрешении неоднозначностей (например «ключ упал на пол» и «в камнях забил ключ»), возникающих во время синтаксического разбора, а также при построении статистических моделей языка для распознавания слитной речи. Стоит отметить, что возможность разрешения неоднозначностей является одной из важнейших характеристик, отличающих лингвистические технологии разработанные Cognitive Technologies.

Применение синтаксического анализатора также позволяет проводить сравнение текстов на основе встречаемости в них различных слов и конструкций и разрабатывать методы понимания текстов, извлечения данных из текстов, а также другие приложения.

На основе данного программного комплекса компанией Cognitive Technologies создан ряд интеллектуальных программных продуктов, например системы определения авторства и стиля документа.

По взаимному соглашению сторон, все подробности сделки, включая ее стоимость, являются конфиденциальной информацией и не подлежат разглашению.

Анализ повторяющихся конструкций и связей слов также позволяет сравнивать тексты на предмет похожести. Отмечается, что на основе проданного комплекса создано несколько продуктов, в том числе и по определению авторства документа.

Позволю себе предположить, что это должно дать возможность найти рерайты заданного текста, и на основе информации о стилистике и авторских особенностях других документов определить первоисточник. Подозреваю, что пострадают синонимайзеры и некачественный рерайт, но это — ИМХО.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *