В статье описан подход к формированию поискового множества, используемого при определении эквивалентов текста. Задача такого вида возникает при поиске дубликатов текста, определении авторства и возможного плагиата, организации библиотечного поиска, а также при создании поисковых систем Интернета. В подходе, представленном в статье, учитывается ряд особенностей: частотность слов, пунктуация, морфемная структура слов, регистр букв и артефакты текста (специфические цифро-буквенные сочетания).
Разработанная программа протестирована на наборе данных, в число которых включены как оригиналы текстов, так и их специальным образом модифицированные варианты. В результате проведенного эксперимента определены слабые стороны подхода. Приведены варианты по улучшению разработанного программного средства и схема взаимодействия модулей разработанной программы после модификации.
Также имеется ФРАГМЕНТ ТЕКСТА для ознакомления!
Коротко о главном в электронной версии о интернет пространстве с идентификатором 19411903:
Д. С. Бухаров работа о интернете интернет, информатика и вычислительная техника, программы
Ниже приведены ТЕГИ, по которым можно посмотреть аналоги книг о работе во всемирной сети.
Скачать О поиске эквивалентных текстов ОнЛайн
Электронная книга Прикладная информатика. Научные статьи в жанре интернет, информатика и вычислительная техника, программы инструментальные средства, поиск информации, текстовый материал, эффективные алгоритмы для обучения и всестороннего развития.
Скачать ОнЛайн материалы автора Д. С. Бухаров на устройства FB2 EPUB TXT RTF PDF HTML MOBI форматы. Цена скачивания составляет 168.00 руб.