ИСПОЛЬЗОВАНИЕ МЕТОДА СЖАТИЯ ИНФОРМАЦИИ В СЕМАНТИЧЕСКОМ ИНФОРМАЦИОННОМ ПОИСКЕ

Автор(ы): В.А. Кудинов, Доктор наук, Профессор, Курская государственная сельскохозяйственная академия имени проф. И.И. Иванова, Курск, Россия, kudinovva@yandex.ru

Нэй Лин, Курский государственный университет, Курск, Россия, naylynn16@gmail.com

Журнал: Том 46, № 1

Рубрика: Инфокоммуникационные технологии

Аннотация: В современном мире возрастает количество людей, использующих Интернет. При этом объём информации в Интернете увеличивается. Однако получаемая информация является семантически неоднозначной, так как имеется проблема семантической неоднозначности слов. Чтобы решить эту проблему, используют онтологии (семантические базы данных). Кроме того, имеется еще одна проблема. Из-за возрастания количества информации необходим больший объём памяти для ее сохранения, но при этом значительно увеличивается время обработки таких данных. Возникают сложности для информационного поиска (ИП). Для того чтобы решить эту проблему, применяется сжатие данных в задачах ИП. В этой статье предлагается новая модель семантического информационного поиска, использующая метод сжатия на основе кода End Tagged Dense Code-ETDC. Для сжатия статьи Wiki используется метод ETDC, что обеспечивает получение коэффициента сжатия 25%. Для построения файла терминологического словаря необходимы только простые тексты. Кодирование – процесс очень простой и легко реализуется программно. Поэтому время кодирования и декодирования меньше, чем в методе Хаффмана.

Ключевые слова: помеченный код Хаффмана, ETDC, wordnet, расширение понятия, онтология, сжатие текста, алгоритм Бойера – Мура

Полный текст (PDF): Загрузить

Количество скачиваний: 318