Новый метод значительно ускорит поиск информации

2017-7-7 09:35

Сотрудниками Московского физико-технического института и Вычислительного центра РАН Андреем Кулунчаковым и Вадимом Стрижовым предложен новый метод автоматического построения ранжирующих моделей, которые используются для обработки запросов от пользователей на поиск информации в коллекциях документов или в интернете.

Предлагаемый метод значительно повышает скорость построения моделей. Результаты исследования опубликованы в журнале Expert Systems with Applications, кратко о нем сообщает пресс-релиз МФТИ.

При поиске среди миллионов документов в сети пользователь ожидает в результате получить небольшой полезный список. Документы списка должны быть проранжированы согласно поисковому запросу. Остальные документы для пользователя являются информационным мусором. Цель поисковой системы - найти нужный документ по запросу небольшой длины. Предложенный метод строит ранжирующие модели, позволяющие быстро достигнуть этой цели. Подобные модели являются ядром современных поисковых систем. Ранжирующие модели, предназначенные для быстрого и точного поиска информации, используются во многих областях от спам-фильтров до колл-центров.

Ранжирующая модель строится на основе простейших математических функций. Подобная модель предполагает создание из них сложной функции, которая бы решала поставленную задачу. Работа ученых была направлена на оптимизацию способа построения такой модели. Качество построенной модели определяли в том числе, с помощью живой экспертной оценки адекватности получаемого списка документов.

Одним из способов построения моделей является генетическое программирование. Название оно получило из-за схожести с механизмом естественного отбора в природе. В ходе решения задачи строится множество промежуточных решений - «поколений» моделей, в большей или меньшей степени похожих на искомую модель высокого качества, максимально соответствующую запросу. Алгоритм отсеивает модели низкого качества путем «естественного отбора» и на основе оставшихся создает более подходящие. Лучшие «особи» имеют большую вероятность быть включенными в следующие поколения. Сменяя множество поколений, алгоритм приближается к оптимальному решению.

К сожалению, так происходит лишь в теории. На практике число моделей растет чрезвычайно быстро с ростом сложности. Для перебора моделей, состоящих всего лишь из восьми функций, вычисления занимают не менее суток. При этом следует перебрать все варианты, из которых в будущем может эволюционировать наилучшее решение. Андрей Кулунчаков и Вадим Стрижов в рамках своего исследования создали новый подход к порождению ранжирующих моделей для поиска документов в больших коллекциях, не имеющих этих недостатков. Также исследователи решили проблему «стагнации». Когда в сменяющих друг друга «поколениях» модели структурно похожи и их «скрещивание» не дает существенно новых результатов, происходит «стагнация», или «застой». В таком случае вероятность появления качественной модели существенно снижается. Для того, чтобы избежать стагнации, в поколение добавляются новые модели с целью повышения разнообразия.

Чтобы показать, что созданный метод получает модели, превосходящие по качеству современные альтернативы, авторы поставили численный эксперимент. Были использованы базы данных Национального института стандартов и технологий США, предназначенные для анализа и сравнения подобных систем. Они состояли из двух миллионов документов и двухсот тысяч запросов. Эксперимент показал, что полученные модели имеют более высокое качество ранжирования, согласно принятому критерию МАР - Mean Average Precision (популярная мера эффективности поиска информации). Сам же метод позволяет получить модель высокого качества за существенно меньшее время.

.

Аналог Ноткоин - TapSwap Получай Бесплатные Монеты

Подробнее читайте на

модели моделей метод документов построения модель информации существенно

модели моделей → Результатов: 5 / модели моделей - фото


Фото:

Самые провокационные модные показы

Во время показа коллекции Kenzo сезона весна-лето – 2017 в самом начале подиума создали шокирующую инсталляцию из голых моделей, покрытых тонким слоем светлой краски, благодаря чему они выглядели как мраморные изваяния.

2016-10-07 16:52

Более 50% автопроизводителей за месяц подняли цены на автомобили в России

25 мировых автопроизводителей, представленных на российском рынке, за последний месяц скорректировали цены на свою продукцию, сообщается в материалах на сайте «Автостат». Согласно статистике, в период с 20 февраля по 15 марта 2016 года изменения коснулись одной или нескольких моделей в линейке каждой из компаний. polit.ru »

2016-03-18 12:25

Фото: forbes.ru

Скорость Алтая: самые популярные мотоциклы в России

Барнаульский производитель Racer в 2015 году обошел всех конкурентов на рынке мототехники и стал самой продаваемой маркой в стране Статья из журнала: Статья не из журнала <p>Компания Racer, два года назад&nbsp;наладившая сборку мототехники в Барнауле, продала в 2015 году 2679 единиц мототехники и заняла первое место в десятке самых популярных мотомарок, обогнав китайскую Irbis. forbes.ru »

2016-02-05 05:00

Фото:

В России вышли iPhone для "черных времен"

Первой коллекцией, представленной Caviar в 2016 году, стала новая линия Black Edition, в которую вошли сразу несколько моделей из разных сегментов, впервые воплощенные полностью в черном цвете. В центре внимания находятся экземпляры из "Российской" коллекции: смартфоны "Supremo Putin", "Atlante Russia" и "Credo Trinita".

2016-01-18 17:57

Фото:

Толстушки атаковали Москву

Новое веяние моды, которое в последнее время стало популярно в Соединенных Штатах докатилось и до России. На Московской Недели моды состоялся первый показ моделей с нестандартной фигурой. Модели с пышными формами которые носят 48-54 размер одежды, атаковали столичный подиум забрав на себя все внимание зрителей.

2015-10-16 21:46