Сервис фильтрации уникальных фраз в Textmania с настройками

Новый сервис фильтрации уникальных фраз

Сервис уникальных фраз

Сегодня написал новый инструмент для Textmania — сервис, который из списка слов оставляет только уникальный.

Вот ссылка на сам сервис.

Для чего может пригодиться

Пригодится в случае, если у вас есть список с повторами, а вам нужно исключить их. Это широкий круг задач. Вот пару примеров.

Составление плана статьи из ключевых слов

В КейКоллекторе вы получили группу на 100 ключей. С чего начать составление плана?

Можно вбить эти ключевики в сервис уникальных слов, и понять первые пару пунктов плана (уникальные интенты пользователя).

Составление плана статьи из H2-H6 конкурентов

Вы напарсили H2-H6 5-10 конкурентов, и получили 100 строк. Прежде чем делать что-то, хорошо провести первичную фильтрацию, и удалить явные дубли.

Сервис поможет вам это сделать.

Как работает

Вначале из фраз удаляются незначащие части речи: предлоги, союзы, частицы и прочее. Есть список таких частей речи, я постоянно пополняю его.

Дальше каждое слово в фразе стеммизируется — приводится к определенной базовой форме. Это не корень, а просто уникальная для каждого слова форма. Хотя иногда может и совпадать с корнем.

Например, слова «лошадь» и «лошади» приведутся к форме «лошад». И при дальнейшем сравнении «лошадь» и «лошади» будут считаться одним и тем же словом.

После стеммизации каждая фраза представляется как множество слов, и сравнивается тоже как множество. То есть, порядок слов не учитывается.

Такой алгоритм позволяет не учитывать окончания слов и их порядок в фразе при сравнении.

Работает лучше всего на длинных фразах.

Попутный фикс сервиса составления ТЗ

В сервисе составления ТЗ была возможность парсинга заголовков конкурентов. Теперь я сразу добавил туда возможность фильтрации неуникальных пунктов. Процент похожести тоже настраивается.

Фикс сервиса составления ТЗ

Мыслы по поводу улучшения сервиса составления ТЗ

Сервис составления ТЗ работает уже достаточно хорошо. Но я хочу улучшить его в части парсинга заголовков конкурентов. Часто сайдбары, реклама и т.д. оформляется именно тегами H2-H6, хотя это семантически неправильно, эти теги для контента.

Думаю составить стоп-список фраз, которые нужно убирать после парсинга. Всякие «связь с нами», «реклама» и тому подобное нужно сразу фильтровать.

Вам также может понравиться

Об авторе ivan_melnichuk

Программист и вебмастер. Делаю сайты, обучаю людей программированию.

2 comments

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *