
Содержание
Сегодня написал новый инструмент для Textmania – сервис, который из списка слов оставляет только уникальный.
Для чего может пригодиться
Пригодится в случае, если у вас есть список с повторами, а вам нужно исключить их. Это широкий круг задач. Вот пару примеров.
Составление плана статьи из ключевых слов
В КейКоллекторе вы получили группу на 100 ключей. С чего начать составление плана?
Можно вбить эти ключевики в сервис уникальных слов, и понять первые пару пунктов плана (уникальные интенты пользователя).
Составление плана статьи из H2-H6 конкурентов
Вы напарсили H2-H6 5-10 конкурентов, и получили 100 строк. Прежде чем делать что-то, хорошо провести первичную фильтрацию, и удалить явные дубли.
Сервис поможет вам это сделать.
Как работает
Вначале из фраз удаляются незначащие части речи: предлоги, союзы, частицы и прочее. Есть список таких частей речи, я постоянно пополняю его.
Дальше каждое слово в фразе стеммизируется – приводится к определенной базовой форме. Это не корень, а просто уникальная для каждого слова форма. Хотя иногда может и совпадать с корнем.
Например, слова “лошадь” и “лошади” приведутся к форме “лошад”. И при дальнейшем сравнении “лошадь” и “лошади” будут считаться одним и тем же словом.
После стеммизации каждая фраза представляется как множество слов, и сравнивается тоже как множество. То есть, порядок слов не учитывается.
Такой алгоритм позволяет не учитывать окончания слов и их порядок в фразе при сравнении.
Работает лучше всего на длинных фразах.
Попутный фикс сервиса составления ТЗ
В сервисе составления ТЗ была возможность парсинга заголовков конкурентов. Теперь я сразу добавил туда возможность фильтрации неуникальных пунктов. Процент похожести тоже настраивается.
Мыслы по поводу улучшения сервиса составления ТЗ
Сервис составления ТЗ работает уже достаточно хорошо. Но я хочу улучшить его в части парсинга заголовков конкурентов. Часто сайдбары, реклама и т.д. оформляется именно тегами H2-H6, хотя это семантически неправильно, эти теги для контента.
Думаю составить стоп-список фраз, которые нужно убирать после парсинга. Всякие “связь с нами”, “реклама” и тому подобное нужно сразу фильтровать.
Отлично!
Норм))) идея ок