IT

Релевантные комменты для Хрумера

Чекая как то в очередной раз блоговую базу, по которой только что прошел хрумер, на наличие активной ссылки и грустно наблюдая как процент обнаруженых ссылок скачет с 0 на 1%, а потом и вовсе останавливается на нуле, подумалось мне, что определение форм, постинг и разгадывание каптч это хорошо, а вот результативность расслылки и выживаемость то постов стремится к нулю.

Новости СМИ2

..

Ну, тут надо сказать, что если бы рассылки совсем не было, то это было бы еще печальнее. К счастью, в сети все еще есть куча мест куда можно постить с отличным от нуля результатом. Дело в том, что доп. ссылки это практически всегда хорошо, и лучше прогнать базу на 100к и поиметь в итоге 200-300 ссылок, чем вообще ничего. Даже рефспам, я тут смотрю, оживает :) Что? Вы говорите, что он и не умирал? Да-да, так и есть. Это пример того, что наличие какой-никакой, но, все же, ссылки - для сайта скорее благо, чем помеха на его пути к топу. Каков промежуточный итог моего размышления? Таков - постить в комменты по блогам нужно как то иначе, чем просто подставлять строчку из дефолтных ответов антиспама. Так наверное все делают и я тоже так делаю, и это хорошо, потому что это лучше, чем нафигачить мешанку из текста и кучи ссылок. Да и неопытные админы частенько пропускают такие комменты по началу, когда их блог только стартовал и они еще не знают, что совсем скоро к их мега информативным статьям будут такие же мега информативные комменты - "Спасиба, чувак, очень клево! Ты малатца! Пейши исчо!". А что делать с теми админами, которые уже автомате без участия сознания отсеивают такие комменты?

Вот тут то и может прогодиться способ комментирования, который я предлагаю. И назвал я его релевантные комменты.

Теория

Антиспам Хрумера - весьма зачетная и продвинутая система постинга сообщений на форумы, если бы он работал для блогов - было бы вообще супер секси. Такие человеческие комменты доставались бы админом даже из папки СПАМ на блоге (в которую они неизбежно бы попали по мнению акисмета, который видит, что таких комментов с этого айпи с таким сайтом и почтой поступило уже несколько К за последние 20 минут) и срадостью аппрувятся, ибо для блога с посещалкой в 10 уников в сутки любой человеческий коммент - радость и праздник. Но, к сожалению, антиспам Хрумера для блогов не работает.

Как же быть? Как нам постить хорошие релевантные комменты, как нам порадовать админов? При всем при том еще и использовать все наработки BotmasterLabs по многопоточному постингу, разгадыванию каптч и обходу скриптозащит? Еще и добавить нашим комментам дополнительный эффект тематичности и социальной инжененрии? Надо использовать прокси!

Но непростой прокси, который тунеллит через себя трафик, а такой, который еще и "добавлял бы пару слов от себя" к отсылаемому комменту :) Отлично, способ разнообразить коменты найден. Следущий вопрос - как сделать комменты тематичными? Ответ тут прост и лежит на поверхности - поисковики знают практически все, что нужно. И скорее всего найдется такой сайт, где есть похожий материал, похожий на статью, которую мы хотим комментить. Вот и хорошо. Скажу честно, если бы мне пришел человеческий коммент по теме моей статьи, а бы аппрувнул его даже не смотря, что там за сайт рекламят в поле "ваш сайт". Мне не жалко поставить ссылку за осмысленный коммент и пофиг, что он был бы неуникальным. Да кто, по большому счету их проверяет на уникальность то? Кому придет в голову? Да мало кому.

Практика

Написать локальный прокси для хрумера, который бы туннелил через себя его трафик было легко. Парсить поисковики на релевантные странички - тоже. На данный момент я попробовал использовать 2 алго подбора ключевиков для запроса в поисковик для поиска релевантной страницы донора. Это тайтл комментируемой страницы (без спец. символов и имени домена) и леммы топовых слов, которые встречаются в текста исходной страницы. Практика показала, что первый вариант дает результаты лучше, даже не смотря на большой список стоп слов для второго варианта. Было решено остановиться на нем.

Основная проблема, как выяснилось позже, была в очистке текста от мусорных предложений и их токенизация. +Проблема с кодировками текста. Т.е. нам вообще не нужно исходное html оформление, нам нужен текст в правильной кодировке, разбитый на предложения. Нам не нужны мелкие предложения длиной до 50 символов. Что вообще такое подходящее для коммента "предложение"? В моем понимании это последовательность символов, начинающаяся с большой буквы и заканчивающаяся точкой, знаком вопроса или восклицания. Другие предложения на данный момент выделять проблематично, ну, скорее, непроблематично, а правил для регэкспов надо больше, а вот от контекста они наверняка будут все равно оторваны, а значит скорее всего будут не в тему. Потому - в топку.

Что делаем дальше? Дальше, после того как прокси сходил на донор, перекодировал текст в правильную кодировку и разбил его на предложения, он должен выделить из всего этого самые длинные предложения, т.к. они наиболее информативные, почти наверняка содержат наши ключевые слова и вполне представляют собой самостоятельные единицы-утверждения, где сохраняется контекст (примерно так работают системы реферирования текста) т.е. такие предложения очень подходят для коммента. После того, как топовые предложения отобраны, нам нужно определить их релевантность исходному запросу. Для этого я лемматизировал каждое предложение с учетом стоп-слов (это самые распространенные слова языка + мусорные слова, характерные для интернет страниц, типа предложений "Забыли свой логин или пароль?", "пароль" и "логин", у меня считаются мусорными стоп словами) и сравнивал его с лемматизированным же тайтлом страницы куда у нас идет коммент. В итоге, моя формула релевантности такая:

Релевантность = (Количество совпадений лемм предложения с тайтлом )/(количество слов в тайле) * 100

Такая вот она нехитрая, но для наших целей вполне подходит. На выходе имеем процентное выражение похожести тайтла и кандидата-предложения. По результатом тестов хорошая релевантность начинается со значения 30-40%. При релевантности равной нулю - либо предложение вообще не попадает в тему, либо попадает, но описывает что-то синонимами, либо так же попадает, но в нем речь идет о чем-то около "тайтловом" без использования исходных слов, но контекст обычно сохраняется. Так что можно снизить все-таки порг релевантности.

В боевых условиях это выглядит так:
Тайтл: "Грибной паштет из шампиньонов-рецепт"