Сюда обычно чего-то пишут. Но меня ломает...

Кошки-мышки с яндексом или как удержать говно в индексе

Собственно, надо бы так весь раздел про сателиты назвать, ну да ладно.К концу прошлого года у меня пропал интерес к говносайтам (по очевидной причине - там нет ничего интересного, даже для хобби). Но компания Яндекс немного подогрела мой интерес к данной теме, внедрив серию фильтров АГС. АГС выкосил все мои сателиты, продажа ссылок на сапе с которых позволяла мне не платить за закупаемые там же ссылки для моих магазинов. Выкошено было практически все - начиная от почти приличных сайтов с почти приличным контентом, заканчивая откровенным говном.

Поэтому мне стало интересно решить задачку - как удержать в индексе яндекса полное, абсолютно бессмысленное и никому не нужное говно. Решение задачи меня привело в уныние. Нет, не потому что все говно было выкошено. Ровно наоборот. Из двух десятков подопытных ГС улетело под фильтры только два. Сейчас эксперимент закончен, тема мне стала неинтересна. Какое-то время я поиспользую его результаты (не выкидывать же), но долгосрочных видов на них не имею, поэтому спешу поделиться. Большинство вещей являются настолько очевидными, что о них как бы и глупо писать даже, но те не менее.

Исходные данные

Отправной точкой является то, что Яндекс на самом деле является очень ограниченной ПС. Основных органичения два. Первое - отсутствие возможности эффективно обрабатывать большие объемы распределенных данных. Не вдаваясь в подробности, замечу - это потому, что доступные сейчас ОС делать этого не умеют по причине малой востребованности. Вторая причина в том, что в Москве, да и вообще в России почти нет людей, которые могли бы разрабатывать действительно эффективные поисковые алгоритмы. Поиск - это вам не коннектор для выгрузки первички из одинэса в сап. Все кто могли и хотели - уже уехали, а кто не мог или не хотел давно “автоматизируют бизнес-процессы” на абапе, прекрасно себя чувствуют и этот ваш поиск им нахер не упал, особенно за зарплату, предлагаемую в Яндексе. Поэтому алгоритмы Яндекса очень ограниченные.

Пробка и дырка

Как вы наверно знаете, у Яндекса есть модель, описывающая нормальные с их точки зрения сайты. Сайты, не попадающие под эту модель  считаются искажающими выдачу и подлежат выкосу. Комплект фильтров, определяющих подходит ли сайт под модель называется АГС. Однако он подходит к описанной модели ровно как квадратная пробка к круглой дырке - воткнуть в принципе можно, но пробка сильно помнется, а из дырки все равно будет течь.

Поэтому проще говорить о комплекте условий в фильтрах и соответствия сайта им, чем пытаться создать сайт, соответствующий модели по рекомендациям яндекса. Если вы создаете сайт думая об обходе условий фильтров, то независимо от его полезности, целей создания, интереса для посетителей и прочей абстрактной с точки зрения фильтров ерунды он будет прекрасно сидеть в индексе до тех пор, пока его не выкосят вручную кто-то из нанятой толпы таджиков, называемых ассессорами. Да, чтобы не было непонимания - это все не относится к другим поисковым системам, которые подходят к вопросу чуть более комплексно.

Наша модель квадратной пробки

Ни для кого наверно уже не новость что набор фильтров АГС работает по балльному принципу - за каждый “негативный” признак, присущий сайту, он получает какое-то количество штрафных баллов, если штрафных баллов набрано больше, чем некая граница, на сайт накладываются санкции. Попробуем построить модель работы этих фильтров, не забывая об указанных выше ограничениях. Естественно, наша модель будет несколько отличаться от модели яндекса (другими словами наша пробка будет не совсем квадратной, а какой-то неправильной формы, похожей на квадрат), но степени приближения, как я вижу, достаточно, чтобы не попасть под фильтры.

Опять же не открою ничего нового, если скажу, что основных критерия два

  1. Наличие исходящих SEO ссылок;
  2. Наличие маркеров дешевого контента.

И то и другое очень легко проверяется. Например, факт продажи сайтом ссылок на крупных биржах может быть легко вычислен сбором списка участников по API с бирж (да, да, Яндекс - честные ребята, они так не делают, и единственной причиной не делать это я вижу только наличие еще более простого и универсального способа проверки), а такие типы дешевого контента для сателлитов как машинные переводы, сканы, граббинг, копипаст, синонимайзинг и даже рерайт содержат в себе характерные паттерны, по наличию которых он легко вычисляется.

Известно, что совокупности указанных двух факторов достаточно, чтобы загреметь под фильтры. Дадим им весовые коэффициенты 30 за любое проявление и поставим планку 60 баллов  в нашей модели для применения санкций.

Что может еще быть принято во внимание? В принципе в каком-то интервью Садовский чуть ли не список дал, так что боюсь повториться, поэтому переформулирую в терминах модели - за что еще начисляются штрафные баллы:

  • Отсутствие качественной входящей ссылочной массы (тут все просто - качественная по версии Яндекса масса формирует тИЦ, если его нет или он очень маленький, это штрафной балл). Пусть это будет 10 баллов за отсуствие тИЦ и 5 за значения меньше 50;
  • Избыточная навигация - без комментариев, еще 5 баллов;
  • Дублирование контента внути сайта - думаю тоже не нуждается в комментариях, еще 5 баллов. (Таким образом, вордпресс в дефолтной настройке даст вам 10 баллов штрафа сразу - отсюда берутся мифы о том, что за использование некоторых CMS накладываются фильтры);
  • Длительное отсутствие обновлений (залил и забыл) - 10 баллов;
  • Отсутствие естественных (не-seo) исходящих ссылок - 5 баллов;
  • Отстутствие траффика с Яндекса - 10 баллов;
  • Несоответствие типа контента типу навигации (структуре сайта) - 10 баллов;
  • Малый возраст сайта (считается с момента полной смены контента).

По поводу вышеуказанного списка я думаю ни у кого не возникнет сомнений, что эти свойства просто учитываются и адекватно отражают возможность отнесения сайта к категории ГС.

Ну и несколько факторов, которые может быть могут прибавить еще по 5 баллов штрафа:

  • Доменная зона (рушки самые дешевые, поэтому штраф);
  • Отсутствие страниц 4 уровня вложенности, наличие html-карт, нарезанных по 150 ссылок;
  • Отсутствие кодов счетчиков и систем веб-аналитики;
  • Отстутствие сайта в панели вебмастера;
  • Низкая лояльность посетителей (они заходят на сайт с поиска и уходят обратно в яндекс).

Ну и не нужно забывать об ассессорах, по итогам просмотра которыми любой сайт может быть выкошен АГС, даже если он не попадает по условиям фильтра.

Как мы видим, свежеслепленный ГС, засунутый на биржу получит сразу от 45 баллов штрафа даже в случае, если мы уберем все управляемые негативные факторы. (30 баллов за продажу ссылок  10 - за отсутствие траффика и 5 - за нежный возраст), таким образом, мы приближаемся вплотную к критической черте, и если на нашем сайте будет висеть говноконтент, сайт быстро и безболезненно улетит под санкции, особенно, если у него нет входящей ссылочной массы. Поэтому контент сайта является ключевым фактором фильтрации.

Но не все так плохо, вспомним, что на самом деле анализ контента делается фильтрами довольно топорно. Поэтому:

Что нам надо сделать

  1. Создать сайт, не имеющий свойств, начисляющих штрафные баллы. Проще всего взять любую CMS, зарегистрировать домен в зоне .com и сделать пустой сайт с такой структурой, которая характерна для обычных, нормальных сайтов для людей, поставить туда счетчик, написать руками статью на главную, добавить в я-вебмастер (отдельная учетка, не забудьте) и дать постоять месяц-другой. Если желания дать постоять нет и хочется срочно в бой, то вам нужно обеспечить нормальную ссылочную массу (получите с нее тИЦ, значит масса нормальная, если  непонятно где взять ссылки - поанализируйте бэки сайтов с тИЦ, недавно добавленных на биржи).
  2. Наполнить сайт контентом, не имеющим маркеров сателлитного контента и подходящий по смыслу к структуре сайта. Такой контент проще всего сгенерировать. А раз уж мы его генерируем, то  его можно тут же налету и залить на наш прекрасный “СДЛ”, например с помощью XMLRPC.

Прайс-листы дают прекрасную возможность накидать в текст статьи списки товаров. Списки городов, имен, фамилий, названий фирм и т.д. и т.п.дополнят картину (можно получить бизнес-справочники, сайты о работе, услугах, компаниях, товарах и многих  других почти настоящих, но совершенно бессмысленных вещах)

Ничто не мешает также выгрузить XML-фиды магазинов типа озона, распарсить их в CSV (скрипт я видел где-то на нулледе, что ли), сдвинуть значения в колонках и залить в Joomla VitrueMart, получите магазин не менее прекрасных, уникальных, и совершенно бессмысленных товаров.

В общем, нужно только немного фантазии и знания какого либо языка программирования. Даже набор 3-5 абзацов по 3-5 предложений, надерганных с помощью функции RND () из текстов одной тематики и приправленых случайно раскиданными тэгами strong, em, b, i, u, font color= (2-3 штуки на статью) пока дает прекрасные результаты.

Готовое решение

В заключение, хочу дать готовое решение, реализующее последний подход. Если хотите попробовать, забирайте этот архив.  Инструкция по его использованию:

Содержимое нужно залить в папку на сервер. В файл in.txt положите несколько текстов одной тематики. Запустите sort.php, на выходе получите два файла - title.txt c заголовками и index.txt c предложениями для текста статей. Вычитайте заголовки, чтобы там не было совсем неакдекватных. В тексте скрипта sort.php укажите адрес вашего сайта, имя пользователя, от которого будет идти постинг и пароль, а также заполните массивы тэгов (имеет смысл только для вордпресса), категорий и слов, которые будут выделяться html-тэгами. Запустите sort.php. Постинг осуществляется через XMLRPC Metaweblog API, не забудьте включить его на сайте. Гарантированно умеет постить в вордпресс и Джумлу с этим плагином. Да, оригинал скрипта мной наглым образом уперт отсюда, за него автору большой респект.

Естественно, через какое-то время сайты, сделанные скриптом, ушедшим в паблик улетят под фильтры. Поэтому фантазируйте, и пребудет с вами счастье. А с нами - большой выбор площадок с низкими ценами. Пихайте их сюда :)

Материалы по теме

9 Каментов к статье “Кошки-мышки с яндексом или как удержать говно в индексе”. Оставьте камент »

  1. Камент от web-studia.net.ua — 2010/07/22 @ 9:07

    хорошая тема!

  2. Камент от Пырьев — 2010/07/26 @ 5:23

    Слежу за темой, спасибо за пост.

  3. Камент от E-van — 2010/08/05 @ 11:08

    Улет, мегареспект, сначала вышел на твой сайт по shopxml, и зачитался темой про сателлиты, сейчас буду лопатить всю тему по xmlshop, ибо вечная борьба за с агс что-то поднапрягла за последние пол года (гад, выкосил 20 вполне приличных говнофорумов :) )

  4. Камент от Timp — 2010/08/06 @ 3:34

    E-van, да, пока все это работает, но яндекс прилагает заметные услилия по выносу MFS из индекса (что вцелом не то чтобы и плохо). Сейчас вот наблюдаю уменьшение числа страниц на сгенерированном контенте, содержащем постоянную часть. (псевдо желтые страницы, каталоги товаров и пр.). При этом генереный бредотекст как описывается в конце данной статьи все еще прекрасно сидит в индексе. Это все до поры до времени, прикроют и эти дырки, опять надо будет искать что то новое. Мне игра в кошки мышки неинтересна, поэтому понемногу сливаю свои наработки в паблик. Да, по шопхмлу скоро будет следующая статья, все не соберусь написать.

  5. Камент от Sovka — 2010/08/10 @ 6:00

    Автор, спасибо за порядок в голове!

    >Несоответствие типа контента типу навигации (структуре сайта)
    Тут не могу догнать, как это? Толи на примере бы…

  6. Камент от Timp — 2010/08/12 @ 5:26

    ну пример - вы парсите резюме и выкладываете их в “блог”. У блога структура навигации одна, у джоб-сайтов другая. Имхо отсюда и мифы о пессимизации за cms (за вордпресс в частности). Дефолтно настроенный вордпресс имеет типично блоговую структуру навигации (тэги, категории, эксцерпты - пи$дец просто). И не-блогговый контент там торчит ушами из сайта. Нужно либо лить туда блогоподобный контент, либо менять структуру навигации. И не надо для этого отказываться от cms кстати.

  7. Пинг от Кошки-мышки с яндексом или где же тИЦ? | Желтый стикер — 2010/08/16 @ 13:50

    [...] по практике говносайтостроения. Как я уже писал раньше, задачка перестала быть мне интересной еще до того как [...]

  8. Камент от Roman — 2010/11/22 @ 1:29

    Спасибо за инфу, если бы прочитал раньше - куча сайтов возможно не вылетела бы)

    Вопрос:
    Отсутствие кодов счетчиков и систем веб-аналитики;

    LiveInternet подойдет?

  9. Камент от Timp — 2010/12/25 @ 7:16

    Я обчно LiveInternet и ставлю, вроде нормально.
    Еще маленькое замечание к весовым коэффициентам факторов - наличие входящих ссылок более важно, чем у меня там написано. Стали понемногу выпадать ГСы, у которых сократилось число входящих ссылок. Те же, у которых входящих много, висят. Даже если эти ссылки не формируют тиц.

RSS поток бредоспама. Трэкбэк адрес

Оставьте камент




Политика комментирования:

Как вы можете заметить, тут нет поля "сайт", бесполезно оставлять бессмысленные каменты ради ссылок.
Однако ссылки в теле комментариев, как, например вот эта, приветствуются и открыты для индексации.
Поэтому комментарии проходят ручную модерацию. Адекватные комментарии обычно апрувятся.