Проверка страниц в индексе яндекса для вебмастера
Не секрет, что для того, чтобы ссылки с ваших говносайтов лучше раскупались на биржах, нужно, чтобы все страницы, запихнутые на биржу, были в индексе. Все страницы вне индекса нужно “удалить до переиндексации”. Для проверки оптимизатором индексации закупаемых страниц есть прекрасный продукт - плагин Wink’a, не говоря уже о более автоматизированных платных сервисах. Однако, винковский плагин неудобен, если вам, как вебмастеру, надо проверить тысячу страниц своего сайта на индексацию. Это долго, велик риск попасть на капчу - ну вы поняли. Кто-то уже умудряется копировать ручками ссылки из яндекс-вебмастера для этих целей.
Тут лежит простой скрипт для автоматизации проверки индексации страниц сайта яндексом. Он парсит выдачу яндекса по запросу serverurl и складывает результаты в текстовый файлик.
Установка скрипта крайне проста - залейте ya.php в какую нибудь папку на своем хостинге. В начале текста скрипта (строки 3-8) по необходимости поправьте значения таймаута между запросами и текста, между которым находится непосредственно ссылка в выдаче яндекса (он иногда меняется). Там же есть возможность указать, с какого ip (он естественно должен быть на сервере) делать запросы. Когда яндекс вас забанит, адрес можно поменять.
Использование скрипта также не требует особых навыков. Заполните поле “сайт”, спарсите нулевую страничку выдачи. Посмотрите (по ссылке сверху) сколько всего страниц занимает выдача. Укажите диапазон страниц для парсинга (например, если у вас 10 страниц выдачи, то нулевую вы уже спарсили и нужно указать диапазон с 1 по 9). Нажмите кнопку и наслаждайтесь вкусом кофе :). Результат заберете в файте out.txt или том, который вы указали вместо него. Если страниц выдачи зело много и скрипт не вспевает отработать за максимальное время выполнения, то парсите по 10 штук страниц.
Результат - список проиндексированных страничек - нужно вбить в поле “выделить по URL” в списке страниц вашего сайта в сапе и нажать галочку инвертировать список (сверху списка справа, кто не знает). Выделенные после этого непроиндексированные странички можно удалить до переиндексации. Enjoy! :)
Почему-то не получается со скриптом
1. сайт вбил
2. АПИ поменял
Нажимаю кнопку Отправить запрос, страница белая становится. Проверяю выходной файл пусто(((. А в начале были ироглифы ещё пришлось кодировку делать Win-1251, со старой тоже не идёт
Игорь, мне честно говоря не нравится твой метод линкбилдинга, но тему ты поднимаешь правильную про кириллические домены. Поэтому ссылку я твою сохранил и даже исправил (с третьего раза она наконец заработала). Надо будет через месяцок пропарсить твои бэки, глянуть эффентивность.
Что касается скрипта, то там по моему у яндекса опять поменялись тэги с того момента, как я скрипт последний раз обновлял. Обновлю через недельку ну или ты сам можешь поправить в коде скрипта на актуальные. Наверно, он даже нормально отпарсит твой кириллический домен, если указать его правильный урл на латинице. Хотя это надо пробовать, а у меня пока возможности нет.
Кириллические домены, да… Дебильная идея изначально, теперь поддерживается еще и рядом вебмастеров, вот тобой например. Ну неужели непонятно, что если уж кириллица не поддеживается в урлах некоторыми браузерами, то авторам скриптов, начиная от не-русскоориентированных цмс и заканчивая парсилками типа этой, нафиг не упало переписывать код ради прихоти безумных политиков.
Ты сам урл то видел? Это ж, прошу прощения, пиздец какой-то. Как с ним работать вообще? Ты естественную ссылочную массу на сайт теряешь процентов на 80 только из-за того, что твой настоящий урл хрен запомнишь и воспроизведешь. Перенеси свой сайт на нормальный домен, я даже обещаю тут на него сослаться.
Ну и раз уж забрел я на твой ресурс, не премину проехаться по нему. Без обид, прошу воспринимать как конструктивную критику. Сайт оставляет впечатление среднее между типичным сайтом ни о чем и унылым хомяком (homepage) девочки-студентки. Какова цель создания сайта? Если это поиск работы в области системного администрирования, то нафига там вывешены примеры каких то сайтов и рассуждения о выдаче яндекса? Это не интересно потенциальному работодателю, да кроме того и шансов, что резюме заметят гораздо больше при публикации на тематических порталах, например на хидхантере.
Если речь идет о сео-экспериментах и/или веб-дизайне, то было бы неплохо все же определиться поконкретнее с тематикой, а если ты претендуешь на гордое звание дезигнера, так и сайт может стоит отрисовать с каким то намеком на наличие этого самого дизайна.
Что касается мыслей про возврат страниц в индекс, не открою америки, сказав, что это страницам есть смысл быть в индексе, если на них идет трафик. Если траф туда не идет, то похрену, в индексе они у тебя или нет, серфер все равно заходит туда только по внутренним ссылкам. А траф на внутряк идет тогда, когда эти страницы оптимизированы под запросы. Поэтому или оптимизируй внутряк под НЧ или забей.