Как узнать показы страниц в яндекс вебмастер. Как узнать какие страницы в поиске яндекса или это секрет. Добавление нескольких фильтров

Все мы знаем, что Яндекс.Вебмастер показывает какие страницы проиндексированы, но к сожалению не показывает, какие из них не попали в поиск.

Лично у меня уже много месяцев, сервис Яндекс.Вебмастер показывает мне очень непонятную картину:

Загружено роботом 93694
Страниц в поиске 3215
Исключено роботом 178

Делаем подсчет: 93694 - 3215 - 178 = 90301 интересно, что с этими страницами не так, про них забыли?

С этим вопросом я решил разобраться и побеседовал с представителем яндекса (далее Яндекс).

Конечно я прочитал страницу и возможно их не видно по одной из описанных причин.

Однако, если это так, то хотелось бы узнать, собирается ли Яндекс сделать полную раскладку по страницам, которые не попадают в поиск?

А именно, мне бы хотелось видеть в Яндекс.Вебмастер такую картинку:

дубликаты уже показанных страниц: 111
содержат поисковый спам: 222
содержат ненужный пользователям контент: 333

Яндекс: (ответил к сожалению сухо) приведите, пожалуйста, несколько примеров страниц, которые отсутствуют в поиске, чтобы я мог прокомментировать, с чем это может быть связано.

Я: подскажите, а как я могу узнать эти несколько страниц? Дело в том, что Яндекс.Вебмастер не показывает эти данные. Я даже залез в раздел Индексирование сайта - Страницы в поиске, и , которые есть в поиске, но на 40 странице все заканчивается и внизу страницы написано: Показаны первые 1000 из 3202 страниц. Вот и получается, что этот раздел недоработан. Может быть Вы знаете другой способ узнать страницы сайта, которые не попали в Поиск яндекса?

Яндекс: в Вебмастере, как и в поиске, предоставляется информация о 1 000 страниц в поиске. Это не ошибка.

Чтобы проверить наличие в поиске страницы или раздела сайта, рекомендую Вам использовать оператор поисковых запросов (http://help.yandex.ru/search/?id=1111369) url.

К примеру, так Вы сможете определить, присутствует ли главная страница Вашего сайта в поиске: http://yandex.ru/yandsearch?text=url%3Aсайт
Таким образом можно найти и любую другую страницу.

А так: http://yandex.ru/yandsearch?text=url%3Aсайт %2Fweb-master * - можно просмотреть страницы раздела web-master , добавив на конце запроса символ *

Я: т.е. Вы предлагаете мне вручную перебирать все 93782 страницы сайта? И всё это ради того, чтобы найти хотя бы 1 страницу, которая проиндексирована, но которой нет в поиске? Вы представляете сколько у меня времени уйдет на это? Или может быть я что-то не понял?

Яндекс: рекомендуем Вам для начала проверить, есть ли в поиске, самые Важные страницы Вашего сайта, которые, к примеру, ранее хорошо находились в поиске. К сожалению, мы не сможем Вам помочь в поисках страниц, которые отсутствуют, так как это выходит за рамки наших задач.

Вывод: Яндекс может, но не хочет реализовывать данную возможность, скорее всего преследуя свои возможно коммерческие цели.

p.s. написал свою идею сюда в , посмотрим, может что-нибудь ответят.

Яндекс стремится находить ответ на запрос пользователя, предоставляя на странице результатов информацию и ссылки на нее в интернете. Мы создали и развиваем поиск , исходя из нашего понимания, что нужно пользователям, и какая информация является ценной.

Поэтому следование рекомендациям, приведенным ниже, поможет в индексировании и лучшем ранжировании вашего сайта, в то время как применение обманных техник может привести к понижению его позиций или исключению его из поиска .

Основные принципы

    Создавайте сайты с оригинальным контентом или сервисом. Реклама не является той ценностью, ради которой пользователи приходят на сайт.

    Думайте о пользователях, а не о поисковых системах. Стали бы вы создавать сайт, страницу или ее элемент, если бы не существовало поисковиков? Приходят ли пользователи на ваш сайт или интернет-магазин не только из поисковых систем?

    Тщательно продумайте дизайн - он должен помогать посетителям увидеть главную информацию , ради которой сайт создан.

    Будьте честны. Привлечь пользователей по запросам, на которые ваш сайт не может достойно ответить, не значит удержать их. Думайте о том, что пользователь получит, придя на ваш сайт .

Примеры к принципам

Если в этом разделе не описан какой-то прием, помогающий искусственно повлиять на ранжирование сайта в Яндексе, это не значит, что мы его приветствуем. Следуйте здравому смыслу и выше описанным принципам.

Мы стараемся не индексировать или не ранжировать высоко:

  • Сайты, которые вводят в заблуждение посетителей: при скачивании какого-либо файла (аудио, видео, торрент-файл и пр.) загружается посторонняя программа. Или посторонняя программа размещается под видом популярного приложения и т. д. Примером такого нарушения являются так называемые программы-обертки .
  • Сайты, использующие устройства посетителей для майнинга криптовалют .
  • Сайты, копирующие или переписывающие информацию с других ресурсов и не создающие оригинальный контент.

  • Сайты, копирующие или переписывающие информацию с других ресурсов, с низкокачественным автоматическим переводом контента на другой язык, не создающие оригинальный контент.
  • Страницы и сайты, единственной целью которых является перенаправление посетителя на другой ресурс, автоматически («редирект» ) или добровольно.

    Автоматически сгенерированный (бессмысленный) текст.

    Сайты с каталогами (статей, программ, предприятий и т. п.), если они являются только агрегаторами контента, не создают тексты и описания самостоятельно и не предоставляют никакого уникального сервиса.

    Страницы с невидимым или слабовидимым текстом или ссылками .

    Сайты, отдающие разный контент посетителям и роботам поисковых систем («клоакинг» ),

    Сайты, предоставляющие товары или информацию по партнерским программам, но не представляющие никакой ценности для посетителя.

    Сайты, использующие обманные техники (например, вредоносный код , опасные для посетителей сайта настройки CMS и серверов, вирусы в партнерских программах , вредоносные мобильные редиректы), перенаправляющие посетителей на сторонние ресурсы или меняющие окно результатов поиска на страницы других ресурсов при переходе из поисковых систем.

    Сайты, пытающиеся повлиять на поисковую систему путем имитации действий посетителей .

    Сайты, основным предназначением которых является агрессивная демонстрация рекламных материалов (в том числе popup, popunder , clickunder).

Здравствуйте уважаемые посетители моего блога. Сегодня я хочу рассказать вам о 100% способе индексации ваших страниц в поисковой системе Яндекс. В одной из своих предыдущих статей про я описал несколько методов, с помощью которых страницы сайта индексируются очень хорошо, но описанные в статье методы, подходят преимущественно для новых страниц сайта. А что же делать в ситуации, когда с индекса по ряду определенных причин вылетели страницы, а загнать их обратно практически невозможно? И если, к примеру, сайт в системах продажи ссылок, то спрос на него будет все меньше и меньше. Для биржи это снижение процента индексации обзоров, соответственно и спроса на площадку, для биржи это занесение площадки в GBL Оптимизаторами. Это всего 2 примера, на самом деле, выпадение страниц из индекса это постоянная головная боль для Вебмастера. За все время, я перепробовал множество способов возврата страниц обратно в индекс, но ни один из них не приносил желаемого результата. Что, только я не пробовал – твиттер, аддурилка, простановка ссылок на выпавшие страницы, ничего не помогало.

И вот совсем недавно, я случайно наткнулся на одну тему, где в общих чертах было описано про Яндекс Поиск и как с его помощью можно возвращать в индекс выпавшие страницы. Сначала, я отнесся к этому способу скептически, но так как времени свободного в тот момент было достаточно, решил попробовать.

Индексация страниц с помощью Яндекс Поиск

Техническое название поиска – произвольное название

Название поиска для стандарта Opensearch – пример: поиск по site.ru (вместо site.ru урл вашего сайта)

Семейный фильтр – выбираем «Умеренный фильтр»

Область поиска – Жмем кнопку Добавить сайты и исключения и в блоке Сайты добавляем урл сайта, у которого есть проблемы с индексацией.

Адрес электронной почты – указываете, если хотите свой e-mail для уведомлений об изменении статуса поиска.

Жмем кнопку Далее к шагу 2. После чего шаг 3 и 4 пропускаем, просто жмем кнопку Далее к шагу 3 и Далее к шагу 4. На шаг 4. Проверка поиска – вводим в поле любое название статьи из вашего сайта для проверки корректности введенных вами данных ранее и жмем кнопку Найти.

Если в результатах поиска отобразится окно с упоминанием этой фразы по разным страницам вашего сайта, то все сделано верно, и можно продолжать.

Жмем кнопку Далее к шагу 5, и появится окно, в котором будет исходный код поиска от Яндекса, его устанавливать не нужно на сайт. Метод прекрасно работает без установки кода. Но если вы хотите установить именно этот вид поиска по сайту, то можете использовать его. Я лично не устанавливал.

Итак, с добавлением сайт в поиск мы разобрались, теперь давайте рассмотрим процедуру связки проблемного сайта с поиском от Яндекса. Для этого, перейдем по ссылке Мои поиски, и выберем интересующий нас сайт.

В левой колонке будет отображаться меню, с которого нам необходимо выбрать пункт Индексирование.

Выбираем версию нашего движка (мы рассмотрим для примера движок WP) и в форму указываем ip-адрес вашего сайта.

Если вы не знаете ip-адрес вашего сайта, тогда просто в командной строке (кнопка Пуск — Все программы — Стандартные — Командная строка) напишите ping http://vash-site.ru и нажмите кнопку Enter. В ответ вы получите ip-адрес нужного вам сайта. На ниже я показал, как это делается.

После добавления ip-адреса, скачивайте плагин и проводите его установку на движок. После чего активируйте его, перейдите в консоли блога по адресу Яндекс.ПДС и заполните необходимые поля.

Значения для этих полей вы получите после того как укажите ip-адрес вашего сайта. Просто копируем эти значения и вставляем в соответствующие поля в плагине.

Все с настройками мы закончили. Теперь перейдем к практическим действиям. Выберете на вашем сайте страницу, которая не в индексе Яндекса и проведите на ней незначительные изменения:

1) Добавьте пару слов к самой статье, выделите несколько слов тэгом strong, поставьте пару знаков пунктуации.

2) Измените дату публикации статьи. К примеру, если стоит 25.10.2013 то поставьте 27.10.2013

Эти действия необходимо проделать, чтобы Яндекс видел изменения на странице и вновь ее переиндексировал.

Жмем кнопку Обновить, переходим в консоли сайта по ссылке Яндекс.ПДС и если вы корректно заполнили поля в плагине ранее, то должна появится вот такая надпись: «Плагин работает корректно. Последний принятый адрес:» урл, над которым вы провели изменения.

Примерно через 1-2 часа, эти страницы должны быть в индексе Яндексе. Если этого не случилось, подождите еще некоторое время и проверьте снова. Если опять страниц нет в индексе, проведите процедуру изменения по странице еще раз и обновите ее.

Приведенный способ работает как для страниц, выпавших из индекса, так и для новых страниц которые только публикуются.

Сам принцип работы плагина состоит в том, чтобы уведомить Яндекс о новой странице – послать пинг. Соответственно, ваш сайт добавлен в поиск Яндекса, а поэтому он формирует этот самый поиск исходя из ваших страниц. Вот и весь секрет.

Если у вас тип движка не попадает в список, приведенный выше, не расстраивайтесь. После того как вы перешли по вкладке Индексирование, с правой стороны будет ссылка Указать URL вручную, жмете на нее и в форму копируете нужные вам урлы, после чего жмете кнопку Отправить.

Все сайты, для которых вы будете проводить такие действия с помощью плагинов или же вручную, должны быть добавлены в панель Вебмастера Яндекса и подтверждены там.

Вот такое небольшое пособие для тех, кто имеет проблемы с индексацией. Пользуйтесь этим методом, и таких проблем не должно больше возникать.

На этом у меня все друзья. Завтра еду на , с меня отчет. Всем пока!!!

Страницы сайта могут пропадать из результатов поиска Яндекса по нескольким причинам:

  • Ошибка при загрузке или обработке страницы роботом - если ответ сервера содержал HTTP-статус 3XX, 4XX или 5XX. Выявить ошибку поможет инструмент Проверка ответа сервера .
  • Индексирование страницы запрещено в файле robots.txt или с помощью метатега с директивой noindex .
  • Страница перенаправляет робота на другие страницы.
  • Страница дублирует содержание другой страницы .
  • Страница не является канонической .

Робот продолжает посещать исключенные из поиска страницы, а специальный алгоритм проверяет вероятность их показа в выдаче перед каждым обновлением поисковой базы. Таким образом, страница может появится в поиске в течение двух недель после того, как робот узнает о ее изменении.

Если вы устранили причину удаления страницы, отправьте страницу на переобход . Так вы сообщите роботу об изменениях.

Вопросы и ответы про исключенные из поиска страницы

На странице правильно заполнены метатеги Description, Keywords и элемент title, страница соответствует всем требованиям. Почему она не в поиске?

Алгоритм проверяет на страницах сайта не только наличие всех необходимых тегов, но и уникальность, полноту материала, его востребованность и актуальность, а также многие другие факторы. При этом метатегам стоит уделять внимание. Например, метатег Description и элемент title могут создаваться автоматически, повторять друг друга.

Если на сайте большое количество практически одинаковых товаров, которые отличаются только цветом, размером или конфигурацией, они тоже могут не попасть в поиск. В этот список можно также добавить страницы пагинации, подбора товара или сравнений, страницы-картинки, на которых совсем нет текстового контента.

Страницы, которые отображаются как исключенные, в браузере открываются нормально. Что это значит?

Это может происходить по нескольким причинам:

  • Заголовки, которые запрашивает робот у сервера, отличаются от заголовков, запрашиваемых браузером. Поэтому исключенные страницы могут открываться в браузере корректно.
  • Если страница исключена из поиска из-за ошибки при ее загрузке, она исчезнет из списка исключенных только в том случае, если при новом обращении робота станет доступна. Проверьте ответ сервера по интересеющему вас URL. Если ответ содержит HTTP-статус 200 OK, дождитесь нового посещения робота.

В списке «Исключенные страницы» показываются страницы, которых уже нет на сайте. Как их удалить?

В разделе Страницы в поиске , в списке Исключенные страницы , отображаются страницы, к которым робот обращался, но не проиндексировал (это могут быть уже несуществующие страницы, если ранее они были известны роботу).

Страница удаляется из списка исключенных, если:

  • она недоступна для робота в течение некоторого времени;
  • на нее не ссылаются другие страницы сайта и внешние источники.

Наличие и количество исключенных страниц в сервисе не должно влиять на положение сайта в результатах поиска.

Доброго дня, читатели . Я всегда получаю много вопросов от вебмастеров, владельцев сайтов и блогеров об ошибках и сообщениях, которые появляются в Яндекс.Вебмастер. Многих такие сообщения пугают.

Но, хочу сказать, не все сообщения бывают критичны для сайта. И в ближайших статьях я постараюсь максимально полно охватить все возможные вопросы, которые могут возникать у вебмастеров. В данной статье пойдет речь о разделах:

  1. Диагностика — Диагностика сайта
  2. Индексирование — Страницы в поиске

О том, и зачем он нужен, я писала ещё несколько назад. Если вы не знакомы с данным инструментом, ознакомьтесь сначала со статьей по ссылке.

Диагностика сайта

Возможные проблемы

1. В файле robots.txt не задана директива Host

Данное замечание Яндекс примечательно тем, что директива Host не является стандартизированной директивой, ее поддерживает только поисковая система Яндекс. Нужна она в том случае, если Яндекс неправильно определяет зеркало сайта.

Как правило, зеркало сайта определяется Яндексом автоматически на основе URL, которые формирует сама CMS, и на основе внешних ссылок, которые ведут на сайт. Чтобы указать главное зеркало сайта, не обязательно указывать это в файле robots.txt. Основной способ — использовать 301 редирект, который либо настроен автоматически в CMS, либо необходимый код вносится в файл.htachess.

Обращаю внимание, что указывать директиву в файле robots.txt нужно в тех случаях, когда Яндекс неправильно определяет главное зеркало сайта, и вы не можете повлиять на это никаким другим способом.

CMS, с которыми мне приходилось работать в последнее время, WordPress, Joomla, ModX, по умолчанию редиректят адрес с www на без, если в настройках системы указан адрес сайта без приставки. Уверена, все современные CMS обладают такой возможностью. Даже любимый мной Blogger правильно редиректит адрес блога, расположенного на собственном домене.

2. Отсутствуют мета-теги

Проблема не критичная, пугаться ее не нужно, но, если есть возможность, то лучше ее исправить, чем не обращать внимание. Если в вашей CMS по умолчанию не предусмотрено создание мета-тегов, то начните искать плагин, дополнение, расширение или как это называется в вашей CMS, чтобы иметь возможность вручную задавать описание страницы, либо, чтобы описание формировалось автоматически из первых слов статьи.

3. Нет используемых роботом файлов Sitemap

Конечно, лучше эту ошибку исправить. Но обратите внимание, что проблема может возникать и в тех случаях, когда файл sitemap.xml есть, так и в тех, когда его действительно нет. Если файл у вас есть, но Яндекс его не видит, просто перейдите в раздел Индексирование — Файлы Sitemap. И вручную добавьте файл в Яндекс.Вебмастер. Если такого файла у вас вообще нет, то в зависимости от используемой CMS, ищите варианты решения.

Файл sitemap.xml находится по адресу http://vash-domen.ru/sitemap.xml

4. Не найден файл robots.txt

Все же этот файл должен быть, и если у вас есть возможность его подключить, лучше это сделать. И обратите внимание на пункт с директивой Host.

Файл robots.txt находится по адресу http://vash-domen.ru/robots.txt

На этом фонтан ошибок на вкладке Диагностика сайта у меня иссяк.

Индексирование

Страницы в поиске

Начнем именно с этого пункта. Так будет легче структурировать информацию.

Выделяем в фильтре «Все страницы»
Опускаемся ниже, справа на странице «Скачать таблицу» Выбираем XLS и открываем файл в Excel.


Получаем список страниц, которые находятся в поиске, т.е. Яндекс о них знает, ранжирует, показывает пользователям.
Смотрим, сколько записей в таблице. У меня получилось 289 страниц.

А как понять, сколько должно быть? Каждый сайт уникален и только вы можете знать, сколько страниц вы опубликовали. Я покажу на примере своего блога на WordPress.
В блоге на момент написания статьи имеется:

  • Записи — 228
  • Страницы — 17
  • Рубрики — 4
  • Метки — 41
  • + главная страница сайта

В сумме имеем 290 страниц, которые должны быть в индексе. В сравнении с данными таблицы разница всего в 1 страницу. Смело можно считать это очень хорошим показателем. Но и радоваться рано. Бывает так, что математически все совпадает, а начинаешь анализировать, появляются нестыковки.

Есть два пути, чтобы найти ту одну страницу, которой нет в поиске. Рассмотрим оба.

Способ первый. В той же таблице, которую я скачала, я разделила поиск на несколько этапов. Сначала отобрала страницы Рубрик. У меня всего 4 рубрики. Для оптимизации работы пользуйтесь текстовыми фильтрами в Excel.


Затем Метки, исключила из поиска Страницы, в результате в таблице остались одни статьи. И тут, сколько бы статей не было, придется просмотреть каждую, чтобы найти ту, которой нет в индексе.

Обращаю внимание, что в каждой CMS своя структура. У каждого вебмастера свои SEO , canonical, файла robots.txt.

Опять же, если на примере WordPress, обратите внимание, какие разделы сайта у вас индексируются, а какие закрыты. Здесь могут быть и страницы Архива по месяцам и годам, страницы Автора, пейджинг страниц. У меня все эти разделы закрыты настройками мета тега robots. У вас может быть иначе, поэтому считайте все, что у вас не запрещено для индексации.

Если взять для примера Blogger, то владельцам блогов нужно считать только опубликованные Сообщения, Страницы и главную. Все остальные страницы архивов и тегов закрыты для индексации настройками.

Способ второй. Возвращаемся в Вебмастер, в фильтре выбираем «Исключенные страницы».

Теперь мы получили список страниц, которые исключены из поиска. Список может быть большой, намного больше, чем со страницами, включенными в поиск. Не нужно бояться, что что-то не так с сайтом.

При написании статьи я пыталась работать в интерфейсе Вебмастера, но не получила желаемого функционала, возможно, это временное явление. Поэтому, как и в предыдущем варианте, буду работать с табличными данными, скачать таблицу можно также внизу страницы.

Опять же, на примере своего блога на WordPress я рассмотрю типичные причины исключения.

В полученной таблице нам в первую очередь важна колонка D — «httpCode». Кто не знает, что такое ответы сервера, прочитайте в википедии . Так вам будет легче понять дальнейший материал.

Начнем с кода 200. Если вы можете попасть на какую-то страницу в интернете без авторизации, то такая страница будет со статусом 200. Все такие страницы могут быть исключены из поиска по следующим причинам:

  1. Запрещены мета тегом robots
  2. Запрещены к индексации в файле robots.txt
  3. Являются неканоническими, установлен мета тег canonical

Вы, как владелец сайта, должны знать, какие страницы какие настройки имеют. Поэтому разобраться в списке исключенных страниц должно быть не сложно.

Настраиваем фильтры, выбираем в колонке D — 200

Теперь нас интересует колонка E — «status», сортируем.

Статус BAD_QUALITY — Недостаточно качественная. Самый неприятный из всех статус. Давайте разберем его.

У меня в таблице оказалось всего 8 URL со статусом Недостаточно качественная. Я их пронумеровала в правой колонке.

URL 1, 5, 7 — Страницы фида, 2,3,4,5,8 — служебные страницы в директории сайта wp-json. Все эти страницы не являются HTML документами и в принципе не должны быть в этом списке.

Поэтому внимательно просмотрите свой список страниц и выделите только HTML страницы.

Статус META_NO_INDEX. Из индекса исключены страницы пейджинга, страница автора, из-за настроек мета тега robots

Но есть в этом списке страница, которой не должно быть. Я выделила url голубым цветом.

Статус NOT_CANONICAL. Название говорит само за себя. Неканоническая страница. На любую страницу сайта можно установить мета тег canonical, в котором указать канонический URL.




Top