

Почему сайт не индексируется Google: ТОП-7 причин отсутствия вашего ресурса в поисковике
В практике SEO-специалистов нередко бывают ситуации, когда работа над сайтом ведется полным ходом: добавляется уникальный качественный контент, расширяется структура, появляются новые полезные разделы, статьи блога, а количество страниц в индексе никак не увеличивается. Что еще хуже — они начинают выпадать оттуда или вовсе индексация веб-сайта отсутствует, и он не появляется в результатах поиска, невидим для поисковика и не получает органический трафик.
Повторные проверки, как показывает опыт, ни к чему не приводят. Единственный рациональный выход из данной ситуации — поиск причины, почему сайт не индексируется в Гугле. Не будем тянуть время, и приступим к решению вашей проблемы “не отходя от кассы”.
В статье вы узнаете:
- Что такое ранжирование, индексирование сайта и краулинг
- Как проверить наличие и количество страниц в индексе Гугла
- Оптимизируйте файлы robots.txt, sitemap.xml и .htaccess
- Просмотрите теги meta name "robots" и rel=”canonical”
- Проверьте скорость и правильность ответов сервера
- Убедитесь, что web-страница уникальна, полезна, не “сирота”, не дубль
- Исключите фактор влияния поисковика: фильтр, технические проблемы
- Проверьте доменное имя: молодой сайт либо домен с историей
- Проанализируйте ссылки, как внешние, так и внутренние
Что такое ранжирование, индексирование сайта и краулинг?
Для начала разберемся в базовой терминологии и поймем принцип работы поисковика. Поисковый бот Google как паук пробирается по Всемирной паутине, находит и добавляет в базу новые веб-страницы. После ввода запроса пользователем поисковик сортирует ресурсы так, чтобы в ТОПе оказались те, содержание которых максимально соответствует вводимой поисковой фразе.
Теперь по терминам:
- Индексирование — добавление и сохранение новых страниц в базу данных.
- Краулинг — процесс обхода гиперссылок с целью поиска нового контента.
- Ранжирование — распределение страниц по релевантности ключевому запросу.
Проводя аналогию, можно сказать, что индексирование — это регистрация в турнире, а ранжирование — присвоение призовых мест. Согласитесь, без регистрации участие и победа не возможны.
Как проверить наличие и количество страниц в индексе Гугла?
При наличии доступа к сервису Search Console, проверяйте индексирование сайта в Гугл там. В разделе “Покрытие” содержится вся необходимая информация, отображающая количество онлайн-страниц в индексе, в том числе с ошибками и предупреждениями.
Якщо в перших трьох полях ви бачите числа, відмінні від нуля, – індексація сайту в Гугл присутня, і хоча б частина контенту є в базі даних. Наявність певної кількості сторінок в графі “Виключених” не є чимось критичним. Однак, якщо у вас всюди 0, а в останньому полі значення не дорівнює нулю, є проблеми зі сприйняттям ресурсу пошукачем. Значить, пора шукати причину, чому
Гугл не індексує сайт, та усувати її.
Помимо общего количества интернет-страниц в индексе, сервис Search Console позволяет проверить индекс любой отдельно взятой. В зависимости от ее состояния вы увидите соответствующее уведомление.
Например, тут все в порядке
А здесь индексирование не выполнено
Лучшего способа, как проверить количество страниц в индексе Google, пожалуй, нет. Когда судьба web-ресурса вам не безразлична, а поисковый трафик представляет интерес, рекомендуем зарегистрироваться в Search Console — это необходимо и делается бесплатно.
Второй вариант все же есть, и он для тех, у кого нет доступа к консоли, — использование оператора site: перед url поможет выяснить, есть ли интернет-ресурс в индексе и в каком объеме он там присутствует. Как проверить страницы в индексе Гугл таким способом?
Допустим, вводим site: перед нашим url-ом
Видим приблизительное количество интернет-страниц в индексе поисковика. По такому же принципу можно проверить отдельный page. Например:
Сайт не индексируется Google: как “скормить” его поисковику
Если вы обнаружили, что Гугл не индексирует сайт или отдельную web-page, рекомендуем действовать по следующему алгоритму:
- Откройте панель вебмастера Search Console;
- Зайдите в раздел проверки урлов;
- Вставьте в поисковую строку ссылку, которую вы желаете проверить;
- Запросите проверку и дождитесь результата;
- Если урла нет в базе Гугл, кликните по параметру “Запросить индексирование”.
Увы, если в индексе отсутствует несколько сотен или тысяч целевых страниц вашего онлайн-ресурса, данный метод перебора окажется не особо эффективным и слишком затратным по времени. Плохая индексация сайта в Google указывает на глубинные проблемы, для решения которых одними запросами не обойтись. Но и забывать о них не следует. Запросы через Search Console полезны, когда вы размещаете новые материалы, расширяете структуру, обновляете контент. С их помощью вы сообщаете поисковику о том, что web-сайт обновился, и боту следует обратить внимание на это.
Например, моделируем ситуацию. Молодой web-сайт после разработки был выпущен в индекс в начале февраля этого года. Понятно, что Гугл к новым инет-ресурсам относится с подозрением и не спешит награждать их хорошим ранжированием. По истечении пары месяцев работы оказалось, что некоторые карточки товаров, причем с оптимизированным контентом и мета данными, отсутствуют в выдаче просто потому, что бот посетил их однажды, например, 31 января, увидел noindex в мета теге robots, и в течение двух месяцев больше туда не заходил.
В данной ситуации причина, вероятно, кроется в том, что после обновления и оптимизации карточки товара забыли отправить запрос через консоль веб-мастера и уведомить Гугл о том, что контент обновился.
Каковы причины отсутствия сайта в индексе и что сделать для их устранения
Касаемо вариантов, почему Гугл не индексирует сайт в целом, нужно тщательно изучать каждый отдельный случай, и отыскать источник этого явления как можно скорее. В нашей новой статье мы рассмотрим ТОП-7 наиболее частых причин отсутствия web-платформ в базе поисковика, и опишем методы их устранения.
Оптимизируйте файлы robots.txt, sitemap.xml и .htaccess
Одной из распространенных ошибок веб-мастеров является неправильно составленный robots. Наличие в нем блокирующих директив Disallow может препятствовать обработке ботом всего ресурса или отдельных его инет-страниц. Тут важно помнить, что у каждого web-сайта есть страницы, которые нужно закрывать от индексации. К таковым относятся технические, результатов поиска, get-параметров, логина, админа, корзины покупок, “мусорные” и т.п.
Если в роботсе указано:
- User-agent: *
- Disallow:
Значит, интернет-ресурс полностью закрыт для поисковиков. В Search Console в категории “Покрытие” можно увидеть все урлы, заблокированные в robots. Чаще всего это происходит с новыми web-сайтами, когда разработчики сохранили тестовые версии на поддомене и закрыли их от индексации. При переносе обновить роботс часто забывают, и готовый ресурс остается недоступным для ботов.
Для сайтов на WordPress еще нужно не забывать снять “галочку” запрета видимости для поисковика в разделе Настройки → Чтение.
Доступ к файлу роботс открывается по ссылке https://sitenametest.ua/robots.txt. Проверить его можно инструментами панели вебмастера, онлайн сервисами, например, этим, с помощью программ-парсеров — Screaming Frog либо Netpeak Spider. Решается проблема запрета индекса легко — достаточно удалить блокирующие условия и отправить запрос на обновление robots.txt.
Файл sitemap.xml нужен для взаимодействия вашего онлайн-ресурса с поисковиком. Он сообщает ему о важных страницах и рекомендуемой частоте повторного сканирования. Конечно, поисковый бот способен обойти web-сайт и без карты sitemap.xml, но ее наличие считается хорошей практикой и упрощает работу Гугла, Яндекса, Бинга и прочих поисковых систем. Проверить карту онлайн-ресурса можно через панель вебмастера либо по ссылке https://sitenametest.com/sitemap.xml. В Search Console можно заодно и запросить переобход поисковиком в разделе “Файлы Sitemap”.
Так вы сможете проиндексировать сайт в Гугл быстрее. Карта sitemap.xml чаще всего создается плагином с поддержкой автообновления, чтобы все новые публикации сразу же добавлялись в нее. Если у web-ресурса sitemap отсутствует, это может негативно сказаться на индексации, поэтому рекомендуем добавить его на хостинг.
Файл .htaccess предназначается для сервера и содержит правила его работы. Обычно он размещается в корне:
- сервера — /public_html
- онлайн-сайта — /public_html/sitenametest.ua/
Посредством правил, содержащихся в .htaccess, можно закрыть индексирование, запрещая:
order allow, deny
deny from all
allow from IP
или разрешая:
order allow, deny
deny from UndesiredIP
allow from all
доступ всем пользователям, кроме определенного IP.
Рекомендуем проанализировать .htaccess, быть может, в нем окажутся запрещающие индекс правила.
Просмотрите теги meta name "robots" и rel=”canonical”
Сайт не индексируется в Гугле? Проблема может крыться в неправильных тегах роботс или неверном указании канонических веб-страниц. Если в хедере вы вдруг обнаружите meta name=“robots” content=“noindex, nofollow” — значит, ресурс закрыт, и поисковик лишен возможности сканирования. Выполнить проверку тега роботс можно в панели вебмастера в категории “Покрытие” или посредством программ-парсеров, например, Screaming Frog.
Решение простое и вполне логичное — удалить мета теги noindex, nofollow там, где они не нужны. Если результата нет, рекомендуем заглянуть на сервер, и проверить HTTP-ответы тега X‑Robots.
Если вы обнаружите там такую директиву
HTTP / 1.1 200 OK
Date: Tue, 25 May 2021 23:31:10 GMT
X-Robots-Tag: noindex
значит, ресурс закрыт и не индексируется.
Следовательно, урлы, которым необходимо попасть в индекс, не должны возвращать HTTP-ответ “noindex”. В Apache данная директива добавляется через .htaccess. На Nginx — в conf. HTTP-ответы проверяются также, как и теги роботс — через панель вебмастера в отчете проверки url или же парсерами.
Атрибут rel=”canonical” является еще одним аспектом, влияющим на индексацию ресурса. Обычно используется автореферентный каноникал, сообщающий поисковикам о том, что веб-страница — основная, т.н. каноническая, и представлена в единственном варианте. Тег link rel="canonical" задействуется при SEO продвижении сайта в поисковых системах с целью устранения дублей контента. Так вот, в некоторых случаях он может препятствовать индексации, а именно, когда для проверяемого url в качестве канонической выбрана иная, либо несуществующая страница. В таком случае будет статус Canonicalised, Non-Indexable.
Следовательно, избежать некачественной индексации поможет грамотное использование атрибута ”canonical”. Проверьте наличие и корректность каноничности для найденных неиндексируемых страниц, и если хотите “скормить” их поисковому боту, настройте тег правильно.
Проверьте скорость и правильность ответов сервера
Гугл или Яндекс не индексирует сайт, хотя предыдущие причины проверены и устранены? Проверьте скорость отрисовки контента. Бывает, такие страницы не попадают в базу данных поисковой системы из-за медленной загрузки. Причина этого может крыться в слабой оптимизации кода или нестабильном хостинге. Боты попросту не могут получить ответ на свой запрос, и покидают веб-страницу еще до загрузки основного контента. Что делать в таком случае? Стремиться сократить время ответа сервера до первого байта TTFB до 200 мс. В целом, чем меньше, тем лучше. Главное, — не более 500 мс. TTFB свыше 500 мс является проблемой.
Для проверки скорости существует множество сервисов, выбирайте наиболее удобный для вас:
- web site optimization,
- pingdom tools,
- loading.express,
- dotcom-tools,
- sitespeed,
- webmaster.yandex,
- gtmetrix,
- webpagetest,
- pagespeed insights.
Среди причин замедленного ответа сервера чаще всего наблюдаются следующие:
- Не настроена скорость загрузки интернет-сайта, картинки не сжаты, блокирующие ресурсы не устранены, файлы и скрипты CSS/JS не минимизированы.
- Не оптимизирован функционал сервера, не настроены базы данных.
- Отсутствует кеширование.
- Слабая мощность сервера, мало памяти, низкая производительность процессора, некачественный хостинг.
Что касается серверного ответа, то все инет-страницы в доступном состоянии должны иметь код 200. Если наблюдаются проблемы, — появляются ошибки 5хх. Проверяются коды ответа парсерами, например, Screaming Frog, сторонними online-сервисами — httpstatus.io и др., через панель вебмастера, с помощью браузера — комбинация F12 + вкладка Network.
Убедитесь, что web-страница уникальна, полезна, не “сирота”, не дубль
Когда технические проблемы индексации не найдены, возможно, проблема кроется в недостаточной уникальности, ценности, полезности содержимого. Дело в том, что Google предпочитает демонстрировать качественный контент, максимально релевантный ключевым запросам пользователей и соответствующий принципам E-A-T. Рекомендуем убедиться в том, что проверяемая онлайн-страница несет ценность для посетителей онлайн-ресурса. Если пользы нет, обновите контент, добавьте свежести, экспертности, повысьте уникальность содержимого, органично распределите ключевые запросы по тексту.
Как правило, бесполезной является любая web-page, на которой размещен:
- текст, сгенерированный автоматически;
- дублирующийся контент;
- копипаст;
- контент, заспамленный исходящими url;
- текст, не имеющий смысловой нагрузки, обильно снабженный ключевыми словами.
Также к некачественным веб-страницам относятся дорвеи, используемые для продвижения методом черного SEO.
Касаемо страниц-сирот, их особенностью является отсутствие каких-либо входящих ссылок, как в пределах вашего интернет-ресурса, так и с посторонних веб-платформ. Поскольку боты поисковой системы ищут новый контент, переходя поочередно между страницами, они, собственно, как и пользователи, не могут найти страницы-сироты. Проверить наличие “сирот”, как и дублей, можно парсерами. Только в первом случае нужно будет количество всех просканированных страниц сравнить со списком урлов, выгруженных через CMS. Страницы, не найденные при парсинге, и окажутся искомыми “сиротами”.
Исключите фактор влияния поисковика: фильтр, технические проблемы
При неправильной стратегии продвижения интернет-ресурс может попасть в бан, получив санкции со стороны поисковика. В таком случае Google не индексирует сайт, и это одна из причин его отсутствия в органической выдаче. Поисковики, как правило, блокируют онлайн ресурсы в трех случаях:
- заспамленность ключевыми фразами,
- бесполезный контент или дорвей,
- низкокачественные бэклинки.
Проверить наличие санкций можно в Search Console в меню “Проблемы безопасности и принятые вручную меры”. Если фильтра нет, причиной слабой индексации контента могут быть технические проблемы на стороне поисковой системы. Например, в мае 2020 года случился сбой, повлекший за собой проблемы индексирования нового контента. Обычно такие ситуации оперативно выявляются и устраняются техподдержкой поисковика.
Проверьте доменное имя: молодой сайт либо домен с историей
Как известно, новые онлайн-ресурсы, созданные менее чем полгода назад, не особо известны поисковикам, и без добавления в индекс через панель вебмастера боты будут долго находить их. Чем быстрее вы уведомите Google о вашем web-ресурсе и отправите его на переобход, тем скорее они появятся в поисковой выдаче.
Второй вариант — использование домена с историей. Покупка дроп-доменов вообще дело рискованное. Если предыдущий владелец доменного имени успел “наследить”, и получить санкции, загнав ресурс под фильтры поисковика, вам придется пожинать плоды его стараний. При этом новый онлайн-сайт будет плохо индексироваться. Покупая старый домен важно тщательно проверять его, изучая историю и ресурсы, ранее расположенные там.
Проанализируйте ссылки, как внешние, так и внутренние
Ссылочная масса — один из ключевых факторов ранжирования, сообщающий поисковому боту о том, что web-ресурс популярен, и на него ссылаются другие веб-платформы. Да, в индексе присутствует множество страниц без обратных ссылок, но поисковик все же отдает предпочтение ресурсам с хорошей ссылочной массой. В результате быстрее индексируются страницы с качественными обратными ссылками.
Что касается внутренней перелинковки, рекомендуется избегать использования атрибута rel=“nofollow” для урлов внутри веб-сайта. Во-первых, Гугл не переходит по таким ссылкам. Во-вторых, данный атрибут препятствует передаче PageRank целевому url. Как результат, страница с nofollow-ссылкой сможет попасть в базу поисковика только если на нее ведет урл со стороннего ресурса, не отмеченный данным атрибутом.
Чтобы избежать проблем, нужно грамотно настраивать перелинковку, размещая несколько ссылок на целевую страницу. Допустим, в статьях блога о разработке интернет-ресурсов, размещать ссылку на страницу услуги, увеличивая ее внутренний вес. В свою очередь, rel=“nofollow” рекомендуется добавлять к исходящим ссылкам, например, на соцсети, чтобы не передавать им вес своего онлайн-сайта.
Подытоживая сказанное
Да, что-то мы разогнались… получился в итоге реальный лонгрид, информирующий о том, как проверить, есть ли страница в индексе Google, и сообщающий о возможных причинах отсутствия индексации. Вместо резюме предлагаем чек-лист, что нужно проверить на сайте, если у него плохая индексация:
- файлы robots.txt, sitemap.xml и .htaccess;
- теги meta name "robots" и rel=”canonical”;
- скорость и ответ сервера;
- контент: уникальность, полезность, экспертность;
- фильтр и технические проблемы со стороны поисковика;
- качество домена;
- ссылки: внешние и внутренние.
Если у вас нет времени на проверку, либо какие-то аспекты вызывают у вас трудности, вы можете в любой момент обратиться в наше digital-агентство, и заказать комплексный аудит с акцентом на поиск проблем индексирования сайта.