Back Вы здесь: Home Seo - WTF ? Учимся нравиться Яндексу и Google Cниппет, алгоритм обратного поиска, индексация страниц и особенности работы Яндекса

Cниппет, алгоритм обратного поиска, индексация страниц и особенности работы Яндекса

Добрый день, дорогие читатели блога joomla-s. ru. Занимаясь seo, а также, по-другому говоря, поисковой раскруткой сайта, как на профессиональном уровне (продвигая за деньги коммерческие проекты), так и на любительском уровне (самостоятельная продвижение сайта, т. Е набор мероприятий для повышения позиций сайта в результатах поиска описанная мною тут), вы конечно-же столкнетесь с тем, что надо знать принципы работы поисковых систем в Российской Федерации и интернете в общем что-бы благополучно улучшить под них свой или же чужой интернет сайт. 

Врага, как говорится, нужно знать в лицо, но, как и ожидалось, они (для русского интернета это поисковая система яндекс и лидер мирового поиска гугл. Ru, про которого мы говорили тут) для нас совершенно не враги,, а скорее партнеры, так как их доля трафика считается в основном превалирующей и основной. Существует, как и ожидалось, исключения, но они всего навсего подтверждают данное правило. 

 

Что это сниппет и принципы работы поисковых систем 

но тут сперва потребуется разобраться,, а что это сниппет, для чего он необходим и по какой причине его содержимое таким образом важно для seo-специалиста? В поисковой выдаче находится моментально под ссылкой на найденный документ (материал которой берется из метатега tITle, о необходимости которого я тут уже писал): 

в роли сниппета работают в основном обломки текста из данного документа. Безупречный вариант создан что-бы предоставить юзеру возможность написать мнение о содержимом странички не переходя на нее (но это, в случае если он начал работать удачным,, а это далеко не во всех случаях таким образом). 

Сниппет создается в, автоматическом режиме и какие-именно фрагменты текста используются там решает, алгоритм, и что важно, для различных запросов у одной и той же вебстраницы скорее всего будут разнообразные сниппеты. 

Но существует возможность, что содержимое тега Description бывает применено (в особенности в Гугл плюс) в роли сниппета. Как и ожидалось, это еще зависит и от того поискового запроса, в выдаче которого он показывается. 

Но содержимое тега Description может выводиться, к примеру, при совпадении ключей запроса и слов, употребленных вами в дескрипшине, а также если алгоритм сам еще не нашел на вашем интернет портале фрагменты текста всем запросов, по которым ваша страница попадает в выдачу поисковой системы yandex , а также google. 

Поэтому не ленимся и заполняем содержимое тега Description для каждой по отдельности тексты. В вордпресс это делается, если вы применяете описанный тут плагин all in one seo Pack (а его применять я вам настойчиво советую). 

Если вы поклонник Джумлы, то имеете возможность это использовать материалом — установка настроек мета-данных в Joomla (мета-теги Description, keywords, tITle и robots). 

Но сниппет не получить из обратного индекса, т. К. там хранится информация исключительно об использованных на страничке словах и их положении в тексте. Вот для создания сниппетов одного документа в различных поисковых выдачах (по разного рода запросам) наши любимые поисковик яндекс , а также google, помимо обратного индекса (необходимого на прямую для ведения поиска — о нем можете прочитать ниже), сохраняют и прямой индекс, другими словами копию странички. 

Сохраняя копию документа у себя в базе им сразу после этого очень и очень комфортно нарезать из них необходимые сниппеты, не обращаясь и к оригиналу. 

Т. О. Выходит так, что поисковые машины хранят в собственной базе и прямой, и противоположный индекс веб- странички. Да, на формирование сниппетов возможно косвенно влиять, настраивая материал веб- станицы так, чтобы, алгоритм выбирал в роли оного в точности того типа фрагмент текста, который вы задумали. Но про это проведем беседу в иной статье рубрики продвижение сайтов в поисковых системах (seo и smo) 
как работают поисковые сервисы поверхностно идея оптимизации заключается в том, чтобы " оказать необходимую помощь ", алгоритмам поисковых систем поднять странички тех сайтов, которые вы продвигаете, на максимально высокую позицию в выдаче по тем или же другим запросам. 

Слово " оказать необходимую помощь " в последнем предложении я взял в кавычки т. К. Собственными оптимизаторскими действия мы не полностью помогаем,, а очень часто совсем мешаем, алгоритму выполнить совершенно релевантную указанному запросу выдачу (о непонятных словах релевантность, показ результатов поиска и других можно почитать тут). 

Но это хлеб seo специалистов и на сегодня, алгоритмы поиска не станут идеальными скорее всего будут существовать перспективы из-за внутренней и внешней оптимизации улучшить их позиции в выдаче поисковой системы yandex и гугл. 

Но до того, как переходить к изучению способов оптимизации потребуется как минимум поверхностно разобраться в принципах работы поисковых систем, чтобы все будущие действия выполнять осознано и осознавая для чего это требуется и как на это отреагируют те, кого мы пытаемся чуток надурить. 

Понятно, что понять всю логику их работы от и до у нас скорее всего не выйдет, так как многая информация не подлежит разглашению, но нам, в начале, вполне хватит и понимания основных принципов. Начинаем. 

Как работают поисковые сервисы? Удивительно, но логика работы у них всех, в общем, одинаковая и сводится к следующем: в последнее время планирует информация обо всех вебстраницах в интернете, до которых они вполне могут дотянуться, сразу после чего данные информационные пакеты хитроумным образом обрабатываются что-бы по ним комфортно могло бы быть искать. Вот, интересно заметить, что, и все, на этом текст можно считать завершенной, но добавим немножко конкретики.

Для начала, уточним, что документом зовут что мы практически всегда говорим страницей интернет сайта. Так же он должен иметь свой новейший, адрес (url, о котором мы с вами общались тут) и что важно отметить, хеш-ссылки не будут приводить к появлению совершенно нового документа (, что такое хеш-ссылки читайте тут). 

Кроме этого, стоит остановиться на, алгоритмах (методиках) поиска данных в собранной базе бумаг. 

Алгоритмы прямых и обратных индексов 

не вызывает сомнений, что способ обычного перебора всех страниц, хранящихся в базе этих, не планирует являться самым лучшим. Этот способ называется, алгоритмом прямого поиска и в то время, как этот способ дает возможность скорее всего обнаружить необходимую информацию не пропустив совершенно ничего важного, он не подходит для работы с немалыми объемами этих, так как поиск займет очень уж время. 

По этой прчине, для эффективной работы с немалыми объемами этих специально создан, алгоритм обратных (инвертированных) индексов. И, что важно отметить, он применяется всеми большими пс во всем мире. По этой причине на нем мы сделаем паузу и посмотрим на принципы его работы. 

Во время использования, алгоритма обратных индексов случается преобразование бумаг в текстовые файлы, которые содержат список всех имеющихся там слов. 

Слова в таких списках (индекс-файлах) находятся по, алфавиту и в непосредственной близости с каждым из них указаны по типу координат те места в вебстранице, где это слово встречается. Помимо позиции в документе для любого слова приводятся другие параметры, определяющие его значение. 

Если вы вспомните, то в некоторых книжках (часто технических, а также научных) на последних страницах приводится список слов, которые используются в этой книжке, с указанием номеров страниц, где их можно встретить. Как и ожидалось, этот список не включает вовсе всех слов, которые используются в книжке, однако вполне может служить хорошим примером построения индекс-файла при помощи инвертированных индексов. 

Обращаю ваше внимание, что поисковые машины ведут поиск информацию не в сети интернет, а в обратных индексах обработанных ими вебстраниц сети. Не смотря на то, что прямые индексы (необычный материал) они также сохраняют, т. К. он в дальнейшем будет необходимо для составления сниппетов, но про это мы говорили в самом начале данной публикации. 

Алгоритм обратных индексов применяется всеми системами т. К. он дает возможность ускорить процесс, но будут неизбежные потери данных из-за искажений внесенных преобразованием документа в индекс-файл. Для комфорта хранения файлы обратных индексов практически всегда хитроумным методом сжимаются.

Математическая модель применяемая для ранжирования что-бы осуществлять поиск по обратным индексам, применяется математическая модель, которая позволяет упростить процесс нахождения необходимых вебстраниц (по введенному пользователем введенному запросу) и процесс определения релевантности всех найденных бумаг этому поисковому запросу. Чем больше он в полной мере отвечает этому указанному запросу (чем он релевантнее), тем выше он обязан стоять в результатах поиска. 

Значит главная цель, выполняемая математической моделью — это поиск страниц в собственной базе обратных индексов необходимых этому поисковому запросу и их последующая сортировка в порядке убывания релевантности этому введенному запросу. 

Использование обычный логической модели когда документ будет являться найденным, в случае если там встречается эта фраза, нам не сгодится, в силу гигантского количества такого типа вебстраниц, выдаваемых на рассмотрение юзеру. 

Поисковик и одноименная компания просто обязана не только предоставить список всех страничек, где можно встретить слова из запроса. Она обязана предоставить этот список в этой форме, когда в самом начале будут быть более необходимые поисковому запросу пользователя официальные бумаги (воплотить в жизнь сортировку по релевантности). Данная цель не тривиальна и при стандартных настройках быть не может выполнена прекрасно. 

Кстати неидеальностью всякий математической модели и используют seo специалисты, влияя теми или же другими методами на показ результатов поиска бумаг в выдаче (в пользу продвигаемого ими интернет сайта, очень важно подчеркнуть что). Матмодель, применяемая всеми поисковыми системами относится к классу векторных. В ней применяется такой термин, как вес документа относительно к заданному пользователем введенному запросу. 

В базовой векторной модели вес документа по заданному поисковому запросу высчитывается отталкиваясь от двух главных настроек: частоты, с которой там встречается данное слово (tf — term frequency) и тем, насколько в малом количестве это слово встречается в многих прочих страницах коллекции (idf — inverse document frequency). 

Под коллекцией говорят про вся совмещение страниц, знаменитых поисковику. Умножив эти два параметра один на другого, мы получим вес документа по заданному введенному запросу. 

Конечно же, что разного рода поисковые машины, помимо настроек tf и idf, берут достаточно много разных коэффициентов для подсчета веса, но идея остается прежней: вес странички будет тем больше, чем чаще слово из поискового запроса встречается в ней (до особых пределов, за которыми документ вполне может быть признан спамом, незаконной массовой рассылкой объявлений рекламного характера) и чем реже встречается это слово в других бумагах проиндексированных данной системой.

Оценка качества работы, алгоритма, т. Е программы которая управляет выдачей поисковика, асессорами так выходит так, что формирование выдач по тем, а также другим запросам проводится совершенно по формуле без участия человека. Но никакая, алгоритм, т. Е программы которая управляет выдачей поисковика, не заработает прекрасно, в особенности в начале, по этой причине требуется осуществлять, анализ и контроль за работой математической модели. 

Для этого работают целенаправленно обученные люди —, асессоры, просматривающие выдачу (четко той поисковика, которая их наняла) по разным запросам и оценивают уровень качества работы текущей, алгоритма, т. Е программы которая управляет выдачей поисковика,. 

Все внесенные ими замечания берутся в расчет людьми отвечающими за установку настроек матмодели. В ее формулу делаются изменения , а также дополнения, поэтому уровень качества работы поискового робота увеличивается. Выходит так, что, асессоры играют роль данный специфичной обратной связи меж сотрудниками отдела разработок, алгоритма и его юзерами которая требуется для развития качества. 

Основными параметрами в оценке качества работы, алгоритма, т. Е программы которая управляет выдачей поисковика, считаются: 
точность выдачи поисковика — процент релевантных бумаг (необходимых указанному запросу). Чем меньше не имеющих прямое отношение к теме запроса вебстраниц (к примеру, дорвеев) будет, лучше Полнота поисковой выдачи — процентное отношение необходимых заданному поисковому запросу (релевантных) вебстраниц к общему числу релевантных бумаг, имеющихся во всей коллекции. Другими словами удается таким образом, что во всей базе бумаг, которые знамениты поиску вебстраниц необходимых заданному поисковому запросу будет больше, чем показано в результатах поиска. Тут можно говорить о неполноте выдаче. Наверно, часть релевантных страниц угодила под фильтр и была, к примеру, принята за дорвеи и еще какой-то шлак. 
Актуальность выдачи — уровень соответствия настоящей вебстраницы на интернет портале в сети интернет тому, что о нем написано в поисковой выдаче. К примеру, документ может уже не существовать, а также находиться очень измененным, но также в выдаче по заданному поисковому запросу он будет, даже несмотря на его физическое неимение по указанному, адресу и на его текущее не соответствие этому введенному запросу. Важность выдачи во многом зависит от частоты сканирования роботами поисковика бумаг из собственной коллекции. 
Как поисковая система яндекс , а также google собирают собственную коллекцию 

даже несмотря на кажущуюся простоту индексации страничек тут существует много но, которые необходимо знать,, а в дальнейшем и применять при оптимизации (seo) своих и заказных сайтов. Индексация сети (сбор коллекции) проводится целенаправленно созданной специально для этого системой, называемой роботом поисковой системы (ботом). 

Робот получает стартовый список, адресов, которые он будет вынужден посетить, скопировать содержимое данных страниц и отдать это содержимое на дальнейшую переработку, алгоритму (он переводит их в обратные индексы). 

Робот может ходить не только по заблаговременно этому ему списку, но и переходить по ссылкам с данных страниц и проводить, анализ страниц и вносить в индекс которые находятся по этим ссылкам официальные бумаги. Т. О. Робот ведет себя сто процентов как и простой юзер, переходящий по ссылкам. 

Поэтому выходит так, что при помощи робота можно проиндексировать то, что предложено для тестирования практически всегда юзеру, использующему браузер (программа для выхода в интернет) для серфинга (поисковые машины достаточно быстро и успешно индексируют официальные бумаги прямой видимости которые вполне может увидеть всякий пользователь сети). 

Есть ряд особенностей, которые связаны с индексацией бумаг в интернете (у примеру, мы обсуждали тут запрет индексации через robots txt). 

Первой уникальностью можно считать то, что помимо обратного индекса, создающийся из оригинального документа скачанного из сети поисковик и одноименная компания сохраняет и его копию, по-другому говоря, поисковые машины хранят и прямой индекс. Для чего это требуется? Я уже упоминал немного раньше, что это необходимо для составления разных сниппетов зависимо от который был введен запроса. 

Сколько страниц одного интернет сайта поисковик яндекс показывает в выдаче и достаточно быстро и успешно индексирует Обращаю ваше внимание на такую отличительная черта работы поисковой системы yandex, как присутствие в выдаче по заданному указанному запросу всего навсего одного документа с каждого интернет сайта. Такого, для того что-бы в выдаче были на различных позициях 2 странички с одного проекта, находиться не могло до недавних пор. 

Это было среди основных правил поисковой системы yandex. Даже если на одном интернет портале найдется 100 релевантных заданному указанному запросу страниц, в выдаче будет один (самый релевантный). 

Яндекс заинтересован в том, чтобы юзер получал разнообразную информацию,, а совсем не пролистывал пару страниц поисковой выдачи со страницами одного интернет сайта, который этому юзеру стал не интересен по тем, а также другим причинам. 

Однако, спешу пополнеть, так как когда дописал данный материал впервые узнал известие, что оказывается яндекс начал допускать отображение в выдаче 2 документа с того же проекта, в роли исключения, в случае если данная страница попадет " достаточно хороша и уместна" (по-другому говоря очень релевантна поисковому запросу). 

Что важно отметить, такого типа новые итоги с похожего интернет сайта также нумеруются, значит, по этой причине из топа выпадут многие ресурсы, занимающие немногим более низкие позиции. Вот хороший пример новой выдачи поисковой системы yandex: 


поисковики всеми силами пробуют ровным слоем проводить, анализ страниц и вносить в индекс многие вебсайты, но очень часто это может быть не просто из-за практически разного количества страниц на них (у кого-то 10, а у кого-то 10 млн). Что делать тут? 

Яндекс выходит из данного положения ограничением количества бумаг, которое он сможет загнать в индекс с одного интернет сайта. 

Для проектов с доменом 2 уровня, к примеру, joomla-s. ru, очень много страниц, которое вполне может быть проиндексировано зеркалом русскоязычной части интернета (так называемом рунета), располагается в границах от ста до 150 тыс. (Конкретное число во многом зависит от отношения к этому проекту). 

Для ресурсов с доменом 3 уровня — от 10 до 30 тыс. Страниц (бумаг).

 

Ежели у вас интернет сайт с доменным именем 2 уровня (дополнительной информации или данные про доменные имена ищите тут),, а вам потребуется загнать в индекс, к примеру, 1 млн вебстраниц, то единственным выходом из данной ситуации будет разработка большого числа поддоменов (разработка поддоменов (субдоменов)). 

Поддомены для доменного имени 2 уровня имеют возможность смотреться таким образом: joomla-s. ru. Число поддоменов для 2 уровня, которое может проиндексировать поисковик яндекс, составляет где-то более 200 ( время от времени казалось и до тыс.), из-за этого этим нехитрым методом можно будет загнать в индекс зеркала русскоязычной части интернета (так называемом рунета) пару млн вебстраниц. 

Как поисковая система яндекс относится к сайтам в не русских доменных зонах из-за того, что поисковик яндекс до недавних пор искал исключительно по русскоязычной части сети интернет, то и проводил, анализ страниц и вносил в индекс он во многих случаях жители России и стран СНГ проекты. 

Поэтому, если вы создаете интернет сайт не в доменных зонах, которые он при стандартных настройках относит к русскоязычным (ru, su и ua), то дожидаться быстрой индексации нет смысла, т. К. Он, по всей видимости его отыщет после чем спустя один месяц. Но последующая индексация будет происходить с той же частотой, что и в русских доменных зонах. 

Другими словами доменная зона влияет только на время, которое пройдет до начала индексации но не планирует влиять потом на ее частоту. Да, поэтому во многом зависит данная частота? 

Логика работы поисковиков по повторной индексации страниц сводится где-то к следующему: 
найдя и проиндексировав новую страничку, робот заходит на нее спустя сутки сравнив содержимое с тем, что было вчера, и не найдя различий, робот придет на нее повторно исключительно через 3 дня если и сейчас на ней совершенно ничего не поменяется, то он придет уже спустя недельку и так далее. 
Т. О. Понемногу частота прихода робота на эту страничку сравняется с тактовой частотой ее обновления, а также будет сопоставима с ней. Кроме этого, время повторного захода робота вполне может измеряться для различных сайтов как в минутах, так и в годах. 

Такие вот они умные поисковые сервисы, составляя отдельный график перехода на для разных страниц разных ресурсов. Можно, важно заметить, что принудить поисковые машины переиндексировать страничку по нашему желанию, и когда на ней совершенно ничего не поменялось, но про это в иной статье.

 

Добавить комментарий


Защитный код
Обновить

RuCaptcha - заработай на вводе каптч
Advego.ru - система покупки и продажи контента для сайтов, форумов и блогов

Заработок в сети