pagerank что это такое
Графы и пути: PageRank
Aug 16, 2018 · 6 min read
Зачем
Представим, что некто заходит в сеть, чтобы узнать больше о своей любимой знаменитости.
Об этом человеке огромное количество информации: твиты в Твиттере (Twtr), атрибутика на Амазоне (Amzn), статьи на Медиуме (Medm), фан-клуб на Фейсбуке (Fb) и даже страница на Майспейсе (Mspc).
Наша задача — решить, в каком порядке отображать эти веб-страницы.
Может быть, Mspc должен быть первым в списке? Пусть решит PageRank.
PageRank — это программа для вычисления собственных значений, мощный сходящийся алгоритм. Этот алгоритм производит анализ ссылок, и на основе анализа определяется порядок вывода результатов веб-поиска.
Предп о ложим, что сеть состоит из пяти веб-сайтов: Twtr, Amzn, Fb, Medm и Mspc. Также предположим, что эти сайты взаимосвязаны. Например, Fb может ссылаться на Amzn, а тот — ещё куда-то.
Изначально выдача не упорядочена, то есть каждая страница с равной вероятностью может оказаться первой в списке.
Другими словами, каждой странице присваивается начальный ранг 1/N, где N — общее число веб-страниц в графе. В нашем примере каждая страница изначально получит ранг 1/5.
После запуска алгоритм начинает свою работу:
Гранулярный принцип работы: решаем для отдельного узла, для одного PR(pi), потом экстраполируем вывод на весь граф.
Вначале выбирается случайный узел, то есть PR(pi). Пусть это будет Amzn.
Рассмотрим все входящие грани Amzn, то есть все линии, где стрелочки указывают на Amzn.
Эти входящие грани определяют будущий и, по сути, окончательный PageRank для Amzn.
Посмотрим на источники входящих граней.
Их источники — Fb и Medm, и их ранги PageRank определяют PR(pj).
Теперь из источника входящих граней подсчитаем общее число исходящих граней — это и будет наш L(pj).
У Fb всего две исходящих грани, поэтому L(pj) равен 2.
Следовательно, для Fb мы получили PR(pj)/L(pj), равный (0,2)/(2).
Теперь обратите внимание: алгоритм учитывает все pj ∈ M(pi).
Перейдём ко второму pj — Medm.
У Medm четыре исходящих грани и PageRank, равный 1/5.
Для Medm мы получили PR(pj)/L(pj), равный (0,2)/(4).
Итак, PR(pj)/L(pj) для всех pj ∈ M(pi).
d — это коэффициент затухания, произвольное значение между 0 и 1. d определяет, приходит ли пользователь по ссылке в d процентах случаев или же пользователь попадает на страницу случайно в 1-d процентах случаев. Идеальный d способствует сходимости.
Положим d равным 0,85.
Теперь у нас есть все необходимые значения, чтобы вычислить PR(pi). Помните: N — общее число узлов в графе.
Применяем уравнение ко всем узлам графа.
Подсказка: алгоритм верен, если сумма рангов составляет единицу, например: 0.41 + 0.16 + 0.07 + 0.07 + 0.29 = 1
Теперь проверим, сошёлся ли алгоритм.
Схождение происходит, когда ранги всех веб-страниц находятся внутри предела погрешности.
Предел погрешности, ε, тоже представляет собой произвольное значение от 0 до 1. Чем меньше предел погрешности, тем точнее результат. Пусть в нашем примере предел погрешности составляет ε = 0.09.
Поскольку MySpc вышла за предел погрешности, все ранги не сошлись, поэтому алгоритм повторяется.
Повторив расчёты, снова проверим схождение, используя предел погрешности.
Пример проверки п. п.: Twtr, | 0,25–0,41 | = 0,16, и 0,16 > 0,09.
Twtr проверку не прошла: схождения всё ещё нет. Повторим процесс.
И вот значения сошлись, кроме как для Medm.
Пример проверки п. п.: Medm, | 0,45–0,29 | = 0,16, и 0,16 > 0,09.
Medm не прошла проверку, повторяем алгоритм.
Теперь ранги всех страниц проходят проверку на предел погрешности.
Теперь алгоритм определяет порядок отображения веб-страниц.
PageRank: (1) Medm, (2) Twtr, (3) Amzn, (4) Fb и (5) Mspc.
Теперь воплотим этот процесс в коде. Обратите внимание на сходство кода на C++ с шагами из предыдущего раздела.
Объявим все известные переменные: d, N, and me (предел погрешности). Затем PageRank потребует доступа к текущим и будущим рангам для вычисления предела погрешности, поэтому объявим переменную карты, m, для хранения будущих рангов.
Далее, запустим PageRank для 1/N.
Пока ранги не сошлись, подсчитаем все PR(Pj)/L(Pj) для pj ∈ M(pi), затем умножим на коэффициент затухания и добавим произвольную вероятность, 1-d/N, и, наконец, проверим схождение.
И напоследок: обращайте внимание на ямы. Яма — это когда у узла нет исходящих граней. В таком случае нормализуйте ранги, добавив 1/N ко всем остальным узлам графа.
1. Скопируйте полный исходный код отсюда в текстовый редактор и сохраните файл как main.cpp
После компиляции и запуска программа сгенерирует пять веб-страниц и выведет ранг для каждой из них. Если всё прошло хорошо, консоль будет выглядеть примерно так:
Что такое PageRank (page rank)
Автор: Deo · Опубликовано 11.11.2011 · Обновлено 18.01.2018
Понятие Google PageRank является одним из ключевых моментов в работе поисковой машины Google. Наряду с другими параметрами, влияющими на выдачу (сортировку) сайтов в результатах поиска, знание модели PageRank необходимо как для понимания процесса поиска, так и для использования оптимизаторами при продвижении своих сайтов в поисковой системе.
Истории появления этого параметра будет посвящена другая статья. Поясним математические основы вычисления PageRank, используемые повсеместно. Для начала, примем за аксиому, что при расчете Google PR, не будет учитываться “рассовая” принадлежность ссылок, их “языковая группа” или “внешний вид”, а будем полагать, что все страницы в интернете равны (как мы с вами), и вес ее будет определяться лишь весом ссылающихся страниц-доноров.
Представьте себе, что вы Учитель (или свою профессию – сапожник, программист, оптимизатор, доктор с пиявками …), и что вам надо делать свою работу. Перед вами стоит задача: как найти тех людей, которым вы нужны, и которые будут рады воспользоваться вашими услугами?! Для этого можно либо сделать себе рекламу (баннеры, adsense, директ и др.), либо устроиться в какую-нибудь контору, которая будет поставлять вам клиентов (фриленсерские сайты, статьи, социальные закладки). Единственное, когда клиенты сами будут к вам приходить, это если другие скажут им о вас, посоветуют, расхвалят и т.д. Здесь вы не тратите средства на рекламу, и это самые эффективные клиенты, которым действительно нужна ваша помощь.
Говоря другими словами, мы подошли к понятию PageRank, который отражает вес вашей страницы по ссылкам (“слухам”) с других страниц. И понятно, что чем больше ссылающихся на вас страниц, тем больше у вас вес.
Определение PageRank
PageRank (далее просто PR) это числовая величина — мера “важности” страницы в поисковой системе Google. Зависит от числа внешних ссылок на данную страницу и от их веса (важности). Другими словами от количества и качества ссылающихся страниц. А если говорить математическим языком, то PR это алгоритм расчёта авторитетности страницы, используемый поисковой системой Google. PR не является основным, но является одним из вспомогательных факторов при ранжировании сайтов в результатах поиска.
Следует отметить, что при расчете PR Google учитывает не все ссылки, а отфильтровывает ссылки с сайтов, специально предназначенных для скопления ссылок. Некоторые ссылки могут не только не учитываться, но и отрицательно сказаться на ранжировании ссылающегося сайта (такой эффект назвается поисковой пессимизацией).
Классическая модель представления PageRank
Документ (на англ. языке), подробно описывающий модель Page Rank, введеной Сергеем Брином и Ларри Пейджем, можно скачать по ссылке: The_PageRank_Citation_Ranking.PDF
Основная формула, описывающая PR выглядит следующим образом.
где d — демпфирующий коэффициент, отражающий какую долю веса может передать страница-донор на страницу-акцептор. Обычно его принимают равным 0.85, что означает, что страница может передать 85% веса (распределяется между всеми акцепторами, на которые ссылается донор). В других источниках d является вероятностью, с которой пользователь перейдет на один из акцепторов, а не закроет браузер, что, в принципе, то же самое. Какое числовое значение у этого параметра в Google знают только там, остальные принимат его равным 0.85 (видимо из эксперементальных данных);
n — количество страниц, ссылающихся на страницу-акцептор (на которые не наложен фильтр);
Ti — i-ая ссылающаяся страница;
C — количество внешних ссылок на странице-доноре.
Тулбарное представление PageRank
Поскольку ссылающихся страниц может быть много, и общее количество страниц в поисковой системе Google достаточно велико (около десятка биллионов штук) а также их количество постоянно растет, то представлять вес страницы в абсолютных значениях для вебмастеров было бы весьма неправильно. Для этого ввели понятие TLPR — ToolBar PageRank, который имеет значение от 0 до 10 (зелененькая шкала в Google Toolbar).
Вы можете скачать Firefox с тулбаром, если у вас еще не имеется такового:
Для того, чтобы уложить все веса страниц между значениями от 0 до 10 используют логарифмическую шкалу.
TLPR = Logbase(PR) * a
где base — основание логарифма, которое зависит от количества страниц в поисковой машине (возможно и от ряда других факторов). Некоторые принимают его равным 7;
a — некий коэффициент приведения, который удовлетворяет неравенству 0 0 0 Голоса
Что такое ссылочный вес сайта и алгоритм PageRank от Google
Автор Вячеслав Питель · 12:01 24.01.2018
Здравствуйте, уважаемые читатели сайта Uspei.com. У поисковой системы есть более сложные задачи, чем оценка релевантности страницы и других текстовых факторов. Например, как выбрать из двух страниц с одинаковой релевантностью? Для этого google ввел такой алгоритм как PageRank.
Зачем был нужен PageRank и как он появился
PageRank — это метод Google для измерения «важности» страницы сайта от 1 до 10.
Предположим, если человек заходит в google и забивает запрос «наполеон бонапарт». Это достаточно простой информационный запрос. То есть по нему просто надо предоставить качественную информацию и достаточно показать хорошую страницу энциклопедии. Хороших энциклопедий не так много и сформировать качественную страницу результатов поиска для гугла по такому запросу не очень сложно.
Но иногда все не так однозначно и чаще всего проблемы возникают в коммерческих запросах. Предположим, человек заходит и ищет «iphone6».
Проблема в том, что здесь уже недостаточно дать ему информацию про iphone6, возможно он хочет его купить, а значит нужно показать страницы продавцов этого товара.
И можно сказать, что разница в текстовой релевантности запросу между такими страницами будет очень незначительна. Поэтому решить кого показывать первым поисковой системе значительно сложнее на первый взгляд.
Но поисковые системы существуют уже очень давно. До 98 года, когда появился google, поисковые системы тоже существовали, но в чем было отличие google от других поисковых систем. Оно было принципиальным. Разработчики google решили, а давайте будем отталкиваться не только от текстовых факторов, давайте попытаемся рассчитать вес каждой страницы в интернете, ее значимость.
И один из создателей гугла Ларри Пэйдж придумал алгоритм, который называется Page Rank (назвал его свою честь). В чем логика PageRank? Ларри Пейдж решил, а давайте считать ссылку в интернете рекомендацией. Когда одна страница ссылается на другую страницу будем считать, что одна страница рекомендует другую страницу или сайт рекомендует другой сайт.
И на основе этих рекомендаций можно рассчитать некий рекомендательный вес каждой страницы в интернете. Он реализовал эту идею в виде математического алгоритма, который собственно называется PageRank. Подробно о нем можно прочитать на той же википедии, особенно на англоязычной странице википедии очень много про него информации.
Объяснение принципа PageRank «на пальцах»
Вкратце, как это работает. Представим себе, что есть некий Боб. Боб сделал страницу в интернете и никому не сказал. Какой шанс того, что на странице Боба в данный момент кто-то есть? На самом деле очень небольшой, потому что, скорее всего, там может быть только Боб и больше никого, так как он про нее никому не сказал.
И есть некий Алекс, который сделал ту же страницу в интернете и тоже никому не сказал, повел себя точно также как Боб. Шанс того, что на странице Алекса кто-то есть такой же, как на странице Боба. То есть сайты в абсолютно одинаковых условиях.
А потом каким-то образом, не важно каким, возникла ссылка со страницы Боба на страницу Алекса. Теперь Боб, зайдя на свою страницу может перейти на страницу Алекса. То есть шанс того, что на странице Алекса кто-то окажется незначительно увеличился. А шанс того, что на странице Боба кто-то есть незначительно уменьшился, потому что раньше Боб мог зайти на свою страницу и остаться там, а теперь он может уйти к Алексу по ссылке. У него появилось больше выходов со страницы, поэтому шанс того, что на странице Боба кто-то есть незначительно уменьшился.
Простыми словами PageRank рассчитывается на основе ссылок и каждая ссылка передает вес, который по своей природе является шансом, что на странице кто-то есть. То есть у Алекса шанс на то, что на его странице кто-то есть увеличился за счет входящей ссылки со страницы Боба.
Зачем ссылочный вес поисковой системе? Таким образом поисковая система может понять, какие страницы более или менее авторитетные, какие страницы чаще рекомендуют, а какие реже.
Этот вес распределяется как между сайтами, так и между страницами внутри сайта. Google в данный момент сканирует все страницы в интернете, анализирует все ссылки между всеми страницами и рассчитывает веса каждой отдельной страницы на каждом отдельном сайте. По истине чудовищный объем обработки данных. Но это только небольшая часть факторов ссылочного ранжирования.
Что мы должны еще узнать про PR? Давайте рассмотрим схему чуть посложнее. Каждый кружочек это страница, а каждая стрелочка это ссылка.
Если мы посмотрим на эту схему справа и я спрошу у вас, какая из этих страниц имеет большую важность с точки зрения алгоритма ПР?
Большинство людей не задумываясь ответят, конечно же вторая страница имеет большую важность. Давайте разберемся с этой схемой подробнее.
Какой практический вывод мы можем из этого сделать. Мы можем понять на этом примере, что в алгоритме PR важно не только количество ссылок, но и качество. Вернее вес и качество страницы, которая дает нам эту ссылку. Это называется «страница донор».
На практике это означает, что одна ссылка с «Нью-йорк таймс» значительно лучше сотни ссылок с каких-то маленьких новостных региональны сайтов. Не потому, что «Нью-йорк таймс» более посещаемый сайт, нет, а потому, что «Нью-йорк таймс» имеет большее количество входящих ссылок, чем сайт маленького регионального сайта.
Важно здесь понимать, что когда мы говорим о ссылочном весе, речь идет не о количестве переходов, не о фактической посещаемости той или иной страницы, а о самих ссылках, как вероятности того, что по ссылке кто-то перейдет.
Поисковая система пытается оценить саму вероятность перехода и на основе этого рассчитывает рейтинг. А значит мы можем сделать следующий вывод, что чем больше на нас ссылается авторитетных сайтов и страниц, тем больше рейтинг будет у нашего сайта. Вот это есть логика алгоритма PR.
Так PageRank отменили или нет?
Сейчас от некоторых сеошников можно услышать такую фразу, что PR более не актуален.
Частично они правы, потому что раньше был такой показатель с одноименным названием PR или еще он назывался публичный. Показатель давала нам поисковая система google и оценивала она по шкале от 0 до 10 важность каждой страницы и показывала нам в различных тулбарах.
И это доказывают последние посты в официальном google блоге где они говорят что PageRank как алгоритм входит в тройку самых влиятельных факторов при расчете позиции сайта в результатах поиска.
Все тот же Гари Иллиес (можно сказать представитель Google) посредством излюбленного способа общения с сеошниками (в Твиттере) недвусмысленно намекнул:
«А знаете ли вы, что после 18 лет мы все еще используем Google PageRank (и сотню других сигналов) в процессе формирования результатов поиска?».
Ссылочный вес бесполезен без релевантности и невозможен без индексации
В тройку важных факторов кроме веса и индексации входит текстовая релевантность. Когда люди узнают об алгоритме ПР и влияние ссылок на позицию сайта в результатах поиска им приходит в голову мысль, что количество и качество ссылок на сайт это самый важный фактор, которым стоит заниматься.
Но здесь очень важно понимать, как действительно ссылки влияют на позицию сайта в контексте релевантности и в контексте всех алгоритмов и факторов, которые поисковая система учитывает, например ту же релевантность анкорного текста обратной ссылки.
И вот здесь как раз поисковая система начинает учитывать вот эти рекомендации. Вес страницы как мы говорили можно назвать рекомендательным весом, так как ссылка является рекомендацией. Он особенно важен при решении вот таких вот конфликтных ситуаций в коммерческом запросе.
Так вот, если вам нужно решить какую-то конкретную проблему, вы позовете электрика. Почему? Потому что он релевантен вашей проблеме. Друг своим весом авторитетен для вас, но он не релевантен вашей проблеме.
Точно также поисковая система вначале выбирает релевантные результаты поиска, а потом уже решает кто из них более важен.
Если релевантности нет, то и вот эти все показатели ссылочного веса, все эти рекомендации они будут работать значительно хуже, либо вообще не будут давать какого-либо эффекта.
Если мы работаем над всеми тремя этими факторами, то мы постепенно будем увеличивать, улучшать позиции вашего сайта в результатах поиска.
Зная даже эти основы, мы уже можем понять, как правильно развивать свой сайт и что с ним делать. В дальнейшем мы просто будем более подробно рассматривать каждый из этих аспектов в деталях.
Алгоритм Page Rank
В данной статье я разберу принцип работы алгоритма Page Rank, который был предложен Лари Пейдж и Сергеем Брином для ранжирования веб-страниц для поискового сервиса Google.
Фундаментальная идея заключалась в том, что значимость страниц в интернете неравноценна. Некоторые страницы очевидно были важнее остальных и возникла необходимость в их ранжировании по значимости.
Для реализации идеи алгоритма необходимо принять несколько обобщений:
Реализация page rank
Как посчитать важность страниц и важность голосов, которые передают страницы через ссылки?
Очевидно, что для подсчета ранга каждой страницы в сети нам необходимо знать весь граф со всеми связями. Кроме того, необходимо решить, будем ли мы учитывать петли (ссылки страниц на самих себя). Модель алгоритма выглядит так: нам необходимо построить граф сети, инициализировать ноды некими значениями, а затем в итеративном режиме обновлять значения для каждой ноды до тех пор, пока значения рангов не стабилизируются (перестанут изменяться либо их изменения не будут превышать некое заранее известное значение).
Мы можем реализовать идею алгоритма в векторном виде. Пусть страница \(j\) имеет \(d_j\) исходящих связей. Если \(j \rightarrow i\), тогда мы можем сформулировать стохастическую матрицу \(\mathbf
Алгоритм так же можно интерпретировать с точки зрения концепции случайного блуждания по графу;
В этой (и предыдущей) интерпретации нетрудно заметить, что \(\mathbf
Для реализации подсчета page rank используется power iteration. Выглядит это так:
Все статьи с тегом page-rank
Фишки pandas: часть 1
Стартую серию заметок про различные проблемы и фишки, с которыми мне пришлось столкнуться в python библиотеке pandas. В этом “выпуске”.
Данные изображения в компьютерном зрении. Пространственное представление.
![<
Этот проект поддерживается KonstantinKlepikov
Google PageRank жив: почему он всё ещё важен
Статистика статьи
Показывает, сколько различных веб-сайтов ссылаются на этот контент. Как правило, чем больше сайтов ссылаются на вас, тем выше вы ранжируетесь в Google.
Показывает ежемесячный рассчетный поисковый трафик на эту статью по данным Ahrefs. Фактический поисковый трафик (по данным Google Analytics) обычно в 3–5 раз больше.
Количество ретвитов этой статьи в Twitter.
Поделиться этой статьей
Вот как он выглядел:
Утилита показывала Google PageRank каждой страницы от 0 до 10 по логарифмической шкале.
Google не обновляли Toolbar PageRank в течение многих лет, а в 2016 году и вовсе официально отказались от его использования. Именно поэтому некоторые SEO-специалисты рассматривают PageRank как устаревшую и неактуальную метрику, которой нет места в сегодняшнем SEO.
Вот комментарий, который я нашел в другой статье о PageRank, который отлично подытоживает вышеописанное:
Сильное заявление. А вот как обстоят дела на самом деле: PageRank всё ещё имеет вес в алгоритме ранжирования Google.
С чего я это взял? Об этом говорит сам Google.
Знали ли вы, что даже спустя 18 лет мы всё ещё пользуемся PageRank (и сотней других метрик) при ранжировании?
(Гарри Илш работает в Google. Так что можно сказать, что это информация из первых уст.)
Но твит трехлетней давности — не единственное доказательство. Некоторое время назад Гарри Илш выступил на конференции в Сингапуре (вот я с ним!). В своём выступлении он напомнил аудитории о том, что PageRank все ещё является частью их алгоритма; просто публичного рейтинга (т.е. Toolbar PageRank) больше не существует.
В этом посте я хочу:
Что же такое Google PageRank?
PageRank (PR) — это математическая формула, которая определяет “ценность” страницы, опираясь на количество и качество других ссылающихся на неё страниц. Цель PageRank — выяснить относительную значимость той или иной страницы в сети.
Сооснователи Google Сергей Брин и Ларри Пейдж разработали PageRank в 1997 в рамках исследовательского проекта во время учёбы в Стэнфордском университете. Вот что послужило мотивацией к изобретению:
Наша основная цель — улучшить качество работы поисковых систем в Интернете.
Это подводит нас к одному очень важному выводу: поисковые системы не всегда были такими же эффективными, как Google сегодня. Ранние поисковые системы, такие как Yahoo и Altavista, работали не очень хорошо — релевантность результатов поиска оставляла желать лучшего.
Вот что в своей работе говорили Сергей и Ларри о состоянии поисковых систем на тот момент:
Любой, кто в последнее время пользовался поисковой системой, может подтвердить, что полнота индекса — не единственный фактор качества результатов поиска.
PageRank стремился решить эту проблему, используя (ссылочный) граф цитирования, который сооснователи охарактеризовали как “важный ресурс, который в значительной степени остался неиспользованным в существующих поисковых системах Интернета.”
Идея основывалась на том же принципе, что и метод оценки “значимости” той или иной научной работы, т.е. опираясь на количество других источников, которые на неё ссылаются. Сергей и Ларри взяли эту концепцию за основу и применили её в Интернете, отслеживая ссылки между веб-страницами.
Эта идея сработала настолько хорошо, что стала основой для создания поисковой системы, которую теперь мы знаем как Google. И она до сих пор работает.
Как работает Google PageRank?
Вот полная формула PageRank (и её описание) в оригинальной научной работе 1997 года:
Предположим, что на страницу A указывают (цитируют её) страницы T1…Tn. Параметр d — коэффициент затухания, который может быть установлен в диапазоне от 0 до 1. Обычно мы устанавливаем d на отметке 0.85. Подробнее о d читайте в следующем разделе. Также C(A) — количество исходящих ссылок со страницы A. PageRank страницы A выглядит следующим образом::
PR(A) = (1‑d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
Обратите внимание, что показатели PageRank формируют распределение вероятностей по веб-страницам, поэтому сумма всех показателей PageRank всех веб-страниц будет равна единице.
Запутались? На самом деле, всё просто.
При расчёте PageRank какой-либо веб-страницы Google учитывает три следующих фактора:
Допустим, у страницы C есть две ссылки: одна со страницы A и одна со страницы B. Страница A сильнее страницы B и содержит меньше исходящих ссылок. Введите эту информацию в алгоритм PageRank, и вы получите PageRank страницы C.
В формуле PageRank также есть так называемый “коэффициент затухания”, который имитирует вероятность того, что случайный пользователь будет продолжать переходить по ссылкам во время просмотра веб-страниц. С каждым последующим кликом он уменьшается.
Чтобы лучше понять, рассуждайте так: вероятность того, что вы нажмёте на ссылку на первой странице, которую посещаете, достаточно высока. Однако, вероятность того, что вы нажмёте на ссылку на следующей странице, уже немного ниже. И так далее.
Общий “голос” умножается на “коэффициент затухания” (обычно равный 0.85) на каждой итерации пересчёта PageRank.
Если BBC ссылается на страницу через четыре “ссылочных прокладки”, то значение этой ссылки будет затухать до такой степени, что для последней страницы едва ли будет какая-то польза. Но если они будут ссылаться на ту же страницу только через две прокладки, то эта ссылка будет иметь более сильное влияние.
“ А что, если мы не знаем PageRank страницы A или страницы B?”
По смыслу это равнозначно вопросу:
Если Сергей отдаст половину своих денег Ларри, сколько денег будет у Ларри?
Вы не можете ответить на этот вопрос, потому что не знаете ключевой информации: то, сколько денег было у Сергея изначально.
Это грубая аналогия, но она действительно отражает принципы работы алгоритма PageRank, потому что для подсчёта PageRank каждой другой страницы в сети, сначала нужно знать PageRank хотя бы одной, так?
Так как же Google решает эту проблему?
Вот ещё один отрывок из оригинальной работы, посвящённой PageRank:
PageRank или PR(A) может быть вычислен с помощью простого итерационного алгоритма и соответствует собственному и основному вектору нормализованной матрицы ссылок сети.
Похоже на какую-то абракадабру?
На самом деле, это означает, что алгоритм Google PageRank может вычислить PR страницы, не зная PageRank страниц, которые на неё ссылаются. Это происходит потому, что PageRank, на самом деле, не является абсолютной “оценкой”, а скорее относительным показателем качества веб-страниц по сравнению с другими страницами в ссылочном графе.
Прочтите эту статью, если хотите узнать больше.
Почему Google убрал тулбарный показатель PageRank?
Поскольку Интернет и наше понимание Интернета усложнились, тулбарный показатель PageRank стал менее полезной единой метрикой для пользователей. Отказ от отображения PageRank помогает избежать путаницы между пользователями и веб-мастерами по поводу значимости метрики как таковой.
Но почти наверняка был еще один фактор, способствующий принятию решения: ссылочный спам.
SEO специалисты давно были одержимы значением PageRank как фактором ранжирования. Возможно, потому что так называемый “тулбарный PageRank” предлагал видимую и понятную метрику, по которой оценивалось качество веб-страницы.
Ни для одного из факторов ранжирования раньше не было видимой метрики, поэтому казалось что кроме PageRank больше ничего не важно. В результате люди стали покупать и продавать ссылки с высоким PageRank. С тех пор появился целый рынок, который существует по сей день.
Несколько ссылок с высоким PR, выставленные на продажу сейчас на Fiverr
Если вам интересно, как продавцы получают эти самые ссылки с высоким PR, то существует много способов. В середине 2000‑х годов одной из основных тактик приобретения было оставлять комментарии в блогах.
Для Google это была большая проблема. Изначально ссылки были хорошим критерием качества, потому что ставились только естественным образом, их можно было только “заслужить”. Неестественные ссылки делали их алгоритм отделения качественных страниц от низкокачественных менее эффективным.
Введение “nofollow”
В 2005 году компания Google совместно с другими крупными поисковыми системами ввела атрибут “nofollow”. Это решило проблему спама в комментариях к блогам, позволив веб-мастерам остановить передачу PageRank через определенные ссылки (например, через комментарии в блогах).
Вот выдержка из официального заявления Google о введении “nofollow”:
Если вы блогер (или читатель блога), вам, вероятно, до боли знакомы люди, которые пытаются поднять позиции своих сайтов в поисковых системах через комментарии со ссылками, например, “Заглядывайте на мой сайт со скидками на лекарства”. Это называется спам в комментариях, и нам он тоже не нравится, поэтому мы тестируем новый тег, который его блокирует. С этого момента, когда Google видит атрибут (rel=“nofollow”) на гиперссылках, они не получают никакой пользы при ранжировании сайта в результатах поиска.
Сегодня почти все CMS-системы ставят атрибут “nofollow” для ссылок в комментариях на блоге.
Но по мере того, как Google решал одну проблему, другая становилась всё хуже и хуже.
Наращивание PageRank
Оригинальная формула PageRank гласит, что PageRank делится поровну между исходящими ссылками на веб-странице. Таким образом, если PageRank страницы равен y, а на странице есть десять исходящих ссылок, то PageRank, переданный по каждой ссылке будет равен y/10.
Но что произойдет, если к 9 из этих 10 ссылок добавить атрибут “nofollow”? Конечно же он не позволит PageRank перетекать на девять страниц, оставив полное значение для единственной оставшейся ссылки, правильно?
Изначально так и было, и веб-мастера начали выборочно добавлять атрибут “nofollow” к страницам, которые они считали менее важными (например, исходящие ссылки и т.д.). Это позволило им эффективно “наращивать” PageRank для своего сайта.
Например, если у них была страница со значением PageRank 7 (согласно тулбарному показателю PageRank), и если они хотели увеличить “силу” конкретной страницы, они просто ставили на неё ссылку со страницы с высоким PageRank и применили бы атрибут “nofollow” ко всем остальным исходящим ссылкам. Таким образом, максимальное количество PageRank передавалось на выбранную ими страницу.
В 2009 году компания Google внесла некоторые изменения. Вот выдержка из записи в блоге Мэтта Каттса по этому вопросу:
Так что происходит, когда у вас есть страница с десятью баллами PageRank и десятью исходящими ссылками, пять из которых с атрибутом “nofollow”? […] Первоначально, пять ссылок без “nofollow” получали бы по два PageRank балла каждая […] Более года назад, Google это изменил: теперь PageRank работает таким образом, что каждая ссылка без “nofollow” получает только один PageRank балл каждая.
Вот как это выглядит:
Мы не знаем, работает ли математика “nofollow” так до сих пор или нет, ведь Google внесли это изменение более десяти лет назад. Сейчас все может быть совсем иначе. Возможно, что теперь и другие факторы (например, расположение ссылки на странице) также влияют на “ценность” той или иной ссылки.
Однако, мы точно знаем, что добавление тегов “nofollow” уже не поможет направить этот “ссылочный вес” на остальные ссылки на странице.
Google (постепенно) перестаёт показывать PageRank
Вскоре после внесения изменений в способ передачи PR между так называемыми “dofollow” и “nofollow” ссылками, Google удалил данные PageRank из Webmaster Tools.
Затем, в 2014 году, Джон Мюллер из компании Google заявил, что стоит перестать работать с PageRank, поскольку теперь он не будет обновляться. В 2016 году тулбарный PageRank официально прекратил существование.
Этот шаг усложнил процесс покупки и продажи ссылок с высоким PageRank из-за того, что больше не было возможности узнать “настоящий” PageRank страницы.
Существует ли достойная замена PageRank?
Аналога PageRank не существует. Точка.
Но существует несколько похожих метрик, одна из которых URL Rating (UR) от Ahrefs.
Что такое URL Rating?
URL Rating (UR) от Ahrefs — это метрика, показывающая, насколько сильным является ссылочный профиль для *целевой URL* по шкале от 1 до 100.
Как узнать URL Rating? Просто вставьте её адрес в Site Explorer.
В чём сходства рейтинга страницы UR и PageRank?
Мы хотим быть предельно честными — хотя мы и рассчитываем URL Rating (UR) по аналогии с первоначальной версией Google PageRank, это всё равно не одно и то же. Никто за пределами компании Google не знает все подробности того, как формула PageRank развивалась и совершенствовалась на протяжении всех лет её существования.
Но мы знаем, что URL Rating (UR) сопоставим с оригинальной формулой Google PageRank по следующим критериям:
Важно помнить: URL Rating (UR) сравнивается с первоначальной формулой PageRank. Почти наверняка за 21 год с момента создания этой формулы компания Google её усовершенствовала.
Как мы это узнали? Ну, для начала, здравый смысл. Мы знаем, что Google не стояли на месте всё это время, ведь сейчас их поисковая система, безусловно, превосходит по результатам поиска любую другую
Но вот цитата Мэтта Каттса, которую я нашел, опять же, в его блоге. Запись о распределении PageRank от 2009 года:
Даже когда я пришёл в компанию в 2000 году, Google выполняли куда более сложные вычисления, чем те, на которые вы видели в классических статьях о PageRank. Если вы склонны считать, что компания просто перестала внедрять инновации в анализ ссылок, то вы ошибаетесь. И пусть мы все ещё называем его PageRank, способность Google вычислять репутацию на основе ссылок значительно продвинулась за эти годы.
Чем рейтинг страницы (UR) отличается от PageRank?
За эти годы компания Google подала множество патентов, которые находятся в открытом доступе. Но никто, даже Билл Славски, не знает, какие факторы являются частью текущего алгоритма или насколько важен каждый из них.
Сам по себе факт очень затрудняет понимание того, чем рейтинг URL (UR) отличается от текущей итерации Google PageRank, потому что мы не до конца уверены, что знаем, как Google оценивает ссылки в 2020 году.
Даже когда речь идёт о, казалось бы, простых вещах, таких как способ подсчёт ссылок, всё не так просто, как можно предположить. Вот наглядный пример, который это демонстрирует:
Отлично сработает в качестве проверки, если к вам на собеседование пришёл SEO-специалист.
Бот Ahrefs насчитывает восемь ссылок на страницу B, но так работает не каждый бот.
Мы ничего не знаем о том, как считает их Google.
Более того, фактически подсчёт ссылок — это только одна часть уравнения. Когда вы начинаете вычислять, сколько веса передаёт каждая ссылка, сложность достигает совершенно нового уровня.
Вот ещё несколько вопросов, на которые мы пока не знаем ответов:
1. Зависит ли передача PageRank от расположения ссылки на странице?
Патент “разумный серфер” компании Google указывает на то, что это вполне возможно.
В частности, считается, что ссылки, расположенные в документе выше, могут передавать больше PageRank, чем те, что расположены внизу. То же самое можно сказать и о ссылках в сайдбаре по сравнению с ссылками в основном контенте.
Билл Славски в своём анализе перечисляет также некоторые другие функции, которые Google может использовать для оценки значимости ссылки
2. Передают ли внутренние ссылки PageRank так же, как и внешние?
Патент “разумного серфера” намекает на то, что это, возможно, правда.
Билл Славски также говорит об этом в анализе патента.
Однако, окончательного ответа на этот вопрос нет. То, что это содержится в патенте Google вовсе не означает, что это является частью алгоритма. Google много раз подавали разные патенты за всё это время.
3. Является ли первая ссылка на сайте более “ценной”, чем любая последующая с того же сайта?
Билл Славски утверждает, что последующие ссылки с того же сайта “могут быть проигнорированы при подсчете значений на странице.”
Нам удалось обнаружить довольно прямую связь между количеством уникальных ссылающихся доменов и органическим трафиком, когда мы проанализировали почти 1 МИЛЛИАРД страниц.
Честно говоря, мы могли бы весь день добавлять такие подобные пункты в наш список. (Если вам действительно интересно, то в этой статье Моз рассказывается о причинах, по которым не все созданные ссылки будут одинаковыми.)
Стоит ли использовать URL Rating (UR) в качестве альтернативы PageRank?
URL Rating (UR) — достойная замена метрики PageRank, потому что у неё много общего с формулой PageRank.
Однако, это не панацея. Мы точно знаем, что URL Rating (UR) не учитывает столько факторов, сколько учитывает современная версия Google PageRank.
Поэтому мы советуем обращать внимание на URL Rating (UR), но не стоит полагаться на него полностью. Всегда просматривайте целевые страницы вручную (т.е. переходите на саму страницу) перед тем, как пытаться получить с них ссылку.
Как сохранить (и повысить) PageRank
Прежде чем начать этот раздел, я хочу выделить один важный момент:
Речь идёт НЕ об оптимизации для PageRank или URL Rating (UR). Попытки оптимизировать под метрики часто приводят к неправильным решениям. Задача состоит в том, чтобы убедиться, что вы не теряете и не растрачиваете впустую на своём сайте PageRank.
Чтобы этого избежать, вот на что следует обратить внимание:
Взглянем на каждый из пунктов по отдельности.
Внутренние ссылки
Обратные ссылки не всегда получается контролировать. Люди могут ссылаться на любую страницу вашего сайта, используя разный анкорный текст.
Но внутренние ссылки отличаются тем, что они целиком и полностью под вашим контролем.
Серьёзно, внутренние ссылки — довольно обширная тема, настолько, что можно посвятить ей отдельную статью, но вот несколько приёмов, которые помогут начать:
1. Держите важный контент как можно ближе к главной странице
Ваша главная страница почти наверняка самая “мощная” на вашем сайте.
Не верите? Давайте проверим:
Готов поспорить, что ваша главная страница находится наверху списка.
Обычно так происходит по двум причинам:
Таким образом, чем ближе страница расположена к вашей главной (с точки зрения структуры внутренних ссылок), тем больше “веса” она получит. Поэтому имеет смысл размещать важный контент как можно ближе к главной странице.
Вы также можете узнать, насколько далеко от главной страницы находится та или иная, запустив инструмент Site Audit. Узнайте, как это сделать, в этом видео.
Как только закончите, сделайте вот что:
Site Audit > выберите проект > запустите сканирование > Data Explorer
Посмотрите на колонку “Depth” (Глубина), в которой указано, сколько кликов нужно сделать, чтобы попасть на неё с главной страницы (предположим, что именно с неё вы и начали).
Можно даже отсортировать эту колонку в порядке убывания, чтобы увидеть страницы, которые находятся очень далеко от главной.
Но давайте признаем — невозможно ссылаться на каждую внутреннюю страницу с главной, верно?
Есть и хорошие новости. Заключаются они в том, что главная страница — не единственная страница на сайте с хорошим ссылочным весом. Если вам очень нужно “перелить” ссылочного веса на конкретную страницу, вот что нужно сделать:
Например, глядя на отчёт Best by Links для Ahrefs blog, видно, что наш список SEO-советов имеет самый высокий рейтинг UR.
В этой статье мы тоже упоминаем PageRank…
… поэтому у нас есть релевантная страница с высоким рейтингом UR, с которой можно ссылаться на эту самую страницу.
А вот небольшой трюк для быстрого поиска наиболее релевантных страниц с высоким UR, с которых можно добавлять внутренние ссылки на недавно опубликованные посты в блоге.
Идём в Google и вводим оператор поиска:
site:yourdomain.com “тема страницы, на которую мы хотим сделать внутреннюю ссылку”
Например, если мы хотим найти все возможные внутренние ссылки для этой страницы, можно выполнить поиск:
Он покажет все посты блога, в которых упоминается слово “PageRank”, а их 22.
Но какая из этих страниц позволит построить наиболее мощные внутренние ссылки?
Давайте воспользуемся парсером поисковой выдачи Криса Айнсворта, чтобы собрать результаты, а затем просто вставим их в инструмент Пакетного анализа Ahrefs и отсортируем по рейтингу URL (UR).
Отлично. Теперь у нас есть список самых авторитетных страниц, на которых упоминается слово “PageRank”. Можем добавить внутренние ссылки на этот гайд с нескольких таких страниц:
Внутренняя ссылка на этот пост из нашего списка советов по SEO.
2. Найдите страницы-“сироты”
PageRank распределяется по всему сайту через внутренние и внешние ссылки. Это означает, что “ссылочный вес” может попасть на страницу только в том случае, если на неё есть ссылка с одной или нескольких страниц сайта.
Если страница таких ссылок не имеет, то её называют страницей-сиротой.
Чтобы найти такие страницы, сначала нужно составить список всех страниц сайта. Сделать это может быть довольно сложно, но извлечение страниц из карты сайта вполне может сработать. Также можно загрузить полный список веб-страниц, сгенерированных вашей CMS.
Итак, у вас есть список всех страниц сайта. Теперь прогоните сайт через Инструмент для Аудита сайта Ahrefs, а затем:
Site Audit > Data Explorer > Is valid (200) internal HTML page = Yes
Экспортируйте файл, содержащий все URL-адреса, найденные на вашем сайте во время сканирования.
Теперь сравните URL-адреса в этом файле с полным списком страниц на вашем сайте. Те, что не были обнаружены, скорее всего являются “сиротами”.
Вам нужно это исправить либо удалив их (если они не очень важны), либо добавив внутренние ссылки на них (если они всё же важны).
Внешние ссылки
Многие люди считают, что ссылки на внешние ресурсы (т.е. веб-страницы на других сайтах) каким-то образом могут повредить их рейтингу.
Это не так. Внешние ссылки не повредят вам, поэтому о них не стоит беспокоиться. Мы регулярно размещаем ссылки на полезные ресурсы в блоге Ahrefs, и наш трафик постоянно растёт.
Это правда, что чем больше ссылок у вас на странице, тем меньше “веса” будет передавать каждая из них. Но мы уверены, что расчёт ценности каждой ссылки на странице сложнее, чем был в 1990‑х, когда компания Google запатентовала первую версию PageRank.
Можно экономить ссылки и не оставлять внешних ссылок. Но не думайте, что Google это поощрит. Отсутствие ссылок на внешние ресурсы выглядит довольно подозрительно, а Google не очень одобряет такую практику.
Итог? Внешние ссылки существуют потому, что они служат определённой цели; они указывают читателям на ресурсы, которые перекликаются с темой и могут быть полезны. Поэтому следует ставить ссылки, когда от этого есть польза для читателя.
Вот несколько советов по проставлению внешних ссылок:
1. Используйте внешние ссылки с атрибутом “nofollow” только если очень нужно
Вот что говорит Google о таких ссылках:
В целом, мы по ним не переходим. Это значит, что через них не передаётся PageRank и анкорный текст.
Все внешние ссылки некоторых сайтов (Forbes, HuffPo, и т.д..) теперь по умолчанию ставятся в “nofollow”.
Нужно ли делать так же? Вовсе нет.
Большинство таких сайтов решили проводить редакционную политику, потому что некоторые из авторов тайно продавали ссылки на свои статьи. Не желая поощрять подобные методы, последовал общий запрет на внешние ссылки “dofollow”.
Но, скорее всего, у вас такой проблемы нет. Будем надеяться, что у вас есть качественный сайт и вы тщательно проверяете все гостевые публикации. В этом случае, нет необходимости добавлять “nofollow” ко всем внешним ссылкам. В этом нет никакого смысла.
Итак, добавлять “nofollow” ко внешним ссылкам стоит только когда:
2. Исправьте битые внешние ссылки
Битые внешние ссылки становятся причиной плохого пользовательского опыта. Вот что происходит, когда читатель нажимает на такую ссылку:
Эти ссылки также являются пустой тратой PageRank.
Только вдумайтесь: она не несёт никакого смысла, но размывает вес остальных ссылок на этой странице
Как это исправить? Сперва их нужно найти.
Прочитайте эту запись. Тут всё, что вам необходимо об этом знать: Как найти и “починить” битые ссылки (и восстановить ссылочный вес).
Обратные ссылки
Обратные ссылки повышают PageRank страницы, на которую дана ссылка. Например, backlinko.com ссылается на наш гид по SEO и тем самым увеличивает его PR.
Но, как обсуждалось ранее, не все обратные ссылки одинаковые. Для определения реальной ценности обратной ссылки Google рассматривает сотни факторов.
Тем не менее, вот несколько полезных приёмов, которые позволят получить максимальную отдачу от обратных ссылок:
1. Сосредоточьтесь на создании ссылок со страниц с высоким UR
PageRank передаётся именно через страницы, а не через домены.
Ссылка с авторитетной страницы на страницу менее авторитетную ценится выше, чем наоборот.
Поэтому при отсеивании доноров ссылок в Site Explorer мы рекомендуем сортировать адреса по рейтингу URL (UR):
Если вы нашли доноров самостоятельно (например, просканировав Google), стоит прогнать их через наш Инструмент для пакетного анализа, чтобы проверить рейтинг каждой страницы.
2. Почините битые ссылки, которые растрачивают “ссылочный вес”
Обратные ссылки повышают не только “авторитет” страницы, на которую ссылаются, но и передают вес всем страницам, на которые ссылается эта страница. Так происходит, потому что PageRank перетекает с одной страницы на другую как раз по внутренним ссылкам.
Но если есть обратные ссылки, указывающие на битую страницу, то весь ссылочный вес растрачивается попусту из-за того, что ему некуда перетекать дальше.
Поэтому необходимо исправлять любые битые страницы с обратными ссылками, указывающими на них. Такие страницы можно найти, добавив фильтр “404 not found” в Best by links.
Site Explorer > введите домен > Best by links > добавьте фильтр 404
Вы увидите все битые страницы, плюс количество ссылок, которые у каждой из них есть.
Узнайте больше о том, как найти и решать такие проблемы здесь.
3. Не смотрите только на “авторитетность”, контекст тоже имеет значение
Безусловно, PageRank важен, но также важен и контекст ссылки.
Что я имею в виду? Представьте, что вы ведёте блог о кошках и пишете статью о том, как ваша кошка поцарапала сиденье вашего нового BMW. В посте вы даёте ссылку на соответствующую страницу товара на официальном сайте BMW. Неужели эта ссылка не имеет никакого значения, потому что пришла из блога о кошках?
Нет. Она отлично работает. Однако, Google может счесть её менее ценной, чем ссылку от известного авто-блогера, который написал целую статью об этой конкретной модели BMW.
И откровенно говоря, если бы мне нужно было оставить только одну ссылку на BMW…
… мне было бы тяжело выбрать.
Заключительные мысли
Большинство SEO-специалистов никогда даже не рассматривают Google PageRank по довольно очевидным причинам: он устарел, и даже при всем желании вы больше не сможете увидеть рейтинг конкретной страницы.
Но важно помнить, что формула PageRank лежит в основе почти всех лучших современных методов SEO-оптимизации. Именно поэтому обратные ссылки имеют значение, и именно поэтому SEO-профессионалы до сих пор уделяют столько внимания внутренним ссылкам.
Однако, это не означает, что вы должны зацикливаться или пытаться оптимизировать PageRank напрямую. Не стоит. Но поймите, что всякий раз, когда вы строите ссылки, работаете над структурой внутренних ссылок или проверяете внешние, вы оптимизируете сайт под PageRank.































