Премиум каналы

Advanced SEO

С Advanced SEO вы узнаете о продвинутых методах продвижения сайтов в поиске. Канал обучает использовать технологии обработки языков, программирование и глубокие знания алгоритмов поиска. Подписывайтесь, чтобы стать экспертом в SEO! 🚀📰

Последние публикации с канала

🔁Регулярные выражения для поиска с исключением

Очень часто сеошнику необходимо удалить все строки, кроме тех, что имеют какое-то вхождение подстроки.

Один из быстрых и доступных способов - это использование замены с помощью регулярного выражения в текстовом редакторе.

Для примера используем вхождение "string".

Найти и заменить все строки, кроме:

- Начинающихся со string
^(?!string).*$

- Заканчивающихся на string
^.*(?<!string)$

- Содержащих string
^(?!.*string).*$

- Равных string
^(?!string$).*$

Найти и заменить пустые строки вы можете в зависимости от вашей операционной системы с помощью регулярок:
^\n
или
^\r\n

ℹ️ Если вы не знаете, что такое регулярное выражение, загуглите возможность использования его в вашем текстовом редакторе (Notepad++, Sublime и т.д.)

23.04.2024 / 10:04

Злоупотребление репутацией сайта

Злоупотребление репутацией происходит, когда сторонние страницы публикуются с малым или без какого-либо надзора или участия владельца сайта, с целью манипулирования ранжированием за счет использования высокого ранга домена. Такие страницы включают в себя спонсорские, рекламные, партнерские или другие, которые обычно отличаются от основной цели сайта и предоставляют мало или совсем не приносят пользы пользователям.

Примеры:

🔸 Образовательный сайт, размещающий страницу с обзорами быстрых займов, написанными сторонними лицами, которые распространяют эту страницу по всему интернету, с целью манипулирования ранжированием.
🔸 Медицинский сайт, на котором размещена страница о "лучших казино", созданная с целью манипулирования ранжированием, с малым участием или без участия владельца сайта.
🔸 Сайт рецензий на фильмы, на котором размещены сторонние страницы на темы, которые были бы странными для пользователей сайта (такие как "способы покупки подписчиков на сайтах социальных сетей", "лучшие сайты гадалок", и "лучшие сервисы написания эссе"), где цель заключается в манипулировании ранжированием.
🔸 Спортивный сайт, на котором размещена сторонняя страница об "обзорах добавок для тренировок", при этом редакционный состав спортивного сайта имел мало участия или совсем не участвовал в контенте, и основная цель размещения страницы - манипулирование ранжированием.
🔸 Новостной сайт, размещающий сторонние купоны, с малым или без участия сайта, и где основная цель - манипулирование ранжированием.

Если вы размещаете страницы, нарушающие эту политику, исключите этот контент из индексации поисковой системы.

Примеры, которые НЕ считаются злоупотреблением:

🔸 Сайты служб новостей или служб пресс-релизов
🔸 Новостные публикации, имеющие синдицированные новостной контент из других новостных публикаций
🔸 Сайты, предназначенные для создания контента пользователями, такие как форумы или разделы комментариев
🔸 Колонки, мнения, статьи и другие редакционные материалы, где есть тесное участие или рецензирование со стороны владельца сайта
🔸 Сторонний контент (например, страницы типа "advertorial" или "нативная реклама"), созданный при тесном участии владельца сайта, где цель состоит в том, чтобы делиться контентом напрямую с читателями (например, через продвижение в самом издании), а не размещать контент для манипулирования ранжированием
🔸 Встраивание сторонних рекламных блоков на странице или использование партнерских ссылок на всей странице, в соответствии с правилами для ссылок
🔸 Купоны, размещенные с тесным участием владельца сайта

05.03.2024 / 18:03

Апдейты и новые правила в отношении спама

Если кто еще не видел, то гугл анонсировал сразу два апдейта - Core и Spam.
Больше всего внимание привлекает новая политика в отношении спама. К сожалению, дорвейщики слишком привлекли внимание Google'ров в прошлом году.

Злоупотребление Expired-доменами

Злоупотребление заключается в покупке истекшего доменного имени и его повторном использовании в основном с целью манипулирования ранжирование за счет размещения контента с малой ценностью или ценность контента отсутствует. Примеры:

🔸 Affiliate-сайт на домене, ранее использовавшемся государственным агентством
🔸 Продажа коммерческих медицинских продуктов на сайте, ранее использовавшемся некоммерческой медицинской благотворительной организацией
🔸 Контент, связанный с казино, на сайте бывшей начальной школы

Злоупотребление масштабируемым-контентом

Злоупотребление созданием контента в больших масштабах происходит, когда множество страниц генерируется с первостепенной целью манипулирования ранжированием, а не для помощи пользователям. Эта практика злоупотребления обычно сосредоточена на создании большого количества неоригинального контента, который мало чем полезен для пользователей, независимо от того, как он создан.

Примеры:

🔸 Использование инструментов генеративного ИИ или других похожих инструментов для генерации множества страниц без добавления ценности для пользователей
🔸 Скрейпинг лент, результатов поиска или другого контента для генерации множества страниц (включая автоматизированные изменения, такие как использование синонимов, перевод или другие техники), где пользователю предоставляется мало ценности.
🔸 Объединение контента с разных веб-страниц без добавления ценности
🔸 Создание множества сайтов с целью скрыть масштабы
🔸 Создание множества страниц, где содержание малоценно для читателя, но содержит ключевые слова для поиска

Если вы размещаете такой контент на своем сайте, исключите его из Поиска.

Продолжение в след. посте.

Google
New ways we’re tackling spammy, low-quality content on Search

We’re making updates to show less unoriginal, low-quality content on Search.

05.03.2024 / 18:03

Similarweb прислали письмо о запуске Backlink Analytics tool. Еще один инструмент для проверки ссылок в копилочку.

21.02.2024 / 15:02

Код считающий FWR, TTR и FRE

Написал код, который считает для английского текста Function Word Ratio, Type-Token Ratiо и Flesch Reading Ease.


!pip install spacy_syllables
!python -m spacy download en_core_web_sm

import spacy
from spacy_syllables import SpacySyllables

# Load the spaCy model
nlp = spacy.load('en_core_web_sm')
nlp.add_pipe('syllables', after='tagger')

def calculate_fwr_ttr_fre(text):
# Process the text with spaCy to tokenize and apply other NLP tasks
doc = nlp(text.lower())

# Count total words, sentences, syllables, and function words
total_words = len(doc)
total_sentences = len(list(doc.sents))
total_syllables = sum(token._.syllables_count for token in doc if token._.syllables_count is not None)
function_words_count = sum(token.is_stop for token in doc)

# Calculate Function Words Ratio
fwr = function_words_count / total_words if total_words > 0 else 0

# Calculate Type-Token Ratio
unique_words = set(token.text for token in doc)
ttr = len(unique_words) / total_words if total_words > 0 else 0

# Calculate Flesch Reading Ease
fre = (206.835 - 1.015 * (total_words / total_sentences) - 84.6 * (total_syllables / total_words)) if total_words > 0 and total_sentences > 0 else 0

return fwr, ttr, fre

# Change filename in code line below
with open('filename.txt', 'r') as file:
# Read the contents of the file
text = file.read()
fwr, ttr, fre = calculate_fwr_ttr_fre(text)
print("Function Words Ratio:", fwr)
print("Type-Token Ratio:", ttr)
print("Flesch Reading Ease:", fre)


В системе должна быть установлена библиотека spacy. Либо вы можете воспользоваться ссылкой на Colab и запустить скрипт в облаке Google.

Google
FWR-TTR-FRE-by-Dart.ipynb

Colaboratory notebook

24.01.2024 / 08:01

Заметки из исследования товарных обзорников от немецких ученых

🔸 Не стоит ориентироваться только на Type-Token Ratiо (TTR), лучше коррелирует с позициями Function Word Ratio (FWR).

🔸 Корреляцию с позициями показала характеристика читабельности Flesch Reading Ease.

🔸 Страницы с более высоким рангом имеют меньшее соотношение <p> и <h[1-6]>.

🔸 Количество ссылок или изображений на странице уменьшается с позицией и только приблизительно линейно коррелируют до 10-го ранга, а затем меняют направление.

🔸 Интересно, что хоть TTR хуже коррелирует с позициями, но страницы обзоров с использованием партнерского маркетинга в среднем имеют самый низкий уровень TTR. Страницы обзоров без партнерских ссылок и необзорные страницы с партнерскими ссылками имеют чуть более высокий TTR, а необзорные страницы без партнерских ссылок - самый высокий.

🔸 После апдейтов среднее число аффилиат ссылок на страницу падает, хоть и в промежутках между апами вырастает.

Учитывайте, что в разных группах запросов и нишах результаты могут меняться, выводы ученых касаются только выбранной ими группы!

23.01.2024 / 07:01

Google разрывает контракт с оценщиками качества поиска

Appen объявили, что их взаимоотношения с Google закончатся 19 марта 2024-го. А ведь год назад оценщики качества протестовали в целях добиться повышения оплаты труда и даже получили повышение.

Ждем подобных новостей от LionBridge, Teemwork.ai.

Искусственный интеллект продолжает оставлять людей без работы...

Search Engine Journal
Google Terminates Contract With Appen For Search Quality Raters

Appen announced that its services with Google will end on March 19, 2024. The company provided search engine evaluations/quality raters.

22.01.2024 / 07:01

Google становится хуже? Мнение ученых!

В своем исследовании Is Google Getting Worse? A Longitudinal Investigation of SEO Spam in Search Engines немецкие ученые из Leipzig University, Bauhaus-Universität Weimar и ScaDS.AI озадачились вопросом ухудшения результатов поиска.

Коротко об исследовании:

ℹ️ В рамках исследования были проанализированы ТОП-20 поисковых систем Google (парсили правда Startpage), Bing и DuckDuckGo в течение года по 7,392 запросам на обзоры товаров.

ℹ️ Выбраны ключевые запросы по шаблону "best product category", где категории товаров брали из таксономий Google и GPC. Ученые постарались добавить в том числе ключи с длинным хвостом.

ℹ️ Эталонным поиском выбрали основанный на алгоритме BM25 поисковый движок ChatNoir, который имеет доступ к базе ClueWeb22B, содержащей 200 миллионов популярных в интернете страниц.

ℹ️ Извлекали On-page факторы, определяли является ли страница обзором, анализировали аффилиатные ссылки, категоризировали сайты.

Коротко о выводах:

🔸 В первом анализе исследуется тип контента, получаемого по запросам об обзорах товаров, и степень влияния SEO на ранжирование. Обнаружена сильная корреляция между атрибутами качества на уровне страницы и рейтингом в поисковой системе, указывающая на то, что страницы с более высоким рейтингом, как правило, более оптимизированы для SEO, больше монетизируются с помощью партнерского маркетинга и демонстрируют признаки более низкого качества текста.

🔸 Во втором анализе рассматривается, как результаты поиска меняются с течением времени и улучшают ли обновления поисковых систем качество результатов. Отмечается, что поисковые системы, особенно Google, активно борются с SEO и партнерским спамом, демонстрируя заметные, но кратковременные улучшения. Несмотря на некоторое снижение количества партнерского спама с начала эксперимента, наблюдается общая тенденция к снижению качества текстов во всех основных поисковых системах.

19.01.2024 / 08:01

Таксономии от Google

У Google есть готовые таксономии для категорий контента, а также продуктовые категории. Первые таксономии подходят для контентных сайтов, вторые для коммерции.

Content Categories:

https://cloud.google.com/natural-language/docs/categories

Google Product Taxonomy:

https://www.google.com/basepages/producttype/taxonomy.en-US.txt

17.01.2024 / 12:01

Все материалы дела U.S. and Plaintiff States v. Google LLC

На сайте justice.gov материалы дела не отсортированы по датам и выкладываются в разнобой, поэтому я написал простенькую программу, которая парсит данные со страницы и сортирует по датам от новых к старым. Актуальный результат складывается в эту таблицу для удобства:

https://docs.google.com/spreadsheets/d/1TU6UxMNdWFiKjCgM0tp94je1niWFL7Scpg-T2ZkGwxo/edit?usp=sharing

Google Docs
Google-Trial-Exhibits

Sheet1

Author:,Dart
Telegram:,<a href="https://t.me/advancedseoblog">https://t.me/advancedseoblog</a>
Twitter:,<a href="https://twitter.com/dartseo">https://twitter.com/dartseo</a>
Exhibit Number,Exhibit Title,Date Posted,Exhibit URL
UPX1011,Email from Christopher…

23.11.2023 / 12:11

Новый/старый тест Кайла Руфа

Подтверждаю! Всё еще работает, но есть нюанс, что сделать нужно всё правильно, дорвейщикам рекомендую тщательно проаналазировать :)
Примерно так же я создавал дорвеи под Google🤓

Чуть больше у Майка:
https://t.me/MikeBlazerX/2560

16.11.2023 / 07:11

Почему все считают, что на этом слайде про "анкоры"?

HTML тег <a> - это anchor element. На слайде вероятнее имеются в виду именно гиперссылки. А анкоры из лексикона сеошника - это anchor text в справке Google или link text в других источниках.

13.11.2023 / 11:11

В 2023-м я провел много собеседований под “бурж” SEO

Я участвовал в собеседованиях на своей текущей работе, а также помогал выбирать сеошников своим хорошим знакомым в предыдущие годы, поэтому могу сделать некоторые выводы по сеошникам из разных ниш.

Сразу хочу сказать, что это не про всех, а про усредненного соискателя, который приходит собеседоваться. В каждой из ниш есть хорошие “шарящие” ребята и я даже знаю их лично.

🚫Gambling, Essay, Фарма

К сожалению, на собеседования приходят очень слабые ребята, причем вне зависимости от грейда! Сениоры и даже тимлиды не знают элементарной базы. Знания часто ограничиваются ссылками и PBN. В целом получается, что кандидаты занимались тем, что делали “дорвеи вручную”, то есть сотни низкокачественных контентных сайтов, обзорников или магазинов в фарме, которые в сумме и приносили, как несколько нормальных. В их нишах это оправдано, но успешность таких схем начинает падать.

Освежить свои знания можно прочитав всю справку Google, я сам делаю это раз в полгода, в этом нет ничего стыдного.

Также есть бесплатный roadmap по современному SEO от Алейды Солис: https://learningseo.io/

Из платных курсов я бы порекомендовал подписку на https://img.courses/. Для себя часто черпаю интересные инсайты из их SEO-тестов.

Хорошие специалисты из этих ниш работают непосредственно в продуктах, знания и опыт на порядок выше, чем у аффилиатчиков, но такие ребята редко приходят на собеседования.

Агентства под “бурж”, товарка (Amazon и др.), продуктовое SEO

Ребята из агентств имеют неплохие знания и понимание современного SEO, не хватает углубленного погружения в отдельные ниши, но меньше искажений в знаниях. Неплохие кандидаты на junior plus, middle.

Товарка тоже аффилиатка, но в среднем сильные кандидаты, которые разбираются в SEO и следят за всеми изменениями в поиске. Неплохие кандидаты на middle, senior грейды.

Самые толковые ребята приходят из продуктовых инхаус команд, встретить такого кандидата сложно, но можно. Хорошие кандидаты на middle, senior грейды.

08.11.2023 / 12:11

🏄Google учитывает поведенческие факторы!

На justice.gov продолжают выкладывать вещественные доказательства суда U.S. and Plaintiff States v. Google LLC, хоть и в урезанном виде.

Совсем недавно из этих же документов мы узнали, что Google еще много лет назад категорически запретил своим сотрудникам обсуждать поведенческие факторы в каком-либо виде. Я уверен, что это не из-за того, чтобы не дай бог сеошники не узнали как работает Google, а все дело в юридических аспектах, так как пользовательские данные это самый чувствительный тип данных. Например, в GDPR входит даже сбор IP в логах вашего сервера :)

В последние пару дней мы получили вещественные доказательства того, что Google использует пользовательские данные для ранжирования результатов поиска и более того, использует данные, чтобы оценивать качество документа, поскольку статистическими методами он оценивает их минимально.

Тезисно выводы можно прочитать здесь и здесь.

Я бы хотел добавить, что не использовать пользовательские данные было бы глупо. Имея опыт работы с большими объемами трафика на своих и клиентских проектах, могу сказать, что во многих случаях методы основанные на пользовательском поведении превышают статистические методы по качеству и требуют меньше задействованных мощностей.

Также всем, кто собрался прямо сейчас заняться накрутками ПФ хочу сказать, что Google не просто так агрессивно продвигал Chrome, поскольку, например для Reasonable Surfer, который я считаю главной моделью для оценки ссылок, он вероятно собирает данные из своего браузера. Например, в дорвеестроительстве отключение некоторых видов рекламы только для Google Chrome позволяет проходить проверки на агрессивную рекламу. Поэтому скорее всего Google доверяет только данным официальных сборок Chrome.

03.11.2023 / 09:11

📊 Делаем n-граммы в Orange и анализируем

Сегодня я покажу как делать прием из предыдущего поста на примере датасета из поисковых фраз, которые дают партнерки в Dating.

Про Orange в этом посте.

⬆️ CSV File Import (1)
Я импортирую все файлы через этот виджет, поскольку он поддерживает нужные форматы файлов.
Из настроек в нем стоит выбрать кодировку вашего файла и Cell Delimiter – это разделитель, которым отделены колонки в вашем файле.

🔍 Corpus (2)
В этом виджете вы можете выбрать какие колонки игнорировать в правой части, а какие использовать в левой части.

📝 Preprocess Text (3)
В этом виджете происходит вся работа. Многие препроцессоры уже представлены по умолчанию, но некоторые нужно перетащить из списка Preprocessors в правую часть виджета. Последовательность препроцессоров нужно задать именно такую:

🔽 Transformation - нижний регистр, удаление url, html, акцентов.
🧩 Tokenization - разбиваем ключевые фразы на токены, в данном случае слова.
🚫 Filtering - отмечаем галку на Stopwords и Regexp, чтобы удалить ненужные символы и слова без смысла.
📊 N-grams Range - ставим от 1 до 2-х, чтобы в дальнейшем посчитать кол-во слов и словосочетаний.

☁️ Word Cloud (4)
Этот виджет считает количество вхождений n-грамм из предыдущего шага, делает облако слов. Анализ вполне можно провести и здесь.
Например, проводя анализ в 2020-м я заметил часто встречающиеся dating, dating online, matchmaking, hook up, speed dating, blind dating, а также singles, white, christian, black и другие. Также заметил, что многие запросы имели гео-привязку.
Я сделал странички со многими словосочетаниями вроде speed dating with black singles in jacksonville fl, и так в разных вариациях по всему миру. Как делал on-page для посадочных расскажу в другом посте.

⬇️ Save Data (5)
Нужно настроить соединение, поскольку выгрузить хотим подсчет слов, настройка открывается так же как у виджетов двойным нажатием. Соединяем Word counts слева и Data справа.
В виджете Save Data ставим галку, чтобы добавить заголовки к файлу и сохраняем в нужном формате.

01.11.2023 / 12:11
Отзывы: - 0
Поделитесь вашим мнением! Оставьте отзыв:

Похожие

Избранное