Formation IX Labs - SEO Technique : crawls, logs et data

Liens slides

Introduction :

SEO technique - points de vue différents sur le SEO technique entre les SEO

Vision classique - 3 piliers ⇒ pyramide 3 piliers / technique = premier pilier

SEO TECHNIQUE

On-page

Structure (focus premier jour) :

"Philosophie" : se mettre à la place des robots

Perte de temps pour le robot si url avec erreur, code source complexe, page lente ⇒ il faut faire gagner du temps à GGbot

https://motherfuckingwebsite.com/

1 - Dashboard SEO

"On n'améliore que ce que l'on mesure"

Objectifs du dashboard :

Parfois il faut plusieurs dashboard selon le public (management, équipe dév, données seo, etc)

Le but n'est pas de tout stocker et archiver.

5 minute rule :

Pas d'action précipité : ce n'est pas parce que ton tool dit que le traf baisse qu'il faut fix quoi que ce soit.

Tools :

2 - Isoler le trafic SEO par type de page ou par catégorie

Exemple : /blog/, /predictions/, /promocodes.

3 - Trafic par device

Sur GA ⇒

Google discover - opportunité de traf supplémentaire - pas natif dans analytics - peut-être suivi pour voir les pics de traffic

Détection d'anomalies :

Exemple de segments

Visites SEO desktop / mobile / tablette / home / conversion

Visibilité

Vision globale : évolution / tendances

Calculer distance sur la serp en termes de pixels : myposeo / monitorank / aussi dispo dans dataforseo

Rapport de couverture

Autres indicateurs intéressants : fréquence/vitesse de crawl

Monitoring (oseox, oncrawl...)

Pages dans la structure

Nb pages crawlées

Indexable canonical pages

Non index pages

Non canonical pages

→ permet d'automatiser le recettage suite MEP (voir rapidement les potentiels pb)

Liens entrants / temps de chargement

Visibilité des concurrents

On peut automatiser ce monitoring via outils : Excel, gg sheets, data studio, tableau, qlik, homemage + a tester SEO tools for excel / supermetrics for excel, GDS, GG Sheets

Pour la visualisation, plusieurs bibliothèqes js : d3js.org

Alerting pour Analytics (alertes personnalisées)

Possible si baisse de traf de x%

Alertes google https://www.google.fr/alerts possible de mettre site:domain . com inurl:preprod

Résumé :

Crawler : logiciel pr parcourir une page une/analyser le contenu/extraire éléments

Différents besoins de crawl :

1- Crawl complet ⇒

2- Crawl partiel ⇒

3- Scrap ⇒

Rendering javascript :

Deux phases d'indexation :

Dans SF : menu config > spider > onglet rendering > enable

Plugin chrome view rendered source : https://chrome.google.com/webstore/detail/view-rendered-source/ejgngohbdedoabanmclafpkoogegdpob

Outils ppaux >

Screaming Frog (le plus connu et simple)

Autres :

Botify (fonctionnalités les plus avancées)

Oncrawl (fonctionnalités les plus avancées)

Deepcrawl

Kelogs

Seolyzer

Crowl.tech : https://www.crowl.tech/#features (tool Julien deneuville)

Config du crawl :

Pour ne pas recommencer :

Quand crawl fini :

Erreurs ?

Liens pétés :

Redirection internes :

Erreurs serveur :

Codes réponse :

Si full 200 ⇒ peut être suspect, vérif une page qui n'existe pas et voir le code

Pages bien indexables ?

Contenu dupliqué ?

Canonical = rustine (dernier recours) - pas sûr que gg choisisse la même url que nous à mettre en avant - logique de faire gagner du temps = nope

Qualité du contenu : à tester avec YTG/1.fr

Maillage interne

Pages importantes ⇒ le moins profondes possibles

Objectifs :

Moyens :

Pagerank/surfeur aléatoire

Surfeur aléatoire : visite une page, clique au hasard sur un lien de la page, parfois choisit de ne pas cliquer. Pagerank = probabilité que le surfeur arrive sur une page.

⇒ "surmailler" les pages stratégiques

⇒ liens dans le contenu ont un poids plus important

⇒ le pagerank interne est corrélé avec : le nombre de visites ggbot/traf seo généré

Le site est il rapide ?

Indicateur essentiel :

Les données dépendent de l'outil utilisé/connexion

Outil de référence : webpagetest.org

Protip : catégorisation/segmentation des pages

Croiser les données :

SF > config > API Access

https://www.databulle.com/blog/code/crawl-analysis-in-python.html

Pagerank : peut se calculer avec / sans les liens NF et en prenant en compte / ou pas les liens doublons.

Comparer pagerank vs sessions des pages

Pour content pruning = on peut prendre jusqu'à 1 an de data pour les pages inactives (parfois sites à saisonnalité)

Pagination : sert à rendre accessible le catalogue

Python : intérêt traitement de données/générer visu / croiser données

Crawl smarter : crawler souvent, après chaque mep, de temps en temps. Ne pas tjs tout crawler/selon site 4 ou 5 niveau de depth suffit. Conserver les données

15-10 : canalyse de logs / crawl vs logs / maillage interne

[inclure ppt]

Logs intéressants pour :

Possible d'add des infos supp dans les logs : temps de réponse / port utilisé / adresse ip du serveur

Pb possibles sur logs IIS :

A comparer :

Nouveau rapport dans la seach console

>on peut y voir quels types de fichiers sont crawlés

Pour filtrer le traf des visiteurs :

On peut identifier des pb de tracking

Filtrer données terminal - visualiser dans excel

A analyser :

500 : pb de code

503 : serveur tient la charge? Code maintenance, dis à gg que temporaire

4xx :

Comparer :

Si bcp plus d'urls logs, possible crawl des ressources (css js...)

Si pas assez :

Pb d'indexation :

Page pas indexée, visitée par gg ⇒ pb de qualité de contenu

304 ⇒ bien pour les ressources statiques

sur les pages ⇒ être sûr qu'elles ont pas changé

si on renvoie une 304 et page modifiée là il y a un pb

Maillage interne à improve pour avoir plus de crawl des pages importantes

Codes réponse par heure permet de relever des soucis, pic d'erreur par exemple

Crawl par catégorie, permet de mettre en avant certaines choses :

Crawl par profondeur

Maillage interne (objectifs) :

Pas de recette miralce : ce qui fonctionne sur un site ne fonctionnera peut etre pas sur un autre site

Pagination

Maillage transverse : intéressant (exemple amazon - ux + seo)