Procédures générales de filtrage de trafic non-valide

Précédent Suivant

Triton Digital utilise des techniques basées sur des identifiants, des activités et des modèles basés sur les données des fichiers journaux dans le but d'identifier et de filtrer (exclure) les activités non valides, y compris, mais sans s'y limiter, les activités non humaines connues et suspectées et les activités humaines suspectées non valides. Cependant, l'identification et l'intention de l’utilisateur ne pouvant pas toujours être connues ou discernées par l'éditeur, l'annonceur ou leurs agents respectifs, il est peu probable que toutes les activités non valides puissent être identifiées et exclues des résultats du rapport. Les détails de nos techniques sont décrits ci-dessous.

Données de journal non-valides ou corrompues

Les sessions ou les pings de suivi des auditeurs qui ne sont pas conformes au format requis entraînent l'exclusion des données non valides ou corrompues des mesures de rapport.  Les éditeurs reçoivent une documentation sur le ping de suivi des auditeurs requis et les formats de session CDN tiers.  Il est de la responsabilité des éditeurs de mettre en œuvre ces techniques nécessaires à la bonne collecte des données.

Règle Une minute

En raison de la nature de l'activité de streaming et du comportement général du trafic lié aux robots/araignées, Triton Digital utilise un processus par lequel les sessions de streaming d'une durée inférieure à une minute sont considérées comme non valides et sont supprimées de toutes les données de mesure collectées. Cette règle réduit le bruit des sessions extrêmement courtes, des activités robotiques et des problèmes de connectivité initiaux.

La règle s'applique aux deux méthodes de collecte des données. Quand les fichiers de connexion sont fournis par le CDN, les sessions d'une durée inférieure à une minute ne sont pas insérées dans le tableau de la base de données utilisé par Webcast Metrics. Lorsque la collecte de données est effectuée par la méthode du suivi des auditeurs, une session est considérée comme active à partir du premier événement ping, qui se produit après 60 secondes.

Les sessions d'une durée inférieure à 60 secondes sont exclues des mesures brutes et nettes déclarées.

Fichier d'instructions du robot

Triton Digital utilise le fichier d'instructions du robot (robots.txt) dans le répertoire racine des serveurs de suivi des auditeurs et de streaming de Triton Digital.

Identification spécifique d'activité non-humaine

Triton Digital utilise la liste internationale des spiders et des bots de l’IAB/ABCe fournie par la liste des spiders et des bots* afin d’exclure des données collectées le trafic du site associé à l’activité robotique. Par exemple, ce processus de filtrage nous permet d'exclure les requêtes HTTP des robots des moteurs de recherche (Google, Bing, Yahoo, etc.). Cette liste est maintenue par l'Interactive Advertising Bureau (IAB) et mise à jour mensuellement.

Des listes supplémentaires sont utilisées et mises à jour par Triton Digital afin d'exclure des agents utilisateurs non valides ou inclure des agents utilisateurs valides, si ces agents ne sont pas reflétés à temps dans la liste des araignées et robots internes de l'IAB/ABCe.

* Pour plus d’informations, rendez-vous sur : https://www.iab.com/guidelines/iab-abc-international-spiders-bots-list/

Exclusion du centre de données

Triton Digital utilise la liste d'adresses IP du centre de données TAG afin d'exclure le trafic du centre de données non humain identifié par le secteur. Par exemple, les données des systèmes de surveillance de flux du centre de données d’Amazon sont filtrées. Cette liste est maintenue par le Trustworthy Accountability Group (TAG) et mise à jour chaque mois.

Filtrage basé sur l'activité

Afin d’exclure les anomalies de données générées par un trafic non-valide, Triton Digital utilise plusieurs niveaux de procédures de détection basées sur les activités. Les techniques de détection de trafic non-valide existantes et les tendances des données sont évaluées pour effectuer des améliorations potentielles à notre suite de procédures de détection basées sur les activités.  

Le trafic non-valide généré par des mises en œuvre incorrectes des éditeurs ou par des sources potentielles de trafic non-valide, est discuté avec l'éditeur dans le but de résoudre le problème sous-jacent et de réduire les niveaux globaux de trafic non-valide.  

Trafic généré en interne

Sur la base de l'adresse IP, Triton Digital supprime les données de session de flux générées en interne des données de mesure collectées. Le personnel de Triton Digital utilise un réseau privé virtuel (VPN) qui est un réseau informatique utilisant Internet pour fournir un accès sécurisé aux utilisateurs des bureaux pour le trafic interne. L'adresse IP VPN est bloquée pour les fonctions de collecte et de rapport ou exclue en tant que trafic non-valide. Cette règle s'applique aux deux méthodes de collecte des données et elle s'effectue au niveau de la base de données. Triton Digital supprime également le trafic généré en interne par le biais de stations ou d'éditeurs participants sur la base d'une liste d'adresses IP fournies par l'éditeur.

Règle d'inactivité

Triton institue une « règle d'inactivité » spécifique, par laquelle, après un seuil prédéterminé, la durée de la session n’est pas autorisée à contribuer aux mesures du rapport le temps supplémentaire passé à écouter. Les sessions d'une durée supérieure à vingt-quatre heures sont tronquées au bout de vingt-quatre heures conformément à la règle d'inactivité de Triton Digital. Le temps accumulé avant ce seuil est considéré comme potentiellement valable pour la session. En plus de cette règle d'inactivité, la session est évaluée par rapport aux procédures de détection de trafic non-valide de la suite Triton Digital.

Des règles d'inactivité supplémentaires peuvent avoir été appliquées par l'éditeur pour continuer le streaming numérique ainsi que la mesure d'une session une fois que l'utilisateur a confirmé la poursuite de l'écoute.