# YouTube's  Algorithms against its Diversity?, with Ethan Zuckerman
**Date de l'événement :** 06/05/2024
* Publié le 06/05/2024

### Image(s)
![Capture d’écran 2024-05-16 170707.jpg](https://firebasestorage.googleapis.com/v0/b/memory-sp-pr.appspot.com/o/prod%2F1y7CgDOTakHDiB3dgoi0%2FprojectsMedias%2FNSvP53x9imLqMLyC8fuQ%2Fthumbs%2FCapture%20d%E2%80%99%C3%A9cran%202024-05-16%20170707_1600x900.png?alt=media&token=dbde878a-1bfb-4d28-9ed7-65f2fa6989bd) 

**Écouter l'épisode :**
[Vidéo 1](https://player.ausha.co/?podcastId=w0v87FGD4Wmn&v=3&playerId=ausha-7MlV) 

## Description
In the vast landscape of the internet, YouTube stands as a behemoth, holding 14 billions of videos that shape our digital experiences. No one knew this figure before [Ethan Zuckerman](https://ethanzuckerman.com/) and his team calculated it thanks to an advanced method they created . Better yet, they didn't just count the number of videos, they also qualified them, painting a vivid picture of YouTube's cultural and linguistic diversity.  It also sheds light on the algorithmic dynamics that influence users' experiences.  
  
Ethan Zuckerman is an associate professor of public policy, communication and information at the University of Massachusetts at Amherst. He founds of the Institute for [Digital Public Infrastructure](https://publicinfrastructure.org/).

**Additional Resources:**

*   [How Big is YouTube?](https://ethanzuckerman.com/2023/12/22/how-big-is-youtube/), Ethan Zuckerman's blog Dec. 2023
*   "[Building a More Honest Internet](https://www.cjr.org/special_report/building-honest-internet-public-interest.php)" _Columbia Journalism Review_, Ethan Zuckerman, Fall 2019
*   [Media Cloud](https://www.mediacloud.org/), an open source search engine and tool for studying the open web, developed with Ethan Zuckerman

## Intervenant(s)
Ethan Zuckerman

## Intervenant(s) secondaires
Sergei Guriev

### Date de publication de l'épisode
06/05/2024

### Famille(s) de contenu
`#Recherche` 

### Type(s) de ressource
`#Audio` 

### Discipline(s)
`#Science politique` 

### Thématique(s)
`#Données / big data` `#Communication / journalisme / médias` 

### Langue(s)
`#Anglais` 

**Type(s) d'accès :** `#Accès libre` 

### Hébergeur(s)
`#Ausha` `#Apple Podcast` `#Podcast Addict` 

## Droits
Les ressources et les images visibles sur Sciences Po Sources sont susceptibles d’être protégées par un droit de propriété intellectuelle (comme par exemple un droit d’auteur ou une marque) qui peuvent appartenir à Sciences Po ou à des tiers. Pour plus de précisions notamment sur les usages autorisés et non autorisés, consulter les [Conditions Particulières d’Utilisation](https://sources.sciencespo.fr/p/cpu).


---
### Média externe associé : https://player.ausha.co/?podcastId=w0v87FGD4Wmn&v=3&playerId=ausha-7MlV

#### Résumé du média
<p>Sergei Guriev s'entretient avec Ethan Zuckerman, professeur associ&eacute; en politiques publiques, communication et information &agrave; l'Universit&eacute; du Massachusetts &agrave; Amherst, et premier pr&eacute;sident du comit&eacute; des parties prenantes du nouvel Open Institute for Digital Transformation de SciencesPo. Leur discussion porte sur les travaux de Zuckerman concernant la libert&eacute; d'expression en ligne, la r&eacute;gulation des m&eacute;dias sociaux et plus particuli&egrave;rement YouTube.</p>
<p>Zuckerman explique sa m&eacute;thode, qualifi&eacute;e de &laquo; stupide et intelligente &raquo; &agrave; la fois, pour estimer la taille de YouTube. En g&eacute;n&eacute;rant des nombres al&eacute;atoires et en extrapolant &agrave; partir des donn&eacute;es obtenues, son &eacute;quipe a pu estimer le nombre de vid&eacute;os &agrave; plus de 14 milliards. Ces donn&eacute;es sont disponibles sur le site TubeStats, qui propose des statistiques sur la croissance de YouTube, la dur&eacute;e des vid&eacute;os, le nombre de mentions &laquo; j'aime &raquo;, de commentaires et d'abonn&eacute;s. Il souligne la r&eacute;ticence de Google &agrave; partager ces informations, malgr&eacute; leur disponibilit&eacute;. L'analyse des m&eacute;tadonn&eacute;es des vid&eacute;os permet d'&eacute;tudier l'&eacute;volution des formats et des pratiques sur YouTube, comme l'&eacute;mergence de la vid&eacute;o 1080p ou l'&eacute;volution des styles de pr&eacute;sentation. Zuckerman insiste sur l'importance de consid&eacute;rer la culture comme une donn&eacute;e, et YouTube comme un vaste ensemble de donn&eacute;es culturelles.</p>
<p>La discussion aborde ensuite l'analyse automatis&eacute;e du contenu des vid&eacute;os. Zuckerman souligne le potentiel de l'analyse du son, notamment pour la d&eacute;tection de la langue et la transcription, et &eacute;voque l'utilisation d'outils comme Whisper. L'analyse d'images, bien que co&ucirc;teuse, permet d'identifier certains types de contenu, comme les &eacute;missions d'information. L'analyse manuelle reste cependant essentielle pour comprendre les nuances culturelles. Interrog&eacute; sur la r&eacute;partition des langues sur YouTube, Zuckerman exprime sa surprise face &agrave; la pr&eacute;dominance moindre de l'anglais (35%) et &agrave; la place importante de l'hindi. Il souligne la complexit&eacute; de la cat&eacute;gorisation linguistique, notamment pour l'anglais et l'hindi, souvent parl&eacute;s comme secondes langues et donnant lieu &agrave; de nombreux pidgins.</p>
<p>Enfin, la conversation se tourne vers la nature du contenu YouTube. Zuckerman met en avant l'importance d'&eacute;tudier le web &laquo; quotidien &raquo;, c'est-&agrave;-dire l'usage de la plateforme par des cr&eacute;ateurs non-influenceurs. Il souligne que le contenu politique est rare sur YouTube, et que la majorit&eacute; des vid&eacute;os sont des contenus personnels ou locaux. Il insiste sur l'importance de prendre en compte cette diversit&eacute; des usages pour comprendre l'impact de YouTube sur la soci&eacute;t&eacute;. L'&eacute;change se conclut sur la question de l'acc&egrave;s aux donn&eacute;es et l'impact du Digital Services Act (DSA) europ&eacute;en, qui pourrait, selon Zuckerman, permettre aux chercheurs d'acc&eacute;der &agrave; davantage de donn&eacute;es, bien que le processus soit susceptible d'&ecirc;tre long et complexe. Il d&eacute;fend le droit &agrave; la recherche non autoris&eacute;e, tout en reconnaissant l'int&eacute;r&ecirc;t d'une collaboration avec les plateformes.</p>

#### Mots-clés du média
`YouTube` `données et métadonnées` `algorithme et réseaux sociaux` `liberté d'expression et monde la recherche` `désinformation et biais de représentation`

#### Chapitres du média
- **L'ampleur méconnue de YouTube** (1 - 349.72): Sergei Guriev interview Ethan Zuckerman, professeur associé de politiques publiques, communication et information à l'Université du Massachussets, fondateur de l'Institut pour les Infrastructures Numériques Publiques et ancien directeur du MIT "Center for Civic Media" 2011 à 2019. Il explique comment son équipe a mesuré la taille de YouTube, révélant plus de 14 milliards de vidéos.
    - (1): Le fils de l'invité rêvait de devenir YouTubeur, illustrant l'importance de la plateforme pour sa génération selon Zuckerman.
    - (1): Ethan Zuckerman a cherché à déterminer la taille de YouTube, une question difficile même posée lors d'entretiens d'embauche chez Google.
    - (1): La méthode utilisée, qu'il appelle "drunk dialing", consiste à générer des nombres aléatoires pour trouver des vidéos et extrapoler les résultats.
    - (1): Après deux mois, l'équipe a validé une autre méthode exploitant un bug de moteur de recherche pour obtenir un échantillon aléatoire.
    - (1): YouTube compte plus de 14 milliards de vidéos.
    - (1): TubeStats, un site web créé par l'équipe, suit la croissance de YouTube, le nombre moyen de vues et les langues représentées.
- **L'opacité des données de YouTube** (350.156 - 419.047): Sergei Guriev et Ethan Zuckerman discutent du manque de transparence de Google concernant les données de YouTube.  Malgré la disponibilité des données pour l'entreprise, Google ne les partage pas avec les chercheurs, limitant la compréhension de la plateforme.
    - (350.156): Le site web TubeStats fournit des statistiques sur les vidéos YouTube, telles que la langue, la durée, le nombre de likes, de commentaires et d'abonnés.
    - (350.156): La plupart des vidéos YouTube ont peu ou n'ont pas d'engagement, comme des articles de recherche sans citations.
    - (350.156): Google possède des données sur le nombre total de vues sur YouTube, mais ne les partage pas publiquement.
- **Analyse des données et évolution de YouTube** (420.288 - 538.046): Ethan Zuckerman explique comment les données collectées permettent d'analyser l'évolution de YouTube, notamment les changements de formats vidéo et l'émergence de tendances. Il souligne l'importance de combiner l'analyse de données et l'étude culturelle pour comprendre la plateforme.
    - (420.288): YouTube ne révèle pas le nombre exact de vidéos hébergées, préférant des formulations vagues.
    - (420.288): L'entreprise ne communique pas sur la croissance ni l'origine de celle-ci. Cette discrétion vise probablement à éviter les analyses sur les prix de la publicité.
    - (420.288): Contrairement à Facebook qui offre un accès contrôlé à ses données aux chercheurs, YouTube ne propose aucun moyen d'obtenir un échantillon représentatif de son contenu.
- **L'analyse du contenu des vidéos YouTube** (539.227 - 814.28): La discussion porte sur les méthodes d'analyse du contenu des vidéos YouTube, allant des métadonnées à l'analyse audio et vidéo. Ethan Zuckerman détaille comment des outils comme Whisper permettent de transcrire et d'analyser le langage, et comment l'analyse d'image peut aider à catégoriser les vidéos.
    - (539.227): L'analyse des 150 métadonnées vidéo de l'équipe de recherche de Zuckerman permet de suivre la croissance de YouTube et l'émergence de formats vidéo.
    - (539.227): L'objectif est de traiter la culture comme des données et d'utiliser des outils numériques pour analyser de grands ensembles de vidéos en tant qu'objets culturels.
- **Diversité linguistique sur YouTube** (760 - 1080.008): Ethan Zuckerman discute de la diversité linguistique sur YouTube, soulignant la prédominance de l'anglais et du hindi. Il explique comment les catégories linguistiques peuvent être floues et comment l'analyse linguistique permet de mieux comprendre l'usage de la plateforme dans différents contextes culturels.
    - (760): L'analyse des métadonnées permet de déterminer le format, l'orientation et l'origine probable d'une vidéo (TikTok, Instagram, studio de diffusion).
    - (760): La détection automatique de la musique permet d'identifier les vidéos musicales et les compilations.
    - (760): Whisper est utilisé pour la détection et la transcription des langues, avec des niveaux de confiance ajustés pour chaque langue.
    - (760): L'analyse d'images permet de catégoriser les vidéos, notamment pour identifier les émissions d'information.
    - (760): En Corée du Sud, une grande partie des vidéos YouTube (20%) semble être des actualités de droite, potentiellement liées à un ancien président destitué.
    - (760): Des classificateurs peuvent être développés pour automatiser la catégorisation des vidéos en fonction de caractéristiques spécifiques, comme la présence d'un bandeau, de titres défilants ou d'une personne en costume.
- **Analyse manuelle et ethnographique de YouTube** (1080.348 - 1357.617): Ethan Zuckerman explique l'importance de l'analyse manuelle et ethnographique pour comprendre comment différentes cultures utilisent YouTube. Il illustre cela avec l'exemple de l'utilisation de YouTube comme réseau social par les utilisateurs hindi, contrastant avec l'approche plus centrée sur l'influence des utilisateurs anglophones.
    - (1080.348): L'anglais représente 35% des vidéos YouTube, moins que prévu.
    - (1080.348): L'hindi est la deuxième langue la plus utilisée sur YouTube.
    - (1080.348): L'anglais et l'hindi sont des catégories linguistiques floues, souvent utilisées comme langues secondes avec de nombreux pidgins.
    - (1080.348): L'espagnol est la troisième langue la plus utilisée et est plus facile à catégoriser.
    - (1080.348): L'étude analyse les vidéos par langue et observe les comportements des utilisateurs.
    - (1080.348): Hypothèse : les hindiphones utilisent YouTube comme un réseau social, tandis que les anglophones l'utilisent comme une plateforme de diffusion.
- **Caractéristiques des vidéos YouTube et durée de visionnage** (1358.077 - 1547.773): Sergei Guriev et Ethan Zuckerman discutent des caractéristiques des vidéos YouTube, telles que le nombre de vues, de likes et la durée. Ils s'interrogent sur l'impact de la langue et du contexte culturel sur ces métriques et sur la manière dont elles reflètent différents usages de la plateforme.
    - (1358.077): Les vidéos YouTube en hindi ont un nombre médian de vues de 40, de likes de 2 et une durée de 60 secondes, ce qui contraste avec les influenceurs YouTube ayant des millions de vues et d'abonnés.
    - (1358.077): L'étude analyse les vidéos YouTube en fonction de la langue, en se concentrant sur des langues comme le russe pour comprendre l'impact des événements tels que la guerre en Ukraine.
    - (1358.077): Zuckerman examine comment la durée des vidéos YouTube a évolué au fil du temps, en tenant compte des restrictions de durée imposées par la plateforme et de l'influence d'applications comme TikTok.
- **Le problème du dénominateur et l'usage quotidien de YouTube** (1548.674 - 1749.717): Ethan Zuckerman aborde le problème du dénominateur dans l'analyse de YouTube, soulignant l'importance de contextualiser les contenus extrémistes par rapport à l'usage quotidien de la plateforme. Il met en avant la nécessité d'étudier le web quotidien et l'impact de la création de contenu sur les utilisateurs.
    - (1548.674): Des chercheurs développent des outils permettant le "don de données", où les utilisateurs autorisent les chercheurs à observer leur activité en ligne.
    - (1548.674): L'étude de Brendan Nyhan et ses collègues a démontré que les vidéos extrémistes sur YouTube sont principalement regardées par un petit groupe d'hommes blancs, racistes, misogynes et extrémistes.
    - (1548.674): Le contenu politique est rare sur YouTube. La plupart des vidéos concernent des activités quotidiennes comme les jeux vidéo, les devoirs, les ventes ou les services religieux.
    - (1548.674): L'exemple d'une réunion du conseil scolaire local avec 140 vues illustre que le but de nombreuses vidéos n'est pas de devenir viral, mais de promouvoir la transparence et l'accessibilité.
    - (1548.674): Il est important de considérer la diversité des motivations des créateurs de contenu sur YouTube, qui va au-delà de la simple influence.
- **La place de la politique sur YouTube** (1750.137 - 1925.354): Sergei Guriev et Ethan Zuckerman discutent de la proportion de contenu politique sur YouTube. Zuckerman explique que cette proportion est faible et varie selon les langues et les contextes culturels. Il insiste sur l'importance de l'accès aux données pour mener ces recherches.
    - (1750.137): Il est difficile de mesurer la part des vidéos politiques sur YouTube, mais elle probablement très faible.
    - (1750.137): Une analyse manuelle a révélé une faible proportion de vidéos politiques (2 à 2,5 %), mais cela varie selon les langues.
    - (1750.137): Il est important de contextualiser l'impact des réseaux sociaux en tant que consommateurs et créateurs de contenu, en montrant à quoi ressemble les 98% du Youtube quotidien.
    - (1750.137): La capacité de créer et diffuser des vidéos est une transformation majeure dont l'impact est encore mal compris.
- **L'impact du Digital Services Act sur la recherche** (1925.955 - 2181.961): Sergei Guriev et Ethan Zuckerman discutent de l'impact potentiel du Digital Services Act (DSA) sur l'accès aux données des plateformes pour les chercheurs. Zuckerman espère que le DSA permettra un meilleur accès aux données, mais anticipe une résistance de la part des entreprises.
    - (1925.955): Le DSA est perçu comme un potentiel changement majeur dans l'accès aux données des plateformes pour les chercheurs.
    - (1925.955): Les entreprises pourraient tenter de fournir le minimum de données possible, ce qui entraînerait des contestations de la part des chercheurs et des régulateurs.
    - (1925.955): L'application complète du DSA et la clarification de l'accès aux données pourraient prendre plusieurs années.
    - (1925.955): Le DSA établit le droit des utilisateurs aux données, ce qui ouvre des possibilités de recherche sur des aspects tels que la concurrence et l'équité algorithmique.
    - (1925.955): Zuckerman défend sa méthode et l'importance de la recherche non autorisée, qui permet d'étudier les plateformes sans leur permission, malgré les avantages potentiels de l'accès aux données via le DSA.
- **L'étude des algorithmes et l'importance du contexte social** (2182.261 - 2394.692): La discussion se concentre sur les méthodes d'étude des algorithmes des plateformes, notamment l'utilisation de bots. Ethan Zuckerman souligne l'importance de prendre en compte le contexte social, la langue et le pays d'origine dans ces analyses. Il mentionne également l'importance de la coopération entre informaticiens, spécialistes des données et chercheurs en sciences sociales.
    - (2182.261): Elon Musk a publié une version, probablement simplifiée, de l'algorithme de Twitter.
    - (2182.261): Le Wall Street Journal a étudié l'algorithme de TikTok avec des bots aux profils variés (football, ski, mode, danse, dépression...).
    - (2182.261): TikTok personnalise les flux d'utilisateurs en fonction de leurs centres d'intérêt en moins d'une heure.
    - (2182.261): La recherche sur les algorithmes de recommandation YouTube est complexe et doit prendre en compte la langue et la localisation.



---
### Navigation pour IA
- [Index de tous les contenus](https://sources.sciencespo.fr/llms.txt)
- [Plan du site (Sitemap)](https://sources.sciencespo.fr/sitemap.xml)
- [Retour à l'accueil](https://sources.sciencespo.fr/)
