L’intelligence artificielle générative de Midjourney a été mise en ligne en version bêta le 12 juillet 2022. À ce jour, une de ses créations a remporté le premier prix d’un concours d’art [1], un manga entièrement conçu par son intelligence artificielle a été publié au Japon [2], la V5 de son algorithme s’est trouvée au cœur d’un scandale de « fake news » impliquant une photo du pape en doudoune blanche et des photos du Président de la république ramassant des poubelles [3], ce qui a eu pour effet de pousser son fondateur David Holz, à supprimer les accès gratuits au service [4].
Outre les questions relatives à la protection des contenus générés par une intelligence artificielle par le droit de la propriété intellectuelle, qui sont traitées dans un article précédemment publié [5], quid de la protection des contenus utilisés par les intelligences artificielles à des fins d’entraînement de leurs algorithmes et de création de contenu graphique ?
Les données utilisées afin d’entraîner les algorithmes d’une intelligence artificielle peuvent être soumises à différents types de protection par la propriété intellectuelle tels que les droits d’auteurs, les brevets, les marques ou les secrets commerciaux. En outre, comme nous l’avons vu récemment, ces données peuvent également être protégées par la législation relative à la protection des données à caractère personnel [6].
Plus particulièrement, en ce qui concerne le droit d’auteur, l’utilisation d’œuvres protégées pour l’entraînement d’algorithmes d’intelligence artificielle peut être considérée comme une violation du droit d’auteur si elle est effectuée sans l’autorisation préalable des titulaires de droits. Toutefois, la question de savoir si une telle utilisation est une violation des droits de propriété intellectuelle dépend des circonstances spécifiques de chaque cas, mais également du pays dans lequel on se trouve.
En France, la loi dispose que toute reproduction utilisation ou adaptation d’une œuvre sans autorisation du titulaire des droits est susceptible de caractériser le délit de contrefaçon. Par ailleurs, la jurisprudence ajoute que l’appréciation des œuvres contrefaites s’opère au regard des ressemblances entre l’œuvre protégée et l’œuvre contrefaisante et non au regard des différences entre les deux. Au sein de l’Union européenne, chaque État membre a sa propre législation en matière de droit d’auteur, l’appréciation de la contrefaçon est donc différente selon les pays. Dans les pays anglo-saxons, c’est le copyright qui est applicable et sa logique est différente de celle du droit d’auteur puisqu’il vise à protéger en priorité les intérêts commerciaux des auteurs, tandis que le droit d’auteur intègre la protection des droits moraux des auteurs.
Plusieurs actions en violation du copyright par les applications d’intelligence artificielle génératives ont été initiées au cours des derniers mois. Une action collective pour violation du copyright à l’encontre de Stability AI, Midjourney et DeviantArt est actuellement examinée par le Tribunal du district Nord de la Californie [7]. La banque d’image Getty Image a quant à elle attaqué Stable Diffusion en justice pour avoir entraîné son intelligence artificielle sur sa banque d’image, comptant plus de 12 millions d’œuvres, sans autorisation ou compensation financière pour les auteurs [8].
Toujours aux États-Unis, Apple a récemment dû cesser d’entraîner son intelligence artificielle de lecture de livres audio grâce aux contenus de lecteurs humains de livres audio, après l’opposition de leurs syndicats à une telle pratique [9].
La question de la violation du copyright et du droit d’auteur par les intelligences artificielles génératives est donc complexe et déterminée par le droit applicable. Nous attendons avec impatience le résultat des actions qui ont été portées devant les tribunaux outre-Atlantique et il ne fait aucun doute que nous aurons également prochainement un exemple français à suivre.
La régulation du développement et de l’utilisation de l’intelligence artificielle est en cours et va se poursuivre dans les années à venir. En Europe, la Commission européenne a publié en avril 2021 une proposition de règlement sur l’intelligence artificielle dont l’adoption définitive est attendue pour 2023. Une fois adopté, le texte sera immédiatement applicable au sein de l’Union européenne. Cette proposition vise à protéger les droits fondamentaux tout en encourageant le développement et l’innovation de l’intelligence artificielle en Europe, en fixant des exigences strictes en matière de transparence et de responsabilité des systèmes d’intelligence artificielle.
Cette proposition de règlement s’intègre dans une approche globale du développement et de l’utilisation de l’intelligence artificielle et non dans une approche sectorielle. Par conséquent, le texte ne concerne pas directement le cas des intelligences artificielles génératives et du contenu sur lequel elles s’entraînent.
Cependant, une partie du texte s’avère intéressante au regard du cas qui nous intéresse : l’exception de data mining au profit des intelligences artificielles. Cette exception permettrait aux développeurs d’intelligence artificielle d’utiliser des ensembles de données protégées par le droit d’auteur ou d’autres droits de propriété intellectuelle à des fins de recherche ou d’innovation. Il est précisé que cette exception ne s’appliquerait que si l’utilisation des données n’est pas faite à des fins commerciales et si les développeurs prennent des mesures raisonnables pour empêcher l’accès non autorisé ou la copie des données.
L’exception de data mining est similaire à l’exception de text et data mining exprimée dans la directive européenne sur le droit d’auteur, adoptée en 2019 et qui vise à harmoniser les règles de l’Union européenne en matière de droit d’auteur. Ces deux textes européens s’inscrivent dans une logique de favorisation du développement de l’intelligence artificielle grâce à son entraînement sur des contenus préexistants, tout en préservant les intérêts économiques des créateurs des contenus préexistants grâce à la mise en place de mesures de restriction d’accès. Il apparaît donc que la protection du droit d’auteur et du copyright des contenus sur lesquels sont entraînées les intelligences artificielles pourrait être exclusivement mise en œuvre via le déploiement de solutions techniques intégrées aux applications d’intelligence artificielle et dont le rôle sera de restreindre l’accès au contenu [10].
Outre-Atlantique, le Congrès a examiné plusieurs projets de loi sur l’intelligence artificielle, mais à l’instar de l’Union européenne, aucun ne portait précisément sur le sort des contenus utilisés afin d’entraîner les algorithmes des intelligences artificielles génératives.
Dans l’attente du développement de la législation sur le cas spécifique des intelligences artificielles générative et de la propriété intellectuelle, il est permis de penser que la jurisprudence jouera un rôle essentiel dans l’élaboration d’une doctrine sur le sujet, comme cela a été le cas pour la question de la protection par la propriété intellectuelle des créations générées par une intelligence artificielle [11].
En l’absence actuelle de régulation sectorielle et de prise de position de la jurisprudence sur le sort des contenus utilisés afin d’entraîner les algorithmes des intelligences artificielles, des solutions techniques sont mises en place, tant par les développeurs des intelligences artificielles que par les titulaires des droits de propriété intellectuelle.
Du côté des développeurs d’intelligences artificielles génératives tout d’abord, la technique de « l’opt out » a été mise en œuvre notamment sur DeviantArt [12]. Cette technique permet aux auteurs qui ne souhaitent pas qu’une intelligence artificielle ait accès à leur contenu afin d’entraîner son algorithme, de le faire savoir et de retirer leur contenu de la base de données accessible à l’intelligence artificielle. De son côté OpenAI et Meta ont noué un partenariat avec Shutterstock leur permettant d’entraîner leurs intelligences artificielles grâce à la banque d’image. En contrepartie, les utilisateurs de Shutterstock bénéficient d’un accès direct au programme d’intelligence artificielle générative Dall-E [13].
Du côté des titulaires des droits de propriété intellectuelle ou de leurs représentants, des stratégies de protection des contenus sont également mises en œuvre. À titre d’exemple, contrairement à Shutterstock, d’autres banques d’images se montrent plus prudentes sur le sujet des images générées par une intelligence artificielle, comme Getty Images, qui a interdit le chargement et la vente de telles images, ou Adobe Stock qui en autorise la vente à condition que cela soit clairement précisé.
Des applications et sites web ont spécifiquement vu le jour dans le but de permettre aux titulaires de droits de propriété intellectuelle de protéger leurs créations face au web scrapping auquel se livrent les intelligences artificielles. Le site web Have I been trained ? [14] propose aux internautes d’effectuer une recherche au sein de la base de la données publiques Laion-5B, qui est utilisée afin d’entraîner notamment l’intelligence artificielle générative Stable Diffusion, en vue de savoir si leurs images ont servi à entraîner une intelligence artificielle ou pas.
Dans le même esprit, l’application Glaze propose la pose d’un « vernis » numérique sur les créations, afin d’en perturber la lecture par les intelligences artificielles génératives qui essaieraient de s’en servir [15]. De l’aveu de ses concepteurs, cette application est une solution d’urgence qui sera certainement contrée par les applications d’intelligence artificielle générative rapidement, mais propose pour l’heure une solution satisfaisante contre l’utilisation non consentie de contenus par les intelligences artificielles.
Lien vers l'article publié dans la revue Village Justice.
[9] https://www.wired.com/story/apple-spotify-audiobook-narrators-ai-contract/
[10] Cf. paragraphe suivant pour les premiers exemples de ces mesures.
[11] https://www.copyright.gov/docs/zarya-of-the-dawn.pdf
[14] https://haveibeentrained.com/