Merci de désactiver le bloqueurs de pub pour visualiser cette vidéo.

L'intelligence artificielle, vers de nouveaux apports pour les régulateurs

A l’occasion d’une étude sur l’usage de la Data Science pour des objectifs de supervision, l’Autorité des marchés financiers a exploré les potentialités offertes par les technologies de traitement automatique du langage naturel dans l’analyse des documents établis par les sociétés cotées. Le régulateur a fait porter sa première expérimentation sur la communication des entreprises sur les risques auxquels elles sont exposées.

Dans le cadre de son programme ICData d’exploitation plus intensive de la donnée, l’AMF s’est fixée plusieurs axes majeurs parmi lesquels l’exploration du traitement automatique des données, telle que la lecture automatique de documents. Une première expérimentation, dont les résultats font l’objet d’une publication, permet d’explorer les potentialités offertes par l’une des branches de l’intelligence artificielle, le traitement automatique du langage naturel (natural language processing ou NLP en anglais).

Apprentissage profond pour l’analyse des facteurs de risque

Pour tester ces possibilités, l’étude a été réalisée sur la section facteurs de risques de plus d’une centaine de documents d’enregistrement universel de sociétés cotées sur une période allant de 2012 à 2020. La difficulté d’une lecture automatique de ce type de contenu réside notamment dans la variété des facteurs de risques et de leur présentation, parfois imbriqués, mais les récentes avancées en apprentissage profond (deep learning en anglais) sont susceptibles de gérer certaines de ces complexités.

Extraction automatique de données et leur visualisation

Cette première étude montre qu’il est possible, de façon automatique, d’appréhender la répartition des risques par secteur ou par émetteur et de suivre leur évolution dans le temps. Il est également possible de détecter les variations les plus importantes d’une année sur l’autre dans les degrés de mention de chacun des risques présentés. A titre d’illustration, l’outil développé a permis de mettre visuellement en évidence l’émergence de la présentation du risque pandémique dans les documents publiés en 2021 (au titre de l’année comptable 2020) ainsi que la croissance continue du risque de sécurité informatique.

L’importance du format des données

Cette première expérimentation laisse entrevoir un usage plus étendu à terme du traitement automatisé en soutien des actions de supervision des régulateurs. L’exploitation automatique des documents règlementaires suppose toutefois l’usage par les acteurs régulés de formats plus facilement exploitables par l’ordinateur. Elle requiert également que les acteurs suivent de bonnes pratiques pour une meilleure qualité des fichiers, en utilisant par exemple des balises appropriées pour mieux structurer à la fois le texte et les tableaux figurant dans leurs documents et permettre ainsi une lecture automatique efficace.

Travaux NLP à venir

L’AMF prévoit de poursuivre ses travaux en NLP en 2023 autour des thématiques de protection des épargnants, de surveillance des réseaux sociaux et de finance durable.