Natural language processing (NLP) : définition et techniques

Les assistants vocaux Alexa, Google Home et Siri reposent tous trois sur des technologies de traitement automatique du langage. Objectif : avoir la capacité de comprendre, traiter et générer des messages vocaux.

Le natural language processing (NLP), c'est quoi ?

Le natural language processing (NLP), ou traitement automatique des langues (TALN), est une branche de l’intelligence artificielle qui s’attache à donner la capacité aux machines de comprendre, générer ou traduire le langage humain tel qu’il est écrit et/ou parlé. Les chatbots figurent par parmi les logiciels de NLP les plus populaires. Autres applications de NLP célèbres : les assistants vocaux Alexa, Google Home ou encore Siri.

Pourquoi le NLP ?

Le natural language processing a pour but de doter les logiciels de processus de traitement automatique du langage vocal ou textuel. Partant de là, il recouvre de nombreux cas d'usage plus ou moins élaboré :

La classification de texte,
La reconnaissance de texte,
Le résumé automatique,
La traduction automatique,
Les chatbot, voicebot ou callbot,
Les assistants intelligents.

Comment fonctionne le NLP ?

Le NLP combine intelligence artificielle et traitement linguistique. La dernière génération des technologies de NLP s'adosse à des réseaux de neurones artificiels ou de simples modèles de machine learning statistiques. Des modèles d'apprentissage auront été entrainés sur des volumes importants de texte.

L'objectif peut cibler plusieurs types de traitement automatique : le speech-to-text et le text-to-speech, la reconnaissance d'entités nommées (noms de personnes, lieux...), l'analyse de sentiments (positif, négatif, neutre), la synthèse de texte, l'extraction d'aspects (ciblage de l'intention du texte) ou encore la modélisation de sujets.

Quels sont les deux types de modèles de machine learning en NLP ?

Globalement, le natural language processing se décline en deux grandes catégories de modèles de machine learning :

Les modèles de machine learning orientés NLU (natural language understanding) qui s'attachent à saisir le sens d'une langue et d'un discours dans son contexte,
Les modèles de machine learning orientés NLG (natural language generation) qui ont pour but de générer un texte à la manière d'un humain.

Quelques exemples de modèles de deep learning orientés NLP

Si le traitement du langage naturel existe depuis longtemps, les progrès réalisés récemment dans ce domaine sont considérables. Les projets de NLP orientés intelligence artificielle se sont notamment multipliés chez les géants du numérique. Parmi les modèles les plus en pointe, on peut citer :

Les modèles BERT et ALBERT de Google AI,
Les modèles dérivés de cette première famille comme RoBERTa (Facebook), StructBERT (Alibaba), DeBERTa (Microsoft), DistilBERT (Hugging Face),
Les modèles alternatifs comme GPT-2 et GPT-3 (OpenAI), XLNet (Université Carnegie Mellon), UniLM (Microsoft), et Reformer (Google).