Text mining : définition, techniques et outils
Le text mining permet de transformer des contenus textes en données exploitables pour, par exemple, automatiser un service client. Il fait appel à un grand nombre de techniques et d'outils, dont certains open source, et au langage Python.
Le text mining, c'est quoi ?
Le text mining est une discipline de l'intelligence artificielle qui regroupe l'ensemble des méthodes et outils permettant d'exploiter les contenus textuels comme des e-mails, des documents bureautiques ou des billets sur les réseaux sociaux. Pour organiser et structurer les textes et les transformer en données exploitables, elle fait notamment appel à des techniques d'analyse linguistique ou de traitement du langage naturel (NLP).
Exemple de text mining
Entre autres cas d'usage, le text mining permet d'automatiser et d'optimiser un service de relation client. En analysant le contenu de messages entrants (e-mails, SMS, courriers…), il est possible de trier automatiquement les demandes clients en fonction de leur objet mais aussi de les prioriser. Cela suppose de déceler l'intention de l'expéditeur et le niveau d'urgence de sa requête. En opérant rapidement ce premier tri, le text mining désengorge la file d'attente et améliore l'expérience client. Il permet aussi d'analyser les commentaires ou avis laissés sur un site web et d'évaluer en temps réel le niveau de satisfaction client.
Les techniques de text mining
La première étape consiste à extraire automatiquement les informations des documents papiers grâce à a reconnaissance optique de caractères (OCR). Une fois le texte éditable, le traitement du langage naturel (NLP) entre en jeu pour l'explorer. Différentes techniques d'analyse sémantique permettent ensuite d'identifier des mots clés, apparaissant fréquemment ou de façon concordante. La détection d'une langue, la détection de l’intention ou l'analyse de sentiments aboutissent à une classification de texte. Une solution de text mining peut reposer sur des règles linguistiques codées en dur ou sur des modèles de machine learning apprenant par eux-mêmes à partir d'un jeu de données étiquetées. Comme de nombreuses applications d'IA, le text ming fait un large appel au langage Python.
Les outils de text mining
Il existe un grand nombre d'outils de text mining. On peut citer MonkeyLearn, Keatext, RapidMiner ou Q°emotion. Les hyperscalers proposent aussi des solutions dédiées comme Amazon Comprehend d'AWS ou IA Natural Language de Google.
Le text mining open source
Il existe des alternatives open source aux solutions propriétaires comme TEXMiner, Texable ou DataMelt.