P130 - Étude préliminaire sur une approche hybride OCR – NLP pour la pseudonymisation des documents médicaux scannés

Revue d'Épidémiologie et de Santé Publique(2023)

引用 0|浏览8
暂无评分
摘要
Les établissements de santé disposent, dans les dossiers médicaux électroniques, d'une quantité importante de données permettant la prise en charge des patients ou l'utilisation pour des études épidémiologiques. Une grande partie de ces éléments sont stockés dans des formats difficilement exploitables (PDF ou image) et ne sont pas facilement accessibles. L'anonymisation de ces fichiers permettrait leur diffusion et leur partage plus aisément. Nous avons développé l'outil NORA qui utilise un ensemble de techniques de reconnaissance optique de caractères (OCR) et de traitement du langage naturel (NLP) pour pseudonymiser ou anonymiser les documents scannés. NORA a été développé en utilisant les librairies OpenCV, Pytesseract et spaCy pour créer un fichier texte pseudonymisé et également une version du fichier image pseudonymisé. Dans un premier temps, les images des documents médicaux sont prétraitées en utilisant OpenCV pour la soumettre à l'étape d'OCR par Pytesseract. Le texte extrait est ensuite analysé par une pipeline pré-entraînée disponible sur spaCy, une bibliothèque NLP avec des modèles pour la reconnaissance d'entité nommée (NER). Un fichier texte est créé où les noms (entités PER) détectées par spaCy et les noms détectés par des expressions régulières grâce aux titres (Dr, Mme, etc.) sont remplacés par NOM. NORA recherche les dates pour les remplacer par une fausse date et les identifiants, numéros de téléphone, codes alphanumériques et fax par un code aléatoire. Par ailleurs, avec OpenCV, les noms, dates et codes à pseudonymiser sont localisés sur l'image originale et cachés par une image blanche avec le nouveau texte superposé. Nous avons évalué les performances de cette méthode sur 50 documents médicaux scannés de provenance diverse. Dans la phase d'extraction et d'anonymisation du texte, produisant des fichiers.txt, NORA a correctement reconnu et remplacé par un faux code 40 des 41 numéros de dossier patient (98 %). Sur les 627 noms, 497 ont été supprimés et remplacés par NOM (79 %), et sur les 180 dates, 168 ont été identifiées (81 %). Sur 161 numéros de téléphone, codes alphanumériques et fax, 130 ont été correctement supprimés du texte (93 %). L'outil a détecté et remplacé 139 mots n'appartenant pas au texte à pseudonymiser, notamment des résultats alphanumériques. Les premiers résultats sur la conversion du fichier original en image pseudonymisée montrent que cette tâche est complexe. Bien que la plupart des informations soient masquées, on retrouve des noms et dates dans les images pseudonymisés alors qu'ils sont correctement pseudonymisés dans le fichier texte. Ces résultats préliminaires montrent que l'utilisation de l'approche hybride pour la transformation et pseudonymisation des documents médicaux en fichier texte est intéressante. Concernant la conversion du fichier numérisé en image pseudonymisée, des développements supplémentaires sont nécessaires en raison de la division des mots en blocs séparés par Tesseract, qui rend difficile la détection et couverture de certains mots dans l'image. Pour que NORA soit utile, elle doit donner des résultats beaucoup plus fiables. Nous envisageons une détection plus efficace des entités nommées par le modèle NER avec l'aide de données d'entraînement annotées manuellement et une analyse de la meilleure méthode de prétraitement d'image pour améliorer les performances d'OCR. Reconnaissance optique de caractères, Reconnaissance d'entité nommée, Pseudonymisation, Documents médicaux scannés Les auteurs n'ont pas précisé leurs éventuels liens d'intérêts.
更多
查看译文
关键词
ocr,nlp,p130,une
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要