Options Mon compte Next INpact
Affichage
Modifications sauvegardées
  • Smileys
  • Images
  • Commentaires par actu
  • Commentaires sous les news
  • Taille de police
Close

Vous consultez la version mobile de ce contenu.

Cliquez ici pour être redirigé vers la version complète, ou attendez 5 secondes. Fermez ce pop-up pour continuer sur la version mobile.

5
secondes
Bercy généralise l'utilisation du datamining
Justice Crédits : "P11701340" by OpenMinTeD CC BY 2.0

Bercy généralise l'utilisation du datamining

All your base are belong to usE
7 min

Il n'y a pas que #BigBrotherBercy au Minefi. Non contente d'être le pays qui a échangé « le plus de renseignements » au sujet de ses contribuables avec ses partenaires européens, la France commence à tirer les fruits de la généralisation du datamining en matière de lutte contre la fraude, « à l'origine de 14 % des opérations de contrôle » en 2018.

Dans l'introduction à son rapport sur « les grandes tendances du bilan 2018 de la lutte contre la fraude aux finances publiques », qui vient d'être rendu public, la Délégation nationale à la lutte contre la fraude (DNLF) se félicite que « de forts investissements réalisés en matière numérique et de science des données par de nombreux partenaires ont contribué à une meilleure identification des risques de fraude et à un meilleur ciblage des contrôles ».

« La France s’est fortement impliquée dans le développement des échanges automatiques au niveau multilatéral », se félicite ainsi la DNLF en guise de préambule. Au point que « concernant l’échange automatique sur les revenus, au niveau européen, la France est le pays qui a envoyé le plus de renseignements (sur 1,8 million de contribuables) et qui en a reçu le plus (sur presque 1 million de contribuables) ».

Une chose est d'échanger ou de collecter les données, une autre est de les traiter. En matière d'analyse du risque, la Direction générale des finances publiques (DGFIP) a de son côté « entrepris de généraliser l'utilisation du datamining et de l'analyse-risque » au point qu'« en 2018, les productions issues du service centralisé d'analyse de données ont été à l'origine de 14 % des opérations de contrôle ».

« Une cinquantaine de requêtes reposant sur des techniques d'apprentissage automatique ou d'analyse risque » ont été développées à cet effet, de sorte que l’application de ces requêtes et modèles statistiques puisse couvrir une grande partie des risques fiscaux, « dont une quinzaine relatifs à des fraudes en matière de TVA » et de déterminer, automatiquement et pour chaque entreprise, une « cotation traduisant le niveau de son risque fiscal ».

Plus de 24 000 dossiers, dont 12 700 comportant au moins une problématique en matière de TVA, ont ainsi été envoyés aux services de contrôle en 2018.

Du datamining pour lutter contre les biais de sélection

Suivant les recommandations d'un rapport du Conseil national de l’information statistique (CNIS) de juin 2017 consacré à « la mesure du travail dissimulé et ses impacts en termes de finances publiques », la DNLF a également engagé des travaux de recherche pour contribuer à la mesure et à l’évaluation du travail dissimulé. 

Le rapport du CNIS estimait en effet que « malgré les efforts faits par les comptables nationaux, les estimations de fraude qu’ils retiennent en se fondant sur l’analyse des résultats des contrôles fiscaux ne tiennent qu’imparfaitement compte du biais de sélection lié au fait que les services fiscaux ciblent leurs contrôles sur les entreprises qu’ils jugent les plus susceptibles de frauder ».

Il appelait dès lors au développement de « méthodes de ciblage permettant la correction du biais de sélection dans l’évaluation de la dissimulation (« data mining ») », à mesure que le fait de « mieux identifier les critères motivant un contrôle fiscal (notamment si la DGFiP développe des contrôles fondés sur le datamining) permettrait d’obtenir des estimations plus fiables de la fraude ».

Le CNIS estimait par ailleurs « essentiel de mener des travaux statistiques de type datamining sur la population des particuliers-employeurs afin de favoriser l'identification des situations à risques ». En matière d'économie collaborative, il prônait une « mobilisation accrue des traces numériques laissées par les transactions en ligne, ce qui suppose de mettre en œuvre des techniques de type big data », notamment au sujet des micro-entrepreneurs.

Mais c'est du côté de l'agriculture que la DNLF s'est penchée, avec la signature d'un premier contrat de recherche, mobilisant les compétences d’un économètre, pour l’exploitation des données de contrôle de la Caisse centrale de la mutualité sociale agricole (CCMSA).

Le projet « repose sur la mobilisation des outils de data science, en vue d’une modélisation économétrique des pratiques de ciblage des contrôles et de détection des comportements des cotisants ». Pour autant, « des améliorations notamment méthodologiques (correction de biais et processus d’estimation) restent à apporter pour mieux cerner les comportements frauduleux à l’œuvre ». Les résultats sont attendus fin 2019.

7 heures pour se former à la data science et apprendre à programmer en R

La DNLF organise par ailleurs régulièrement des partages d'expériences avec d'autres administrations (le service d'analyse de risque et de ciblage (SARC) de la douane, Pôle emploi, organismes sociaux ...) sur des points techniques (algorithmes, outils), ou plus généraux (pilotage, modalités de diffusion et appropriation des productions, problématiques RH).

Elle propose également un stage de sensibilisation et d'initiation à la Data science censé permettre, en 7 heures et sans pré-requis, de « distinguer les 4 volets de la Data science : la statistique (volet descriptif), l’exploration des données (volet explicatif ou data mining), l’extrapolation des données (volet prédictif ou scoring, ainsi que le volet prescriptif) ». L'objectif est aussi de « savoir programmer les principaux modèles d’estimation et de détection » sous R Studio, l'environnement de développement du langage de programmation statistique R.

Le plan national 2016-2018 de lutte contre la fraude aux finances publiques ayant fait de l’amélioration de l’effectivité du recouvrement un de ses axes prioritaires, la DNLF a décidé d'y consacrer l'un de ses deux rencontres, intitulée « La science des données : quelles utilisations pour le recouvrement et la prévention de la défaillance ? ».

Après un panorama international par l'OCDE de l'utilisation de la data science pour optimiser le recouvrement fiscal, les finances publiques belges et françaises y ont « présenté leurs travaux sur la création de modèles de datamining pour mieux anticiper le risque de non-recouvrement », le rapport ne précisant pas combien de pays procèdent eux aussi de la sorte.

Chômage : +10 % d'affaires « présumées frauduleuses », +14% de chômeurs fraudeurs

La DNLF impute par ailleurs au « meilleur ciblage des contrôles grâce aux techniques de datamining » le fait qu'en 2018, et alors que le nombre de cas de fraudes enregistrés par la Caisse nationale d’allocations familiales (CNAF) a baissé (de 45 100 en 2017 à 44 897 en 2018), le préjudice financier identifié a dans le même temps augmenté (de 291,1 à 304,6 M€).

Rapportés aux 12,8 millions d’allocataires, les cas de fraudes représentent environ 0,35 % de la population, et un préjudice moyen subi par les CAF de 6 785 €, contre 6 455 en 2017. L'an passé, le directeur général de la CNAF tenait à préciser que « l’immense majorité des personnes qui se trompent ne sont pas des fraudeurs », que près de 2 millions d’allocataires avaient certes dû rembourser un trop-perçu suite à des erreurs involontaires, mais que seules 8,5 % des fraudes détectées reposaient sur des faux et usages de faux.

Du côté de l'assurance chômage, « le montant total du préjudice global (préjudice subi et évité) pour l’année 2018 s’établit à 206,35 M€ (dont 125,31 M€), soit une hausse de 11,5 % par rapport à l’année 2017 », chiffres obtenus grâce à « l’exploitation du big data (requêtes et outil de datamining), les travaux réalisés au niveau national sur la certification de l’identité (et) la fiabilité des données recueillies auprès des employeurs (obtention directe des attestations sous forme dématérialisée) ».

De plus, « l’évolution constante du montant des préjudices s’accompagne d’une augmentation de la volumétrie des affaires qualifiées "présumées frauduleuses" (+10%), ainsi que du nombre de demandeurs d’emploi mis en cause (+14%) ». Cette augmentation ne relèverait pas tant du datamining que du « fort investissement de Pôle emploi dans la lutte contre la fraude tant au niveau de la direction générale (offre de services métier) qu’au niveau des régions avec les directeurs maîtrise des risques et leur responsable fraude ».

À titre de comparaison, le total des montants de la fraude détectée en matière fiscale et sociale a atteint 5,73 milliards d'euros en 2018, dont seulement 715 millions au titre des prestations sociales, et 656 des cotisations sociales, contre 4,05 (soit 71%) en matière fiscale. La DNLF ne précise pas ce que le datamining aurait permis au fisc d'identifier.

Publiée le 07 janvier 2020 à 16:28


Chargement des commentaires