KDD vs exploration de données
KDD (Knowledge Discovery in Databases) est un domaine de l'informatique, qui comprend les outils et les théories pour aider les humains à extraire des informations utiles et auparavant inconnues (c'est-à-dire des connaissances) à partir de grandes collections de données numérisées. KDD se compose de plusieurs étapes, et l'exploration de données en fait partie. L'exploration de données est l'application d'un algorithme spécifique afin d'extraire des modèles à partir de données. Néanmoins, KDD et Data Mining sont utilisés de manière interchangeable.
Qu'est-ce que KDD?
Comme mentionné ci-dessus, KDD est un domaine de l'informatique, qui traite de l'extraction d'informations auparavant inconnues et intéressantes à partir de données brutes. KDD est l'ensemble du processus consistant à essayer de donner un sens aux données en développant des méthodes ou des techniques appropriées. Ce processus traite de la mise en correspondance des données de bas niveau sous d'autres formes plus compactes, abstraites et utiles. Ceci est réalisé en créant de courts rapports, en modélisant le processus de génération de données et en développant des modèles prédictifs capables de prédire les cas futurs. En raison de la croissance exponentielle des données, en particulier dans des domaines tels que les affaires, KDD est devenu un processus très important pour convertir cette grande richesse de données en intelligence d'affaires, car l'extraction manuelle de modèles est devenue apparemment impossible au cours des dernières décennies. Par exemple,il est actuellement utilisé pour diverses applications telles que l'analyse des réseaux sociaux, la détection de fraude, la science, l'investissement, la fabrication, les télécommunications, le nettoyage de données, le sport, la recherche d'informations et en grande partie pour le marketing. KDD est généralement utilisé pour répondre à des questions telles que quels sont les principaux produits qui pourraient aider à obtenir des bénéfices élevés l'année prochaine chez Wal-Mart ?. Ce processus comporte plusieurs étapes. Cela commence par développer une compréhension du domaine d'application et de l'objectif, puis créer un ensemble de données cible. Ceci est suivi par le nettoyage, le prétraitement, la réduction et la projection des données. L'étape suivante consiste à utiliser l'exploration de données (expliquée ci-dessous) pour identifier le modèle. Enfin, les connaissances découvertes sont consolidées par visualisation et / ou interprétation.sports, recherche d'informations et en grande partie pour le marketing. KDD est généralement utilisé pour répondre à des questions telles que quels sont les principaux produits qui pourraient aider à obtenir des bénéfices élevés l'année prochaine chez Wal-Mart ?. Ce processus comporte plusieurs étapes. Cela commence par développer une compréhension du domaine d'application et de l'objectif, puis créer un ensemble de données cible. Ceci est suivi par le nettoyage, le prétraitement, la réduction et la projection des données. L'étape suivante consiste à utiliser l'exploration de données (expliquée ci-dessous) pour identifier le modèle. Enfin, les connaissances découvertes sont consolidées par visualisation et / ou interprétation.sports, recherche d'informations et en grande partie pour le marketing. KDD est généralement utilisé pour répondre à des questions telles que quels sont les principaux produits qui pourraient aider à obtenir des bénéfices élevés l'année prochaine chez Wal-Mart ?. Ce processus comporte plusieurs étapes. Cela commence par développer une compréhension du domaine d'application et de l'objectif, puis créer un ensemble de données cible. Ceci est suivi par le nettoyage, le prétraitement, la réduction et la projection des données. L'étape suivante consiste à utiliser l'exploration de données (expliquée ci-dessous) pour identifier le modèle. Enfin, les connaissances découvertes sont consolidées par visualisation et / ou interprétation. Cela commence par développer une compréhension du domaine d'application et de l'objectif, puis créer un ensemble de données cible. Ceci est suivi par le nettoyage, le prétraitement, la réduction et la projection des données. L'étape suivante consiste à utiliser l'exploration de données (expliquée ci-dessous) pour identifier le modèle. Enfin, les connaissances découvertes sont consolidées par visualisation et / ou interprétation. Cela commence par développer une compréhension du domaine d'application et de l'objectif, puis créer un ensemble de données cible. Ceci est suivi par le nettoyage, le prétraitement, la réduction et la projection des données. L'étape suivante consiste à utiliser l'exploration de données (expliquée ci-dessous) pour identifier le modèle. Enfin, les connaissances découvertes sont consolidées par visualisation et / ou interprétation.
Qu'est-ce que l'exploration de données?
Comme mentionné ci-dessus, l'exploration de données n'est qu'une étape dans le processus global de KDD. Il existe deux objectifs majeurs d'exploration de données tels que définis par l'objectif de l'application, à savoir la vérification ou la découverte. La vérification vérifie l'hypothèse de l'utilisateur sur les données, tandis que la découverte trouve automatiquement des modèles intéressants. Il existe quatre tâches principales d'exploration de données: regroupement, classification, régression et association (récapitulation). Le clustering identifie des groupes similaires à partir de données non structurées. La classification est des règles d'apprentissage qui peuvent être appliquées à de nouvelles données. La régression consiste à trouver des fonctions avec une erreur minimale pour modéliser les données. Et l'association recherche des relations entre les variables. Ensuite, l'algorithme d'exploration de données spécifique doit être sélectionné. Selon l'objectif, différents algorithmes comme la régression linéaire, la régression logistique,les arbres de décision et Naïve Bayes peuvent être sélectionnés. Ensuite, les modèles d'intérêt dans une ou plusieurs formes de représentation sont recherchés. Enfin, les modèles sont évalués à l'aide de la précision prédictive ou de la compréhensibilité.
Quelle est la différence entre KDD et Data mining?
Bien que les deux termes KDD et Data Mining soient largement utilisés de manière interchangeable, ils font référence à deux concepts liés mais légèrement différents. KDD est le processus global d'extraction de connaissances à partir de données, tandis que l'exploration de données est une étape du processus KDD, qui traite de l'identification des modèles dans les données. En d'autres termes, l'exploration de données n'est que l'application d'un algorithme spécifique basé sur l'objectif global du processus KDD.