Category theory for (big) data modeling and model's transformation - STAR - Dépôt national des thèses électroniques Accéder directement au contenu
Thèse Année : 2019

Category theory for (big) data modeling and model's transformation

La théorie des catégories appliquée à la modélisation des (grandes) données et aux transformations de modèles

Résumé

Big data is a set of data that cannot be captured, managed and processed with standard software tools over a given period of time. It requires a new processing model to have a more efficient capacity to process data on a large scale.Our research presents the capabilities offered by category theory with a functional programming language (to implement concepts and facilitate experimentation) to resolve these limitations. In particular, we use the functions to modify the data structures (for example, various representations) and apply transformations to modify programs applicable to a particular data structure to another program for another data structure. After a study of the different databases, we propose to reduce the point of view of storage and consultation of data in the form of: tables, maps, or graphs. We propose the associated algorithms for loading, consulting and extracting data according to a simple criterion as well as alternative procedures resulting from natural transformations. We validate our proposals on a net data set where we measure the different performances. Comparison with standard databases: sqlite, Mongodb, Neo4j, MonetDB and Cassandra shows that our approach is more efficient than standard databases. In conclusion, we are opening upcoming researches.
Le Big data est un ensemble de données qui ne peuvent pas être capturées, gérées et traitées avec des outils logiciels habituels sur une période donnée. Il nécessite un nouveau modèle de traitement pour avoir une capacité plus efficace de traiter des données à grande échelle.Notre recherche présente les capacités offertes par la théorie des catégories avec un langage de programmation fonctionnel (pour mettre en œuvre les concepts et faciliter l'expérimentation) pour résoudre ces limites. En particulier, nous utilisons les foncteurs pour modifier les structures de données (par exemple, diverses représentations d’ensemble) et appliquer des transformations pour modifier les programmes applicables à une structure de données particulière vers un autre programme pour une autre structure de données. Après une étude des différentes bases de données, nous proposons de réduire le point de vue du stockage et la consultation des données sous forme de : tables, tables associatives, ou de graphes. Nous proposons les algorithmes associés pour charger, consulter et extraire des données selon un critère simple ainsi que des procédures alternatives issues des transformations naturelles. Nous validons nos propositions sur un jeu de données du net où nous mesurons les différentes performances. La comparaison avec des bases de données standards : Sqlite, Mongodb, Neo4j, MonetDB et Cassandra montre que notre approche est plus performante que les bases standards. En conclusion, nous ouvrons de nouvelles pistes de recherche.
Fichier principal
Vignette du fichier
2019MULH2946_these_ZHAO.pdf (3.77 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03704110 , version 1 (24-06-2022)

Identifiants

  • HAL Id : tel-03704110 , version 1

Citer

Heng Zhao. Category theory for (big) data modeling and model's transformation. Databases [cs.DB]. Université de Haute Alsace - Mulhouse, 2019. English. ⟨NNT : 2019MULH2946⟩. ⟨tel-03704110⟩
212 Consultations
544 Téléchargements

Partager

Gmail Facebook X LinkedIn More