Category theory for (big) data modeling and model's transformation

Heng Zhao

Thèse Année : 2019

Category theory for (big) data modeling and model's transformation

La théorie des catégories appliquée à la modélisation des (grandes) données et aux transformations de modèles

(1)

Heng Zhao

Fonction : Auteur
PersonId : 1144760
IdRef : 263184803

Institut de Recherche en Informatique Mathématiques Automatique Signal - IRIMAS - UR 7499

Résumé

Big data is a set of data that cannot be captured, managed and processed with standard software tools over a given period of time. It requires a new processing model to have a more efficient capacity to process data on a large scale.Our research presents the capabilities offered by category theory with a functional programming language (to implement concepts and facilitate experimentation) to resolve these limitations. In particular, we use the functions to modify the data structures (for example, various representations) and apply transformations to modify programs applicable to a particular data structure to another program for another data structure. After a study of the different databases, we propose to reduce the point of view of storage and consultation of data in the form of: tables, maps, or graphs. We propose the associated algorithms for loading, consulting and extracting data according to a simple criterion as well as alternative procedures resulting from natural transformations. We validate our proposals on a net data set where we measure the different performances. Comparison with standard databases: sqlite, Mongodb, Neo4j, MonetDB and Cassandra shows that our approach is more efficient than standard databases. In conclusion, we are opening upcoming researches.

Le Big data est un ensemble de données qui ne peuvent pas être capturées, gérées et traitées avec des outils logiciels habituels sur une période donnée. Il nécessite un nouveau modèle de traitement pour avoir une capacité plus efficace de traiter des données à grande échelle.Notre recherche présente les capacités offertes par la théorie des catégories avec un langage de programmation fonctionnel (pour mettre en œuvre les concepts et faciliter l'expérimentation) pour résoudre ces limites. En particulier, nous utilisons les foncteurs pour modifier les structures de données (par exemple, diverses représentations d’ensemble) et appliquer des transformations pour modifier les programmes applicables à une structure de données particulière vers un autre programme pour une autre structure de données. Après une étude des différentes bases de données, nous proposons de réduire le point de vue du stockage et la consultation des données sous forme de : tables, tables associatives, ou de graphes. Nous proposons les algorithmes associés pour charger, consulter et extraire des données selon un critère simple ainsi que des procédures alternatives issues des transformations naturelles. Nous validons nos propositions sur un jeu de données du net où nous mesurons les différentes performances. La comparaison avec des bases de données standards : Sqlite, Mongodb, Neo4j, MonetDB et Cassandra montre que notre approche est plus performante que les bases standards. En conclusion, nous ouvrons de nouvelles pistes de recherche.

Mots clés

Category theory Natural transformations Big data

Théorie des catégories Transformations naturelles Big data

Domaines

Base de données [cs.DB] Systèmes et contrôle [cs.SY]

Fichier principal

2019MULH2946_these_ZHAO.pdf (3.77 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-03704110

Soumis le : vendredi 24 juin 2022-15:39:54

Dernière modification le : vendredi 26 mai 2023-09:44:06

Archivage à long terme le : dimanche 25 septembre 2022-21:11:56

Dates et versions

tel-03704110 , version 1 (24-06-2022)

Identifiants

HAL Id : tel-03704110 , version 1

Citer

Heng Zhao. Category theory for (big) data modeling and model's transformation. Databases [cs.DB]. Université de Haute Alsace - Mulhouse, 2019. English. ⟨NNT : 2019MULH2946⟩. ⟨tel-03704110⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

STAR SITE-ALSACE IRIMAS

212 Consultations

544 Téléchargements

Category theory for (big) data modeling and model's transformation

La théorie des catégories appliquée à la modélisation des (grandes) données et aux transformations de modèles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager