Are your data gathered? The Folding Test of Unimodality

Alban Siffer, Pierre-Alain Fouque, Alexandre Termier, Christine Largouët


Understanding data distributions is one of the most fundamentalresearch topic in data analysis. The literature provides a great dealof powerful statistical learning algorithms to gain knowledge onthe underlying distribution given multivariate observations. We arelikely to find out a dependence between features, the appearanceof clusters or the presence of outliers. Before such deep investi-gations, we propose the folding test of unimodality. As a simplestatistical description, it allows to detect whether data are gatheredor not (unimodal or multimodal). To the best of our knowledge,this is the firstmultivariate and purely statisticalunimodality test.It makes no distribution assumption and relies only on a straight-forwardp−value. Through real world data experiments, we showits relevance and how it could be useful for clustering.

Voir les dernières Publications

28 mai 2024
Cet article présente et expérimente AWARE (Attacks in Windows Architectures REvealed), un outil défensif capable d'interroger un système Windows et de construire un graphe dirigé mettant en évidence les chemins d'attaque furtifs.
28 mai 2024
Cet article présente la première proposition du format CAPG, qui est une méthode de représentation d'une vulnérabilité CVE, d'une exploitation correspondante et des positions d'attaque associées.
18 novembre 2021
The current trend is towards automation inside a security operations center (SOC), in particular on the remediation side [...]
26 janvier 2021
Persistent Threats (APT) since only pre-registered and well-characterized attacks can be catched. Some recent systems use unsupervised ML algorithms [...]
15 décembre 2020
Cet article expose la mise en oeuvre du leurrage dans un but de renseignement sur les attaquants (outils et méthodes).
23 novembre 2018
The current trend is towards automation inside a security operations center (SOC), in particular on the remediation side [...]
21 août 2017
Anomaly detection in time series has attracted considerable attention due to its importance in many real-world applications including intrusion detection, energy management and finance [...]
22 mai 2017
Le langage C++ s’est imposé comme une référence dans les domaines où la modularité du développement ne doit pas empiéter sur les performances du logiciel final [...]
5 juillet 2016
Verification of software security properties, when conducted at the binary code level, is a difficult and cumbersome task. This paper is focused on [...]
20 juin 2016
Depuis le début du premier semestre 2016, six CVE permettant l’exécution de code arbitraire ont été déposées. Ces CVE ont toutes en commun l’exploitation d’une vulnérabilité encore peu considérée la confusion de type [...]