News
Aller au-dela de value_counts () : creer des tableaux de frequences visuellement attrayants avec juste 3 lignes de code (a l’aide de informations OkCupid)
4 March 2022
Quelques astuces simples mais utiles que vous ne connaissiez probablement gui?re
Bien que le moyen le moins complique de creer une table de frequences Afin de votre objet Series dans la bibliotheque Python pandas consiste a appliquer la value_counts() methode, le resultat de cette operation semble plutot basique. Nous pouvons le rendre plus informatif en ajustant des parametres booleens une methode normalize , sort , ascending , ainsi, dropna , ou en regroupant les valeurs (si elles sont numeriques) dans des bacs. Cependant, les laternatives ici seront assez limitees, donc Afin de ameliorer visuellement la table de frequences resultante, nous pouvons envisager des astuces simples mais indispensables, telles que le chainage de methodes, la personnalisation du propos, l’ajout du % symbole a chaque valeur de frequence et l’utilisation une puissance de jolie- impression.
Dans Cet article, nous allons experimenter un ensemble de donnees Kaggle contenant des renseignements sur l’age, le sexe, l’emplacement, l’education, etc., pour 60 000 utilisateurs de l’ application de rencontres OkCupid ??. Pour des besoins, cependant, nous n’utiliserons que des donnees sur les statuts des utilisateurs.
1. Enchainement des methodes
Pour commencer, creons un tableau de frequence de base pour nos statuts des utilisateurs :
( Note : ci-apres, nous allons laisser l’ensemble des autres parametres d’la value_counts() methode avec defaut, et cela signifie que nous ne considererons que les tableaux de frequences tries par ordre decroissant et en excluant les valeurs manquantes. Pour nos besoins, choisir ou non ces parametres ne quelle que soit.)
Sans connaitre le contexte, a partir du tableau ci-dessus, il peut ne pas etre clair que nos nombres representent des pourcentages et non des frequences absolues. Ajoutons un titre au tableau en utilisant le formatage f-string :
Dans l’exemple ci-dessus, nous avons ajoute le % symbole au titre du tableau. Et si nous voulions plutot l’ajouter a chaque valeur de frequence ? Une solution de contournement consiste a coder une liste de valeurs de frequence avec le % symbole ajoute a chacune d’entre elles, et a creer une serie a partir de cette liste. Pour faire la liste, nous pouvons utiliser la boucle for suivante :
Enfin, nous pouvons joliment imprimer le tableau des frequences. Pour i§a, nous allons utiliser la to_markdown() methode pandas qui necessite l’installation (souvent pas l’import) du module tabulate ( pip install tabulate ).
Important : Afin de afficher convenablement les resultats, la to_markdown() technique doit etre utilisee uniquement a l’interieur d’la print() commande.
Jouons avec les parametres tablefmt et stralign . Le premier d’entre eux definit le format du tableau et est en mesure de avoir l’une des valeurs suivantes : plain , simple https://www.besthookupwebsites.org/fr/hitch-review, github , grid , fancy_grid , pipe , orgtbl , jira , presto , pretty , psql , rst , etc. entre autres, le format de tableau que nous avons decouvert plus haut s’appelle pipe , celui par defaut concernant des to_markdown() pandas technique. Curieux que concernant le package tabulate lui-meme, le format de tableau via defaut reste simple . Quant au deuxieme parametre, stralign , il sert a remplacer l’alignement des informations de chaine via defaut (qui est left ). Les options possibles ici sont right et center .
Attention : le floatfmt parametre ne fonctionne nullement en combinaison avec le format du tableau pretty .
Plats a emporter confortables
Correctement que tous la procedure gui?re a gui?re ci-dessus ait necessite de multiples iterations et descriptions, nous trouverons ci-dessous des solutions de code finales pour 4 versions differentes de notre tableau des frequences Afin de profiles['status'] , tout cela en % :
- 2 tableaux simples avec/sans le % symbole,
- 2 jolis tableaux imprimes avec/sans le % symbole et avec/sans en-tete de tableau.
Dans Ce texte, nous avons discute de divers approches simples mais puissantes Afin de ameliorer la disposition du tableau des frequences et la lisibilite globale. Ils ont l’ensemble de la value_counts() technique des pandas comme accessoire central, mais tous vont au-dela et aboutissent a des representations plus percutantes. Sans compter que, chacune des solutions proposees, dans sa forme definitive, necessite au maximum 3 lignes de code.
J’espere que vous avez apprecie la lecture de mon article et que vous l’avez trouve utile. Merci d’avoir lu a tout le monde, et bonne chance a ceux qui utilisent l’application de rencontres OkCupid ????
Vous pourrez tomber sur interessant aussi ces articles :