diff --git a/examples/10_min_from_pandas_to_spark_with_optimus.ipynb b/examples/10_min_from_pandas_to_spark_with_optimus.ipynb index ab79f408..18696a88 100644 --- a/examples/10_min_from_pandas_to_spark_with_optimus.ipynb +++ b/examples/10_min_from_pandas_to_spark_with_optimus.ipynb @@ -4963,7 +4963,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", " \n", " 28.0\n", diff --git a/examples/profiler-test.ipynb b/examples/profiler-test.ipynb index 565911df..2c79b858 100644 --- a/examples/profiler-test.ipynb +++ b/examples/profiler-test.ipynb @@ -2489,7 +2489,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", " \n", " 1564244\n", @@ -3277,7 +3277,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", " \n", " 1564244\n", diff --git a/examples/profiler.ipynb b/examples/profiler.ipynb index 4743a481..342a985a 100644 --- a/examples/profiler.ipynb +++ b/examples/profiler.ipynb @@ -1187,7 +1187,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", " \n", " \n", @@ -2312,7 +2312,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", " \n", " \n", @@ -3445,7 +3445,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", " \n", " \n", diff --git a/examples/test-profiler-tracking.ipynb b/examples/test-profiler-tracking.ipynb deleted file mode 100644 index 5c423968..00000000 --- a/examples/test-profiler-tracking.ipynb +++ /dev/null @@ -1,4182 +0,0 @@ -{ - "cells": [ - { - "cell_type": "code", - "execution_count": 1, - "metadata": {}, - "outputs": [], - "source": [ - "%load_ext autoreload\n", - "%autoreload 2" - ] - }, - { - "cell_type": "code", - "execution_count": 2, - "metadata": {}, - "outputs": [], - "source": [ - "import sys\n", - "sys.path.append(\"..\")" - ] - }, - { - "cell_type": "code", - "execution_count": 3, - "metadata": {}, - "outputs": [ - { - "name": "stderr", - "output_type": "stream", - "text": [ - "C:\\Users\\argenisleon\\Anaconda3\\lib\\site-packages\\socks.py:58: DeprecationWarning: Using or importing the ABCs from 'collections' instead of from 'collections.abc' is deprecated, and in 3.8 it will stop working\n", - " from collections import Callable\n", - "\n", - " You are using PySparkling of version 2.4.10, but your PySpark is of\n", - " version 2.3.1. Please make sure Spark and PySparkling versions are compatible. \n", - "`formatargspec` is deprecated since Python 3.5. Use `signature` and the `Signature` object directly\n" - ] - } - ], - "source": [ - "from optimus import Optimus" - ] - }, - { - "cell_type": "code", - "execution_count": 4, - "metadata": {}, - "outputs": [ - { - "data": { - "text/html": [ - "Open Bumblebee: https://app.hi-bumblebee.com
If you really care about privacy get your keys in bumblebee.ini and put them here
" - ], - "text/plain": [ - "" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "INFO:optimus:Operative System:Windows\n", - "INFO:optimus:Just check that Spark and all necessary environments vars are present...\n", - "INFO:optimus:-----\n", - "INFO:optimus:SPARK_HOME=C:\\opt\\spark\\spark-2.3.1-bin-hadoop2.7\n", - "INFO:optimus:HADOOP_HOME=C:\\opt\\hadoop-2.7.7\n", - "INFO:optimus:PYSPARK_PYTHON=C:\\Users\\argenisleon\\Anaconda3\\python.exe\n", - "INFO:optimus:PYSPARK_DRIVER_PYTHON=jupyter\n", - "INFO:optimus:PYSPARK_SUBMIT_ARGS=--jars \"file:///C:/Users/argenisleon/Documents/Optimus/optimus/jars/RedshiftJDBC42-1.2.16.1027.jar,file:///C:/Users/argenisleon/Documents/Optimus/optimus/jars/mysql-connector-java-8.0.16.jar,file:///C:/Users/argenisleon/Documents/Optimus/optimus/jars/ojdbc8.jar,file:///C:/Users/argenisleon/Documents/Optimus/optimus/jars/postgresql-42.2.5.jar,file:///C:/Users/argenisleon/Documents/Optimus/optimus/jars/presto-jdbc-0.224.jar,file:///C:/Users/argenisleon/Documents/Optimus/optimus/jars/spark-cassandra-connector_2.11-2.4.1.jar,file:///C:/Users/argenisleon/Documents/Optimus/optimus/jars/sqlite-jdbc-3.27.2.1.jar,file:///C:/Users/argenisleon/Documents/Optimus/optimus/jars/mssql-jdbc-7.4.1.jre8.jar\" --driver-class-path \"C:/Users/argenisleon/Documents/Optimus/optimus/jars/RedshiftJDBC42-1.2.16.1027.jar;C:/Users/argenisleon/Documents/Optimus/optimus/jars/mysql-connector-java-8.0.16.jar;C:/Users/argenisleon/Documents/Optimus/optimus/jars/ojdbc8.jar;C:/Users/argenisleon/Documents/Optimus/optimus/jars/postgresql-42.2.5.jar;C:/Users/argenisleon/Documents/Optimus/optimus/jars/presto-jdbc-0.224.jar;C:/Users/argenisleon/Documents/Optimus/optimus/jars/spark-cassandra-connector_2.11-2.4.1.jar;C:/Users/argenisleon/Documents/Optimus/optimus/jars/sqlite-jdbc-3.27.2.1.jar;C:/Users/argenisleon/Documents/Optimus/optimus/jars/mssql-jdbc-7.4.1.jre8.jar\" --conf \"spark.sql.catalogImplementation=hive\" pyspark-shell\n", - "INFO:optimus:JAVA_HOME=C:\\java\n", - "INFO:optimus:Pyarrow Installed\n", - "INFO:optimus:-----\n", - "INFO:optimus:Starting or getting SparkSession and SparkContext...\n", - "INFO:optimus:Spark Version:2.3.1\n", - "INFO:optimus:\n", - " ____ __ _ \n", - " / __ \\____ / /_(_)___ ___ __ _______\n", - " / / / / __ \\/ __/ / __ `__ \\/ / / / ___/\n", - " / /_/ / /_/ / /_/ / / / / / / /_/ (__ ) \n", - " \\____/ .___/\\__/_/_/ /_/ /_/\\__,_/____/ \n", - " /_/ \n", - " \n", - "INFO:optimus:Transform and Roll out...\n", - "INFO:optimus:Optimus successfully imported. Have fun :).\n", - "INFO:optimus:Config.ini not found\n" - ] - } - ], - "source": [ - "op= Optimus(master=\"local[*]\", app_name= \"optimus\", comm=True, verbose=True)" - ] - }, - { - "cell_type": "code", - "execution_count": 5, - "metadata": {}, - "outputs": [], - "source": [ - "from datetime import date, datetime\n", - "from pyspark.sql.types import *\n", - "\n", - "df = op.create.df(\n", - " [\n", - " (\"names\", \"str\", True),\n", - " (\"height(ft)\", \"int\", True),\n", - " (\"function\", \"str\", True),\n", - " (\"rank\", \"int\", True),\n", - " (\"age\", \"int\", True),\n", - " (\"weight(t)\", \"float\", True),\n", - " (\"japanese name\", ArrayType(StringType()), True),\n", - " (\"last position seen\", \"str\", True),\n", - " (\"date arrival\", \"str\", True),\n", - " (\"last date seen\", \"str\", True),\n", - " (\"attributes\", ArrayType(FloatType()), True),\n", - " (\"DateType\", DateType()),\n", - " (\"Timestamp\", TimestampType()),\n", - " (\"Cybertronian\", \"bool\", True),\n", - " (\"function(binary)\", \"binary\", False),\n", - " (\"NullType\", \"null\", True),\n", - "\n", - " ],\n", - " [\n", - " (\"Optim'us\", 28, \"Leader\", 10, 5000000, 4.30, [\"Inochi\", \"Convoy\"], \"19.442735,-99.201111\", \"1980/04/10\",\n", - " \"2016/09/10\", [8.5344, 4300.0], date(2016, 9, 10), datetime(2014, 6, 24), True, bytearray(\"Leader\", \"utf-8\"),\n", - " None),\n", - " (\"bumbl#ebéé \", 17, \"Espionage\", 7, 5000000, 2.0, [\"Bumble\", \"Goldback\"], \"10.642707,-71.612534\", \"1980/04/10\",\n", - " \"2015/08/10\", [5.334, 2000.0], date(2015, 8, 10), datetime(2014, 6, 24), True, bytearray(\"Espionage\", \"utf-8\"),\n", - " None),\n", - " (\"ironhide&\", 26, \"Security\", 7, 5000000, 4.0, [\"Roadbuster\"], \"37.789563,-122.400356\", \"1980/04/10\",\n", - " \"2014/07/10\", [7.9248, 4000.0], date(2014, 6, 24), datetime(2014, 6, 24), True, bytearray(\"Security\", \"utf-8\"),\n", - " None),\n", - " (\"Jazz\", 13, \"First Lieutenant\", 8, 5000000, 1.80, [\"Meister\"], \"33.670666,-117.841553\", \"1980/04/10\",\n", - " \"2013/06/10\", [3.9624, 1800.0], date(2013, 6, 24), datetime(2014, 6, 24), True,\n", - " bytearray(\"First Lieutenant\", \"utf-8\"), None),\n", - " (\"Megatron\", None, \"None\", 10, 5000000, 5.70, [\"Megatron\"], None, \"1980/04/10\", \"2012/05/10\", [None, 5700.0],\n", - " date(2012, 5, 10), datetime(2014, 6, 24), True, bytearray(\"None\", \"utf-8\"), None),\n", - " (\"\", 300, \"Battle Station\", 8, 5000000, None, [\"Metroflex\"], None, \"1980/04/10\", \"2011/04/10\",\n", - " [91.44, None], date(2011, 4, 10), datetime(2014, 6, 24), True, bytearray(\"Battle Station\", \"utf-8\"), None),\n", - " (None, 2, \"3\", 4, 5, 6.0, [\"7\"], 8, \"1980/04/10\", \"2011/04/10\",\n", - " [11.0], date(2011, 4, 10), datetime(2014, 6, 24), True, bytearray(\"15\", \"utf-8\"), None)\n", - " ], infer_schema=True)" - ] - }, - { - "cell_type": "code", - "execution_count": 6, - "metadata": {}, - "outputs": [], - "source": [ - "# df.cols.nest(input_cols= [\"names\", \"function\"], output_col= \"temp\")" - ] - }, - { - "cell_type": "code", - "execution_count": 7, - "metadata": {}, - "outputs": [], - "source": [ - "# df.get_meta()" - ] - }, - { - "cell_type": "code", - "execution_count": 8, - "metadata": {}, - "outputs": [], - "source": [ - "# df = df.cols.lower(\"names\", output_cols= \"new_names\")\n", - "# print(df.get_meta())" - ] - }, - { - "cell_type": "code", - "execution_count": 9, - "metadata": {}, - "outputs": [], - "source": [ - "# df =df.repartition(1)" - ] - }, - { - "cell_type": "code", - "execution_count": 10, - "metadata": {}, - "outputs": [ - { - "name": "stderr", - "output_type": "stream", - "text": [ - "INFO:optimus:Using 'column_exp' to process column 'rank' with function func_col_exp\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "key fill_na rank\n", - "{'transformations': {'columns': ['names', 'height(ft)', 'function', 'rank', 'age', 'weight(t)', 'japanese name', 'last position seen', 'date arrival', 'last date seen', 'attributes', 'DateType', 'Timestamp', 'Cybertronian', 'function(binary)', 'NullType'], 'actions': {'fill_na': ['rank']}}}\n" - ] - } - ], - "source": [ - "df = df.cols.fill_na(\"rank\",0)\n", - "print(df.get_meta())" - ] - }, - { - "cell_type": "code", - "execution_count": 11, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "{'transformations': {'columns': ['names', 'height(ft)', 'function', 'rank', 'age', 'weight(t)', 'japanese name', 'last position seen', 'date arrival', 'last date seen', 'attributes', 'DateType', 'Timestamp', 'Cybertronian', 'function(binary)', 'NullType'], 'actions': {'fill_na': ['rank'], 'rename': {'names': 'names1'}}}}\n" - ] - } - ], - "source": [ - "df = df.cols.rename(\"names\",\"names1\")\n", - "print(df.get_meta())" - ] - }, - { - "cell_type": "code", - "execution_count": 12, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "{'transformations': {'columns': ['names', 'height(ft)', 'function', 'rank', 'age', 'weight(t)', 'japanese name', 'last position seen', 'date arrival', 'last date seen', 'attributes', 'DateType', 'Timestamp', 'Cybertronian', 'function(binary)', 'NullType'], 'actions': {'fill_na': ['rank'], 'rename': {'names': 'names2'}}}}\n" - ] - } - ], - "source": [ - "df = df.cols.rename(\"names1\",\"names2\")\n", - "print(df.get_meta())" - ] - }, - { - "cell_type": "code", - "execution_count": 13, - "metadata": {}, - "outputs": [ - { - "name": "stderr", - "output_type": "stream", - "text": [ - "INFO:optimus:Using 'pandas_udf' to process column 'names2' with function multiple_replace\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "key None names2\n", - "{'transformations': {'columns': ['names', 'height(ft)', 'function', 'rank', 'age', 'weight(t)', 'japanese name', 'last position seen', 'date arrival', 'last date seen', 'attributes', 'DateType', 'Timestamp', 'Cybertronian', 'function(binary)', 'NullType'], 'actions': {'fill_na': ['rank'], 'rename': {'names': 'names2'}, 'replace': ['names2']}}}\n" - ] - } - ], - "source": [ - "df = df.cols.replace(\"names2\",\"L\",\"l\")\n", - "print(df.get_meta())" - ] - }, - { - "cell_type": "code", - "execution_count": 14, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "{'transformations': {'columns': ['names', 'height(ft)', 'function', 'rank', 'age', 'weight(t)', 'japanese name', 'last position seen', 'date arrival', 'last date seen', 'attributes', 'DateType', 'Timestamp', 'Cybertronian', 'function(binary)', 'NullType'], 'actions': {'fill_na': ['rank'], 'rename': {'names': 'names2', 'rank': 'rank1'}, 'replace': ['names2']}}}\n" - ] - } - ], - "source": [ - "df = df.cols.rename(\"rank\",\"rank1\")\n", - "print(df.get_meta())" - ] - }, - { - "cell_type": "code", - "execution_count": 15, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "key None None\n", - "{'transformations': {'columns': ['names', 'height(ft)', 'function', 'rank', 'age', 'weight(t)', 'japanese name', 'last position seen', 'date arrival', 'last date seen', 'attributes', 'DateType', 'Timestamp', 'Cybertronian', 'function(binary)', 'NullType'], 'actions': {'fill_na': ['rank'], 'rename': {'names': 'names2', 'rank': 'rank1'}, 'replace': ['names2'], 'keep': ['names2', 'height(ft)', 'rank1', 'age', 'weight(t)']}}}\n" - ] - } - ], - "source": [ - "df = df.cols.keep([\"names2\",\"height(ft)\",\"rank1\",\"age\",\"weight(t)\"])\n", - "print(df.get_meta()) " - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "# First Profiler" - ] - }, - { - "cell_type": "code", - "execution_count": 16, - "metadata": { - "scrolled": true - }, - "outputs": [ - { - "name": "stderr", - "output_type": "stream", - "text": [ - "INFO:optimus:Config.ini not found\n" - ] - } - ], - "source": [ - "from optimus.profiler.profiler import Profiler\n", - "p = Profiler()" - ] - }, - { - "cell_type": "code", - "execution_count": 17, - "metadata": {}, - "outputs": [ - { - "name": "stderr", - "output_type": "stream", - "text": [ - "INFO:optimus:Processing Stats For columns...\n", - "INFO:optimus:Batch Stats 0. Processing columns['names2', 'height(ft)', 'rank1', 'age', 'weight(t)']\n", - "INFO:optimus:Batch Histogram 0. Processing columns['names2', 'height(ft)', 'rank1', 'age', 'weight(t)']\n", - "INFO:optimus:Processing Frequency ...\n", - "INFO:optimus:`names2` column(s) was not processed because is/are not byte,short,big,int,double,float\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "key None None\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "INFO:optimus:`names2` column(s) was not processed because is/are not array,vector,byte,date,binary\n", - "INFO:optimus:Outputting 0 columns after filtering. Is this expected?\n" - ] - }, - { - "data": { - "text/html": [ - "\n", - "
\n", - "

Overview

\n", - "
\n", - "
\n", - "
\n", - "

Dataset info

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
Number of columns5
Number of rows7
Total Missing (%)3
Total size in memory68.1 MB
\n", - "
\n", - "
\n", - "

Column types

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
Categorical0
Numeric0
Date0
Array0
Not available0
\n", - "
\n", - "
\n", - "
\n", - "
\n", - "\n", - " \n", - "\n", - "
\n", - "
\n", - "

names2

\n", - " categorical\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Unique 5
Unique (%) 71.43
Missing1
Missing (%)14.29
\n", - "
\n", - "

\n", - " Datatypes\n", - "

\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
\n", - " String\n", - " \n", - " 5\n", - "
\n", - " Integer\n", - " \n", - " \n", - "
\n", - " Decimal\n", - " \n", - " \n", - "
\n", - " Bool\n", - " \n", - " \n", - "
\n", - " Date\n", - " \n", - " \n", - "
\n", - " Missing\n", - " \n", - " 1\n", - "
\n", - " Null\n", - " \n", - " 1\n", - "
\n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "

Frequency

\n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
ValueCountFrecuency (%)
Jazz114.29%
Optim'us114.29%
Megatron114.29%
bumbl#ebéé 114.29%
ironhide&114.29%
114.29%
None114.29%
\"Missing\"114.29%
\n", - " \n", - "
\n", - " \n", - "\n", - " \n", - "
\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - "\n", - "
\n", - "
\n", - "
\n", - "
\n", - "\n", - " \n", - "\n", - "
\n", - "
\n", - "

height(ft)

\n", - " numeric\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Unique 6
Unique (%) 85.71
Missing1
Missing (%)14.29
\n", - "
\n", - "

\n", - " Datatypes\n", - "

\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
\n", - " String\n", - " \n", - " \n", - "
\n", - " Integer\n", - " \n", - " 6\n", - "
\n", - " Decimal\n", - " \n", - " \n", - "
\n", - " Bool\n", - " \n", - " \n", - "
\n", - " Date\n", - " \n", - " \n", - "
\n", - " Missing\n", - " \n", - " 0\n", - "
\n", - " Null\n", - " \n", - " 1\n", - "
\n", - " \n", - "
\n", - "

\n", - " Basic Stats\n", - "

\n", - "\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - "
Mean64.33333
Minimum2
Maximum300
Zeros(%)0
\n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - " \n", - "\n", - " \n", - "
\n", - "\n", - "

Quantile statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Minimum2
5-th percentile2
Q113
Median17
Q328
95-th percentile300
Maximum300
Range298
Interquartile range15
\n", - "
\n", - "
\n", - "

Descriptive statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Standard deviation115.83552
Coef of variation1.80055
Kurtosis1.15312
Mean64.33333
MAD9
Skewness1.76212
Sum386
Variance13417.86667
\n", - "
\n", - " \n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - "
\n", - "
\n", - "
\n", - "
\n", - "\n", - " \n", - "\n", - "
\n", - "
\n", - "

rank1

\n", - " numeric\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Unique 4
Unique (%) 57.14
Missing0
Missing (%)0.0
\n", - "
\n", - "

\n", - " Datatypes\n", - "

\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
\n", - " String\n", - " \n", - " \n", - "
\n", - " Integer\n", - " \n", - " \n", - "
\n", - " Decimal\n", - " \n", - " 7\n", - "
\n", - " Bool\n", - " \n", - " \n", - "
\n", - " Date\n", - " \n", - " \n", - "
\n", - " Missing\n", - " \n", - " 0\n", - "
\n", - " Null\n", - " \n", - " 0\n", - "
\n", - " \n", - "
\n", - "

\n", - " Basic Stats\n", - "

\n", - "\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - "
Mean7.71429
Minimum4.0
Maximum10.0
Zeros(%)0
\n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - " \n", - "\n", - " \n", - "
\n", - "\n", - "

Quantile statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Minimum4.0
5-th percentile4.0
Q17.0
Median8.0
Q310.0
95-th percentile10.0
Maximum10.0
Range6.0
Interquartile range3.0
\n", - "
\n", - "
\n", - "

Descriptive statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Standard deviation2.05866
Coef of variation0.26686
Kurtosis-0.34282
Mean7.71429
MAD1.0
Skewness-0.57857
Sum54.0
Variance4.2381
\n", - "
\n", - " \n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - "
\n", - "
\n", - "
\n", - "
\n", - "\n", - " \n", - "\n", - "
\n", - "
\n", - "

age

\n", - " numeric\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Unique 2
Unique (%) 28.57
Missing0
Missing (%)0.0
\n", - "
\n", - "

\n", - " Datatypes\n", - "

\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
\n", - " String\n", - " \n", - " \n", - "
\n", - " Integer\n", - " \n", - " 7\n", - "
\n", - " Decimal\n", - " \n", - " \n", - "
\n", - " Bool\n", - " \n", - " \n", - "
\n", - " Date\n", - " \n", - " \n", - "
\n", - " Missing\n", - " \n", - " 0\n", - "
\n", - " Null\n", - " \n", - " 0\n", - "
\n", - " \n", - "
\n", - "

\n", - " Basic Stats\n", - "

\n", - "\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - "
Mean4285715.0
Minimum5
Maximum5000000
Zeros(%)0
\n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - " \n", - "\n", - " \n", - "
\n", - "\n", - "

Quantile statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Minimum5
5-th percentile5
Q15000000
Median5000000
Q35000000
95-th percentile5000000
Maximum5000000
Range4999995
Interquartile range0
\n", - "
\n", - "
\n", - "

Descriptive statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Standard deviation1889820.47522
Coef of variation0.44096
Kurtosis2.16667
Mean4285715.0
MAD0
Skewness-2.04124
Sum30000005
Variance3571421428575.0
\n", - "
\n", - " \n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - "
\n", - "
\n", - "
\n", - "
\n", - "\n", - " \n", - "\n", - "
\n", - "
\n", - "

weight(t)

\n", - " numeric\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Unique 6
Unique (%) 85.71
Missing1
Missing (%)14.29
\n", - "
\n", - "

\n", - " Datatypes\n", - "

\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
\n", - " String\n", - " \n", - " \n", - "
\n", - " Integer\n", - " \n", - " \n", - "
\n", - " Decimal\n", - " \n", - " 6\n", - "
\n", - " Bool\n", - " \n", - " \n", - "
\n", - " Date\n", - " \n", - " \n", - "
\n", - " Missing\n", - " \n", - " 0\n", - "
\n", - " Null\n", - " \n", - " 1\n", - "
\n", - " \n", - "
\n", - "

\n", - " Basic Stats\n", - "

\n", - "\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - "
Mean3.96667
Minimum1.8
Maximum6.0
Zeros(%)0
\n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - " \n", - "\n", - " \n", - "
\n", - "\n", - "

Quantile statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Minimum1.8
5-th percentile1.7999999523162842
Q12.0
Median4.0
Q35.699999809265137
95-th percentile6.0
Maximum6.0
Range4.2
Interquartile range3.6999998092651367
\n", - "
\n", - "
\n", - "

Descriptive statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Standard deviation1.77839
Coef of variation0.44833
Kurtosis-1.48525
Mean3.96667
MAD1.7
Skewness-0.16074
Sum23.8
Variance3.16267
\n", - "
\n", - " \n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - "
\n", - "
" - ], - "text/plain": [ - "" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "INFO:optimus:run() executed in 200.63 sec\n" - ] - }, - { - "data": { - "text/plain": [ - "" - ] - }, - "execution_count": 17, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "p.run(df)" - ] - }, - { - "cell_type": "code", - "execution_count": 18, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "{'transformations': {'columns': ['names2', 'height(ft)', 'rank1', 'age', 'weight(t)'], 'actions': {'drop': ['weight(t)']}}}\n" - ] - } - ], - "source": [ - "df = df.cols.drop(\"weight(t)\")\n", - "print(df.get_meta())" - ] - }, - { - "cell_type": "code", - "execution_count": 19, - "metadata": {}, - "outputs": [ - { - "name": "stderr", - "output_type": "stream", - "text": [ - "INFO:optimus:Using 'column_exp' to process column 'names2' with function _lower\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "key lower new_names\n", - "{'transformations': {'columns': ['names2', 'height(ft)', 'rank1', 'age', 'weight(t)'], 'actions': {'drop': ['weight(t)'], 'lower': ['new_names']}}}\n" - ] - } - ], - "source": [ - "df = df.cols.lower(\"names2\", output_cols= \"new_names\")\n", - "print(df.get_meta())" - ] - }, - { - "cell_type": "code", - "execution_count": 20, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "{'transformations': {'columns': ['names2', 'height(ft)', 'rank1', 'age', 'weight(t)'], 'actions': {'drop': ['weight(t)'], 'lower': ['new_names'], 'rename': {'rank1': 'rank2'}}}}\n" - ] - } - ], - "source": [ - "df = df.cols.rename(\"rank1\",\"rank2\")\n", - "print(df.get_meta())" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "# Profiler 2" - ] - }, - { - "cell_type": "code", - "execution_count": 21, - "metadata": {}, - "outputs": [ - { - "name": "stderr", - "output_type": "stream", - "text": [ - "INFO:optimus:Processing Stats For columns...\n", - "INFO:optimus:Batch Stats 0. Processing columns['new_names']\n", - "INFO:optimus:Batch Histogram 0. Processing columns['new_names']\n", - "INFO:optimus:Processing Frequency ...\n", - "INFO:optimus:`names2`,`new_names` column(s) was not processed because is/are not byte,short,big,int,double,float\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "key None None\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "INFO:optimus:`names2`,`new_names` column(s) was not processed because is/are not array,vector,byte,date,binary\n", - "INFO:optimus:Outputting 0 columns after filtering. Is this expected?\n" - ] - }, - { - "data": { - "text/html": [ - "\n", - "
\n", - "

Overview

\n", - "
\n", - "
\n", - "
\n", - "

Dataset info

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
Number of columns5
Number of rows7
Total Missing (%)3
Total size in memory68.4 MB
\n", - "
\n", - "
\n", - "

Column types

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
Categorical0
Numeric0
Date0
Array0
Not available0
\n", - "
\n", - "
\n", - "
\n", - "
\n", - "\n", - " \n", - "\n", - "
\n", - "
\n", - "

new_names

\n", - " categorical\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Unique 6
Unique (%) 85.71
Missing1
Missing (%)14.29
\n", - "
\n", - "

\n", - " Datatypes\n", - "

\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
\n", - " String\n", - " \n", - " 5\n", - "
\n", - " Integer\n", - " \n", - " \n", - "
\n", - " Decimal\n", - " \n", - " \n", - "
\n", - " Bool\n", - " \n", - " \n", - "
\n", - " Date\n", - " \n", - " \n", - "
\n", - " Missing\n", - " \n", - " 1\n", - "
\n", - " Null\n", - " \n", - " 1\n", - "
\n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "

Frequency

\n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
ValueCountFrecuency (%)
bumbl#ebéé 114.29%
ironhide&114.29%
114.29%
None114.29%
jazz114.29%
optim'us114.29%
megatron114.29%
\"Missing\"114.29%
\n", - " \n", - "
\n", - " \n", - "\n", - " \n", - "
\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - "\n", - "
\n", - "
\n", - "
\n", - "
\n", - "\n", - " \n", - "\n", - "
\n", - "
\n", - "

names2

\n", - " categorical\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Unique 5
Unique (%) 71.43
Missing1
Missing (%)14.29
\n", - "
\n", - "

\n", - " Datatypes\n", - "

\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
\n", - " String\n", - " \n", - " 5\n", - "
\n", - " Integer\n", - " \n", - " \n", - "
\n", - " Decimal\n", - " \n", - " \n", - "
\n", - " Bool\n", - " \n", - " \n", - "
\n", - " Date\n", - " \n", - " \n", - "
\n", - " Missing\n", - " \n", - " 1\n", - "
\n", - " Null\n", - " \n", - " 1\n", - "
\n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "

Frequency

\n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
ValueCountFrecuency (%)
Jazz114.29%
Optim'us114.29%
Megatron114.29%
bumbl#ebéé 114.29%
ironhide&114.29%
114.29%
None114.29%
\"Missing\"114.29%
\n", - " \n", - "
\n", - " \n", - "\n", - " \n", - "
\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - "\n", - "
\n", - "
\n", - "
\n", - "
\n", - "\n", - " \n", - "\n", - "
\n", - "
\n", - "

height(ft)

\n", - " numeric\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Unique 6
Unique (%) 85.71
Missing1
Missing (%)14.29
\n", - "
\n", - "

\n", - " Datatypes\n", - "

\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
\n", - " String\n", - " \n", - " \n", - "
\n", - " Integer\n", - " \n", - " 6\n", - "
\n", - " Decimal\n", - " \n", - " \n", - "
\n", - " Bool\n", - " \n", - " \n", - "
\n", - " Date\n", - " \n", - " \n", - "
\n", - " Missing\n", - " \n", - " 0\n", - "
\n", - " Null\n", - " \n", - " 1\n", - "
\n", - " \n", - "
\n", - "

\n", - " Basic Stats\n", - "

\n", - "\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - "
Mean64.33333
Minimum2
Maximum300
Zeros(%)0
\n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - " \n", - "\n", - " \n", - "
\n", - "\n", - "

Quantile statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Minimum2
5-th percentile2
Q113
Median17
Q328
95-th percentile300
Maximum300
Range298
Interquartile range15
\n", - "
\n", - "
\n", - "

Descriptive statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Standard deviation115.83552
Coef of variation1.80055
Kurtosis1.15312
Mean64.33333
MAD9
Skewness1.76212
Sum386
Variance13417.86667
\n", - "
\n", - " \n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - "
\n", - "
\n", - "
\n", - "
\n", - "\n", - " \n", - "\n", - "
\n", - "
\n", - "

age

\n", - " numeric\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Unique 2
Unique (%) 28.57
Missing0
Missing (%)0.0
\n", - "
\n", - "

\n", - " Datatypes\n", - "

\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
\n", - " String\n", - " \n", - " \n", - "
\n", - " Integer\n", - " \n", - " 7\n", - "
\n", - " Decimal\n", - " \n", - " \n", - "
\n", - " Bool\n", - " \n", - " \n", - "
\n", - " Date\n", - " \n", - " \n", - "
\n", - " Missing\n", - " \n", - " 0\n", - "
\n", - " Null\n", - " \n", - " 0\n", - "
\n", - " \n", - "
\n", - "

\n", - " Basic Stats\n", - "

\n", - "\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - "
Mean4285715.0
Minimum5
Maximum5000000
Zeros(%)0
\n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - " \n", - "\n", - " \n", - "
\n", - "\n", - "

Quantile statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Minimum5
5-th percentile5
Q15000000
Median5000000
Q35000000
95-th percentile5000000
Maximum5000000
Range4999995
Interquartile range0
\n", - "
\n", - "
\n", - "

Descriptive statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Standard deviation1889820.47522
Coef of variation0.44096
Kurtosis2.16667
Mean4285715.0
MAD0
Skewness-2.04124
Sum30000005
Variance3571421428575.0
\n", - "
\n", - " \n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - "
\n", - "
\n", - "
\n", - "
\n", - "\n", - " \n", - "\n", - "
\n", - "
\n", - "

rank1

\n", - " numeric\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Unique 4
Unique (%) 57.14
Missing0
Missing (%)0.0
\n", - "
\n", - "

\n", - " Datatypes\n", - "

\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
\n", - " String\n", - " \n", - " \n", - "
\n", - " Integer\n", - " \n", - " \n", - "
\n", - " Decimal\n", - " \n", - " 7\n", - "
\n", - " Bool\n", - " \n", - " \n", - "
\n", - " Date\n", - " \n", - " \n", - "
\n", - " Missing\n", - " \n", - " 0\n", - "
\n", - " Null\n", - " \n", - " 0\n", - "
\n", - " \n", - "
\n", - "

\n", - " Basic Stats\n", - "

\n", - "\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - "
Mean7.71429
Minimum4.0
Maximum10.0
Zeros(%)0
\n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - " \n", - "\n", - " \n", - "
\n", - "\n", - "

Quantile statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Minimum4.0
5-th percentile4.0
Q17.0
Median8.0
Q310.0
95-th percentile10.0
Maximum10.0
Range6.0
Interquartile range3.0
\n", - "
\n", - "
\n", - "

Descriptive statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Standard deviation2.05866
Coef of variation0.26686
Kurtosis-0.34282
Mean7.71429
MAD1.0
Skewness-0.57857
Sum54.0
Variance4.2381
\n", - "
\n", - " \n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - "
\n", - "
" - ], - "text/plain": [ - "" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "INFO:optimus:run() executed in 81.77 sec\n" - ] - }, - { - "data": { - "text/plain": [ - "" - ] - }, - "execution_count": 21, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "p.run(df)" - ] - }, - { - "cell_type": "code", - "execution_count": 22, - "metadata": {}, - "outputs": [ - { - "data": { - "text/plain": [ - "['new_names', 'names2', 'height(ft)', 'age', 'rank2']" - ] - }, - "execution_count": 22, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "list(p.output_columns[\"columns\"].keys())" - ] - }, - { - "cell_type": "code", - "execution_count": 23, - "metadata": {}, - "outputs": [], - "source": [ - "df.get_meta()[\"transformations\"].get(\"actions\")" - ] - }, - { - "cell_type": "code", - "execution_count": 24, - "metadata": {}, - "outputs": [ - { - "data": { - "text/plain": [ - "['names2', 'height(ft)', 'rank2', 'age', 'new_names']" - ] - }, - "execution_count": 24, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "df.cols.names()" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "# Bring data from cache" - ] - }, - { - "cell_type": "code", - "execution_count": 31, - "metadata": {}, - "outputs": [ - { - "data": { - "text/html": [ - "\n", - "
\n", - "

Overview

\n", - "
\n", - "
\n", - "
\n", - "

Dataset info

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
Number of columns5
Number of rows7
Total Missing (%)3
Total size in memory68.4 MB
\n", - "
\n", - "
\n", - "

Column types

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
Categorical0
Numeric0
Date0
Array0
Not available0
\n", - "
\n", - "
\n", - "
\n", - "
\n", - "\n", - " \n", - "\n", - "
\n", - "
\n", - "

new_names

\n", - " categorical\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Unique 6
Unique (%) 85.71
Missing1
Missing (%)14.29
\n", - "
\n", - "

\n", - " Datatypes\n", - "

\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
\n", - " String\n", - " \n", - " 5\n", - "
\n", - " Integer\n", - " \n", - " \n", - "
\n", - " Decimal\n", - " \n", - " \n", - "
\n", - " Bool\n", - " \n", - " \n", - "
\n", - " Date\n", - " \n", - " \n", - "
\n", - " Missing\n", - " \n", - " 1\n", - "
\n", - " Null\n", - " \n", - " 1\n", - "
\n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "

Frequency

\n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
ValueCountFrecuency (%)
bumbl#ebéé 114.29%
ironhide&114.29%
114.29%
None114.29%
jazz114.29%
optim'us114.29%
megatron114.29%
\"Missing\"114.29%
\n", - " \n", - "
\n", - " \n", - "\n", - " \n", - "
\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - "\n", - "
\n", - "
\n", - "
\n", - "
\n", - "\n", - " \n", - "\n", - "
\n", - "
\n", - "

names2

\n", - " categorical\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Unique 5
Unique (%) 71.43
Missing1
Missing (%)14.29
\n", - "
\n", - "

\n", - " Datatypes\n", - "

\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
\n", - " String\n", - " \n", - " 5\n", - "
\n", - " Integer\n", - " \n", - " \n", - "
\n", - " Decimal\n", - " \n", - " \n", - "
\n", - " Bool\n", - " \n", - " \n", - "
\n", - " Date\n", - " \n", - " \n", - "
\n", - " Missing\n", - " \n", - " 1\n", - "
\n", - " Null\n", - " \n", - " 1\n", - "
\n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "

Frequency

\n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
ValueCountFrecuency (%)
Jazz114.29%
Optim'us114.29%
Megatron114.29%
bumbl#ebéé 114.29%
ironhide&114.29%
114.29%
None114.29%
\"Missing\"114.29%
\n", - " \n", - "
\n", - " \n", - "\n", - " \n", - "
\n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - "\n", - "
\n", - "
\n", - "
\n", - "
\n", - "\n", - " \n", - "\n", - "
\n", - "
\n", - "

height(ft)

\n", - " numeric\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Unique 6
Unique (%) 85.71
Missing1
Missing (%)14.29
\n", - "
\n", - "

\n", - " Datatypes\n", - "

\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
\n", - " String\n", - " \n", - " \n", - "
\n", - " Integer\n", - " \n", - " 6\n", - "
\n", - " Decimal\n", - " \n", - " \n", - "
\n", - " Bool\n", - " \n", - " \n", - "
\n", - " Date\n", - " \n", - " \n", - "
\n", - " Missing\n", - " \n", - " 0\n", - "
\n", - " Null\n", - " \n", - " 1\n", - "
\n", - " \n", - "
\n", - "

\n", - " Basic Stats\n", - "

\n", - "\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - "
Mean64.33333
Minimum2
Maximum300
Zeros(%)0
\n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - " \n", - "\n", - " \n", - "
\n", - "\n", - "

Quantile statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Minimum2
5-th percentile2
Q113
Median17
Q328
95-th percentile300
Maximum300
Range298
Interquartile range15
\n", - "
\n", - "
\n", - "

Descriptive statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Standard deviation115.83552
Coef of variation1.80055
Kurtosis1.15312
Mean64.33333
MAD9
Skewness1.76212
Sum386
Variance13417.86667
\n", - "
\n", - " \n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - "
\n", - "
\n", - "
\n", - "
\n", - "\n", - " \n", - "\n", - "
\n", - "
\n", - "

age

\n", - " numeric\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Unique 2
Unique (%) 28.57
Missing0
Missing (%)0.0
\n", - "
\n", - "

\n", - " Datatypes\n", - "

\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
\n", - " String\n", - " \n", - " \n", - "
\n", - " Integer\n", - " \n", - " 7\n", - "
\n", - " Decimal\n", - " \n", - " \n", - "
\n", - " Bool\n", - " \n", - " \n", - "
\n", - " Date\n", - " \n", - " \n", - "
\n", - " Missing\n", - " \n", - " 0\n", - "
\n", - " Null\n", - " \n", - " 0\n", - "
\n", - " \n", - "
\n", - "

\n", - " Basic Stats\n", - "

\n", - "\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - "
Mean4285715.0
Minimum5
Maximum5000000
Zeros(%)0
\n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - " \n", - "\n", - " \n", - "
\n", - "\n", - "

Quantile statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Minimum5
5-th percentile5
Q15000000
Median5000000
Q35000000
95-th percentile5000000
Maximum5000000
Range4999995
Interquartile range0
\n", - "
\n", - "
\n", - "

Descriptive statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Standard deviation1889820.47522
Coef of variation0.44096
Kurtosis2.16667
Mean4285715.0
MAD0
Skewness-2.04124
Sum30000005
Variance3571421428575.0
\n", - "
\n", - " \n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - "
\n", - "
\n", - "
\n", - "
\n", - "\n", - " \n", - "\n", - "
\n", - "
\n", - "

rank1

\n", - " numeric\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Unique 4
Unique (%) 57.14
Missing0
Missing (%)0.0
\n", - "
\n", - "

\n", - " Datatypes\n", - "

\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - " \n", - "
\n", - " String\n", - " \n", - " \n", - "
\n", - " Integer\n", - " \n", - " \n", - "
\n", - " Decimal\n", - " \n", - " 7\n", - "
\n", - " Bool\n", - " \n", - " \n", - "
\n", - " Date\n", - " \n", - " \n", - "
\n", - " Missing\n", - " \n", - " 0\n", - "
\n", - " Null\n", - " \n", - " 0\n", - "
\n", - " \n", - "
\n", - "

\n", - " Basic Stats\n", - "

\n", - "\n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - " \n", - "
Mean7.71429
Minimum4.0
Maximum10.0
Zeros(%)0
\n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - " \n", - "\n", - " \n", - "
\n", - "\n", - "

Quantile statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Minimum4.0
5-th percentile4.0
Q17.0
Median8.0
Q310.0
95-th percentile10.0
Maximum10.0
Range6.0
Interquartile range3.0
\n", - "
\n", - "
\n", - "

Descriptive statistics

\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Standard deviation2.05866
Coef of variation0.26686
Kurtosis-0.34282
Mean7.71429
MAD1.0
Skewness-0.57857
Sum54.0
Variance4.2381
\n", - "
\n", - " \n", - "
\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "\n", - "
\n", - "
\n", - " \n", - "
\n", - "
\n", - "
" - ], - "text/plain": [ - "" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "INFO:optimus:run() executed in 0.37 sec\n" - ] - }, - { - "data": { - "text/plain": [ - "" - ] - }, - "execution_count": 31, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "p.run(df)" - ] - } - ], - "metadata": { - "kernelspec": { - "display_name": "Python 3", - "language": "python", - "name": "python3" - }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.7.1" - } - }, - "nbformat": 4, - "nbformat_minor": 4 -} diff --git a/optimus/profiler/templates/one_column.html b/optimus/profiler/templates/one_column.html index 8ef28b6e..09c9fbeb 100644 --- a/optimus/profiler/templates/one_column.html +++ b/optimus/profiler/templates/one_column.html @@ -135,7 +135,7 @@

Frequency

Value Count - Frecuency (%) + Frequency (%) {% for vi in data.frequency[:10] %} diff --git a/optimus/profiler/templates/out/one_column.html b/optimus/profiler/templates/out/one_column.html index 23c6b20a..d789e050 100644 --- a/optimus/profiler/templates/out/one_column.html +++ b/optimus/profiler/templates/out/one_column.html @@ -135,7 +135,7 @@

Frequency

Value Count - Frecuency (%) + Frequency (%) {% for vi in data.frequency[:10] %} diff --git a/readme/readme_.ipynb b/readme/readme_.ipynb index 11cbb709..16a2a6a2 100644 --- a/readme/readme_.ipynb +++ b/readme/readme_.ipynb @@ -1598,7 +1598,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", " \n", " \n", @@ -2864,7 +2864,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", " \n", " \n", @@ -4046,7 +4046,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", " \n", " \n", @@ -5305,7 +5305,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", " \n", " \n", diff --git a/tests/creator/creator-profiler.ipynb b/tests/creator/creator-profiler.ipynb index 1ba79eed..963c606c 100644 --- a/tests/creator/creator-profiler.ipynb +++ b/tests/creator/creator-profiler.ipynb @@ -1597,7 +1597,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", "\n", " \n", @@ -2028,7 +2028,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", "\n", " \n", @@ -2933,7 +2933,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", "\n", " \n", @@ -3127,7 +3127,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", "\n", " \n", @@ -3307,7 +3307,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", "\n", " \n", @@ -3466,7 +3466,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", "\n", " \n", @@ -3660,7 +3660,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", "\n", " \n", @@ -3854,7 +3854,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", "\n", " \n", @@ -4048,7 +4048,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", "\n", " \n", @@ -4207,7 +4207,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", "\n", " \n", @@ -4366,7 +4366,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", "\n", " \n", @@ -4560,7 +4560,7 @@ " \n", " Value\n", " Count\n", - " Frecuency (%)\n", + " Frequency (%)\n", " \n", "\n", " \n",