Skip to content
View cris-jimenez89's full-sized avatar

Block or report cris-jimenez89

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Please don't include any personal information such as legal names or email addresses. Maximum 100 characters, markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
cris-jimenez89/README.md

Hola, soy Cristina 👋

¡Saludos, viajero/a de datos! Me alegra que hayas aterrizado en mi rincón digital donde la ciencia de datos se encuentra con la diversión

¿Quién soy?

  • Soy una aficionada de este maravilloso mundo que es el DATA SCIENCE y una exploradora apasionada que se adentra en las profundidades de su universo para encontrar tesoros ocultos.

  • Me considero una "navegante de datos", siempre buscando nuevas aventuras en la vasta extensión de este océano.

  • La creatividad es mi brújula en este viaje de descubrimiento, donde la innovación y la imaginación se unen para crear soluciones únicas.

Habilidades y superpoderes

  • Analítica galáctica: Utilizo mi mente analítica para explorar datos de todas las formas y tamaños, desde pequeños datos hasta big data, en busca de revelaciones cósmicas.

  • Arte de la visualización: Me encanta convertir estadísticas en visualizaciones que cuenten historias increíbles y hagan que mis registros cobren vida.

  • Maestría en Machine Learning: Domino el arte de enseñar a las máquinas a aprender, capacitándolas para predecir el futuro y resolver problemas complejos.

Competencias adquiridas durante mi estudio

  • Lenguajes de Programación: Python, SQL
  • Aprendizaje Automático: TensorFlow, scikit-learn, Keras, Reinforcement Learning,
  • Procesamiento de Lenguaje Natural: NLTK&CountVectorizer, spaCy&Textacy
  • Visualización de Datos: Matplotlib, Seaborn, Plotly, Tableau
  • Herramientas de Big Data: Spark, Hadoop, Docker
  • Bases de Datos: MySQL, PostgreSQL

Proyectos Destacados

EDA ¿QUIÉN QUIERE SER MILLONARIO?

Realizamos un análisis de los millonarios existentes y su evolución desde el año 2012 a 2023. Descargamos los datos de la revista Forbes, de Wealth Source y Epdata entre otros sobre las personas más ricas del mundo en los últimos 10 años. Buscamos patrones en las nacionalidades, géneros, edad, industrias... para responder a nuestras hipótesis, ¿qué tienen en común los millonarios? ¿Hay algo que pueda hacer para acercarme más a mi sueño?

MACHINE LEARNING SOBRE LA CALIDAD DEL AGUA SUPERVISADO

Desarrollé un proyecto de machine learning, para determinar la calidad del agua y su potabilidad, con la columna target IS_SAFE, sobre si el agua se considera segura o no. Usé tanto modelos normales (regresion logistica, SVM..) como modelos con técnicas de más complejas de ensembles (XGBOOST, RANDOM FOREST...).

MACHINE LEARNING SOBRE LA CALIDAD DEL AGUA NO SUPERVISADO

Di una vuelta al modelo supervisado desarrollado en PROYECTO 2, MACHINE LEARNING SOBRE LA CALIDAD DEL AGUA SUPERVISADO, y USE APRENDIZAJE NO SUPERVISADO PARA IDENTIFICAR PATRONES OCULTOS E INFORMACION NUEVA, ASI COMO POSIBLES RELACIONES ENTRE FEATURES QUE NO SE HABIAN CONSIDERADO CON ANTERIORIDAD y poder tomar posibles decisiones de cara a un futuro.

“NOWCASTING”: HACIENDO PREDICCIONES SOBRE EL TIEMPO PRESENTE

Junto con 3 compañeros, y junto con la empresa RANDBEE CONSULTANTS generamos un modelo de “nowcasting” basado en una técnica de ML para predecir a tiempo real una de las variables socio-económicas (integración de los inmigrantes en el mercado laboral) a partir de “big data” obtenidos de “Google Trends” y de “GDELT” (‘Global Database on Events Location and Tone’).

  1. Creamos una API con FAST API para extraer los datos de nuestra variable RESPUESTA, cuantificada a partir de datos proporcionados por Eurostat. En concreto, la serie temporal del indicador: Population by sex, age, citizenship and labour status (1 000) -lfsa_pganws, medido como tasa de actividad por sexo; edad y país de nacimiento, que presenta una frecuencia anual. Estos datos están disponibles desde el año 1995.
  2. Implementamos una API que permitía extraer información sobre vólumenes de consultas de “Google search data” agregadas bajo la forma de “Google Trends” para un conjunto predefinido de “temas” y “categorías” en distintos periodos de tiempo y a determinadas frecuencias temporales.
  3. Implementamos una API para extraer información sobre “sentiment indicators” a partir de la base de datos GDELT, en forma de “Article tone” y “Topic popularity rate”.
  4. Construimos (y validamos) un modelo de “nowcasting” usando técnicas de ML (Random Forest, XGBOOST y LSTM neural network) para la variable socioeconómica señalada utilizando los datos the Google Trends y de GDELT previamente extraídos como predictores.
  5. Habilitamos una API con 4 llamadas (3 LLAMADAS GET Y UNA LLAMADA POST), una que haga llamada desde el histórico y separe en train y test; la siguiente que entrene el modelo, lo guarde en tu ordenador y te muestre su ruta; una tercera que nos extraiga las métricas tras cargar el modelo ya entrenado, obteniendo los datos de test y devuelviendo el clasification report; y una última llamada POST con un PREDICT que carga el modelo y llama a la función predict del modelo pasándole los datos que le has pasado a la llamada.

🎉Contacto

¡Gracias por visitar mi espacio de datos! Si estás interesado/a en colaborar en proyectos mágicos de ciencia de datos o simplemente quieres charlar sobre el universo de los datos, no dudes en ponerte en contacto conmigo a través de LinkedIn o por correo electrónico en [email protected].

¡Que la magia de los datos esté siempre contigo! ¡Espero tener la oportunidad de trabajar juntos en emocionantes proyectos de ciencia de datos!

Popular repositories Loading

  1. Hundir_la_Flota Hundir_la_Flota Public

    Python

  2. MIS-PRUEBAS-LOCAS MIS-PRUEBAS-LOCAS Public

    ¡BIENVENIDOS A MI CAJON DESASTRE! No se que terminará subido aquí, pero prometo BASTANTE TRAQUETEO. PROBEMOS COSITAS.

    Jupyter Notebook

  3. QUIEN-QUIERE-SER-MILLONARIO QUIEN-QUIERE-SER-MILLONARIO Public

    Jupyter Notebook

  4. PORTFOLIO-DATA PORTFOLIO-DATA Public

    Organizaré todos mis proyectos de Data Science en este repositorio. QUE LO DISFRUTEIS.

  5. MACHINE_LEARNING_CALIDAD_DEL_AGUA_SUPERVISADO MACHINE_LEARNING_CALIDAD_DEL_AGUA_SUPERVISADO Public

    Repositorio creado para mi primer proyecto de Machine Learning, hecho durante mi tiempo en el bootcamp de Data Science de The Bridge. Estudio sobre la calidad del agua, con aprendizaje supervisado

    Jupyter Notebook

  6. MACHINE-LEARNING-SOBRE-LA-CALIDAD-DEL-AGUA-NO-SUPERVISADO MACHINE-LEARNING-SOBRE-LA-CALIDAD-DEL-AGUA-NO-SUPERVISADO Public

    Segundo repositorio creado para mi primer proyecto de Machine Learning, hecho durante mi tiempo en el bootcamp de Data Science de The Bridge. Estudio sobre la calidad del agua, en esta ocasión con …

    Jupyter Notebook