Los 10 mejores proyectos de Machine Learning si eres Principiante
west

Los 10 mejores proyectos de Machine Learning si eres Principiante

Probablemente una de las cosas más difíciles a la hora de practicar lo aprendido de machine learning sea encontrar proyectos para principiantes.


Nodd3r
28 de Junio de 2022 . 10 min
 ...


Por si aún hay conceptos que se te escapan y no tienes definidos o seguros al 100%, antes de nada, vamos a empezar por ahí.


¿QUÉ ES EL MACHINE LEARNING?


El machine learning o aprendizaje automático es una disciplina científica que se encuentra dentro del campo de la inteligencia artificial.


Se encarga de examinar, evaluar y comparar conjuntos de datos para poder extraer de ellos similitudes y patrones de comportamiento. Una vez conseguido esto, es más fácil poder realizar predicciones lo más exactas posible.


Actualmente, en muchas empresas de prácticamente todos los sectores están incorporando la ciencia de datos y en concreto, el machine learning, en sus acciones. Gracias a esto, podrán tomar mejores decisiones basadas en datos o comportamientos sobre los que apoyarse.


Teniendo claro este concepto, es interesante que si estás comenzando a adentrarte en el mundo del machine learning, practiques con los 10 mejores proyectos de machine learning para principiantes.


Además, una vez que los finalices, podrás incluirlos en tu portfolio como data sicentist.



¿QUÉ ES UN PORTFOLIO DE DATA SCIENTIST Y COMO CREAR UNO BUENO?


El portfolio es una herramienta esencial que contribuirá a que puedas superar una entrevista de empleo con éxito.


Consiste en recoger en un documento aquellos proyectos que consideras más relevantes en los que has trabajado y así poder demostrar tus habilidades.


Por lo tanto, se trata de un documento donde "vendes" tus habilidades y talentos.


Es decir, debe de decir "este soy yo y esto es lo que puedo hacer por vosotros".


Los responsables de recursos humanos encargados de la contratación examinan los curriculums muy rápidamente, por eso sólo tienes unos minutos para causar una buena impresión.


Por eso, como consejos para que tu porfolio destaque...


  • Ten una longitud adecuada: Intenta que sea sencillo. Debe haber espacio suficiente para incluir todo tu trabajo en 2 o 3 páginas. No incluyas objetivos y conclusiones y aprovecha ese espacio para tus habilidades, proyectos y experiencias.
  • Indica el trabajo de curso relevante: Enumera todos los trabajos de curso relevantes que crees que serán aplicables a la descripción del puesto.
  • Habilidades técnicas: Indica al principio en cuáles eres mejor, calificándolas (de forma no numérica), es decir, con palabras como "competente" o "familiarizado".
  • Experiencia laboral: Puedes incluir proyectos, tesis, concursos y prácticas. En el caso de que no tengas experiencia laboral como tal, estos pueden ser buenos sustitutos.
  • Proyectos del mundo real: Permiten obtener experiencia, por lo que es aconsejable indicar 3-4 proyectos que cubran las responsabilidades laborales comunes que tienen los puestos de trabajo que te interesan. Redáctalo todo siempre de forma estructurada.
  • Redes sociales: Publica trabajos, escritos, artículos, respuestas, etc. en tus redes sociales para que se te conozca y ser un "referente".



Y como siempre se ha dicho, la mejor forma de aprender una cosa nueva es haciéndolo.


La teoría es muy importante para entender las cosas, pero la mejor forma de afianzar conocimientos e interiorizarlos es aplicando la teoría a proyectos con datos del mundo real. 


Además, estos proyectos te servirán como una buena carta de presentación en las entrevistas ante las empresas si estás buscando trabajo, y más si no tienes experiencia previa.


Recuerda que a las empresas les gusta saber de qué eres capaz y qué mejor forma de mostrárselo que con proyectos que has realizado tú mismo.


Proyectos de machine learning para principiantes


1. Calcular el precio de la vivienda.



¿Sería fantástico poder saber el precio adecuado de una casa verdad? Pues a través de un modelo de aprendizaje automático es posible. El precio de una vivienda puede variar por muchos factores entre ellos el tamaño, la ubicación, el número de habitaciones, el estado de la casa, antigüedad, reformas…

Es un problema de regresión, tienes que escribir los valores de las variables independientes y obtendrás el precio adecuado de la casa en función de los valores de los factores proporcionados.

No te olvides de utilizar  las técnicas de ingeniería de características requeridas. Incluso, puedes visualizar el conjunto de datos para la comprensión humana. Con esto, podrás explicar a los usuarios finales la correlación entre la ubicación con el  precio de la casa.

En el conjunto de datos a continuación, hay varias características como el área de fachada, la ubicación, etc., que se pueden usar para predecir el precio de la vivienda.

Dataset

2. Predicción de abandono de clientes.


La retención de clientes es uno de los grandes desafíos de cualquier empresa. Sin embargo, para los bancos aún más. El objetivo de este proyecto es clasificar si un cliente abandona o no. Para los bancos es muy útil identificar y visualizar qué factores contribuyen a la pérdida de clientes.

Si los bancos consiguen averiguar qué clientes van a abandonar y por qué, pueden crear estrategias de marketing y de retención adecuadas para conseguir que se queden. Por ejemplo, les podrían ofrecer intereses bajos o una tarjeta de crédito gratuita.

Dataset


 3. Predicción de enfermedades del corazón.



El machine learning se está cobrando una gran importancia en el sector de la sanidad, ya que permite predecir con mayor rapidez enfermedades cardíacas, cáncer…

Para predecir una enfermedad cardíaca se deben proporcionar los valores de los factores que contribuyen a la enfermedad, como son la presión arterial, el  tipo de dolor en el pecho, el colesterol, el nivel de azúcar, etc.

Es un problema de clasificación binaria. El conjunto de datos contiene 13 atributos independientes. Este conjunto de datos te permitirá practicar mucho la ingeniería de características. Además, puedes explorar diferentes técnicas de selección de funciones para seleccionar las funciones correctas para crear el modelo. El conjunto de datos está muy desequilibrado porque muchos pacientes del conjunto no desarrollaron enfermedades de corazón. Por lo tanto, también puede explorar técnicas como Oversampling y Undersampling.

4. Segmentación de clientes.


Todas las empresas dividen a sus clientes en diferentes categorías en función de sus gustos, características o comportamientos para ofrecerles aquello que mejor se ajusta a sus necesidades.A esto se le llama segmentación. 

Para cada uno de los segmentos, las empresas diseñan y aplican diferentes estrategias de Marketing. 

La segmentación de clientes es un problema de aprendizaje no supervisado, lo que significa que no tenemos una variable dependiente. Dataset


5. Detección de phishing.



¿Qué es el phishing? El phishing o fraude electrónico es un delito cibernético en el que los delincuentes se hacen  pasar por entidades conocidas o de confianza y contactan a las personas a través de correo electrónico, mensaje de texto o teléfono y les piden que compartan información confidencial. También se les puede solicitar a los usuarios que ingresen la información de la tarjeta de crédito o los detalles de la cuenta bancaria, así como otros datos confidenciales. Una vez que han recopilado esta información, los delincuentes la utilizan para acceder a las cuentas, robar los datos e identidades y descargar malware en el ordenador del usuario.

¿Cómo podemos evitar el phishing? A través del aprendizaje automático, podemos identificar si existe una amenaza de phishing y actuar ante ello. Desde el punto de vista de la seguridad es una herramienta clave que puede evitar muchos delitos.

Dataset


6. Predicción de taquilla.



A todos nos gusta ver películas. Todos los años se estrenan películas que son todo un éxito y generan millones de euros.

¿Crees que es posible predecir los ingresos de taquilla que va a tener una película? La respuesta es sí, a través del Machine Learning podemos hacer esta predicción.

Es un problema de regresión. El objetivo de este proyecto es analizar qué hace que determinadas películas sean exitosas y otras no tanto, según la medida de los ingresos de taquilla en todo el mundo. Para los productores de películas saber qué factores son los que hacen que una película tenga éxito sería una bendición.

En este conjunto de datos, hay 7398 películas y una variedad de metadatos obtenidos de The Movie Database (TMDB). Las películas están etiquetadas con id. Los puntos de datos incluyen el elenco, el equipo, las palabras clave de la trama, el presupuesto, los carteles, las fechas de lanzamiento, los idiomas, las productoras y los países.

Dataset


7. Reconocimiento de actividad humana con teléfonos inteligentes.



Podemos  predecir la actividad que realiza una persona utilizando los valores de postura corporal capturados.

Es un problema de clasificación multiclase. El objetivo es clasificar las actividades en una de las seis actividades realizadas. Las seis actividades son: Caminar, Subir escaleras, Bajar escaleras, Sentarse, Estar de pie, Acostarse.

Se pueden aplicar diferentes algoritmos de clasificación como SVM, Naive Bayes, Random Forest, etc. para predecir la salida.

Dataset


8. Predicción de ingresos de la población.



La predicción de ingresos es muy útil para predecir la economía del país y otras medidas importantes. El objetivo de este proyecto de aprendizaje automático es utilizar el conjunto de datos de ingresos del censo de adultos para predecir si los ingresos superan los 50 000 al año en función de los datos del censo, como el nivel educativo, la relación, las horas de trabajo por semana y otros atributos.

Con base en el análisis, podemos determinar la brecha de desigualdad de ingresos entre ricos y pobres. Además, podemos analizar qué factores contribuyen más a la desigualdad de ingresos. En base a esto, los gobiernos pueden introducir políticas apropiadas para cerrar la brecha de ingresos y asegurar un buen nivel de vida para todos.

El conjunto de datos tiene más de 32 mil filas y 15 atributos. Es un gran conjunto de datos para practicar cómo lidiar con los valores faltantes y la ingeniería de características.

Dataset


9. Duración del viaje en taxi de Nueva York.



Este proyecto es ideal para practicar la ingeniería de características. El objetivo del proyecto es predecir la duración total de los viajes en taxi en la ciudad de Nueva York. Es un problema de regresión.

El conjunto de datos tiene variables que incluyen las coordenadas de inicio y finalización de un viaje en taxi, el tiempo y la cantidad de pasajeros. Las variables como el tiempo y las coordenadas deben procesarse previamente de manera adecuada y convertirse a un formato comprensible. Entonces, también puedes practicar el manejo de fechas. Este conjunto de datos también tiene algunos valores atípicos que hacen que la predicción sea más compleja, por lo que deberá manejar esto con técnicas de ingeniería de características.

Puede explorar varias técnicas de detección y tratamiento de valores atípicos tanto visual como estadísticamente.

Dataset


10. Predicción de Migración.



El proyecto tiene como objetivo pronosticar la entrada de inmigrantes en varios países europeos. Al hacerlo, las autoridades gubernamentales pueden ser proactivas en la preparación para satisfacer sus necesidades y abogar por la voluntad política para proporcionar un paso seguro a Europa.

Es necesario brindar asistencia a los migrantes. Es por eso que la previsión es muy importante.

Dataset


Conclusión.

El Machine Learning está cobrando cada vez más importancia y si eres principiante en este campo es necesario que comiences a aplicar tus conocimientos en proyectos reales para seguir aprendiendo. Es la mejor forma para mejorar y poder mostrar a las empresas de lo que eres capaz.

Si te interesa saber más sobre Machine Learning, Inteligencia Artificial y Data Science, no olvides visitar el resto de nuestro blog.

X

¿Quieres recibir el eBook de Conceptos básicos de Data Science?



¡Descargar aquí el eBook en PDF GRATIS!


También te puede interesar





...
Descubre el poder de Apache Spark

Practicar con Apache Spark y realizar proyectos por tu cuenta es fundamental si quieres convertirte en científico de datos.

...
Aprendizaje por refuerzo: La revolución de la Inteligencia Artificial.

Esta rama de la inteligencia artificial (IA) se ha convertido en una herramienta fundamental para abordar problemas complejos y tomar decisiones óptimas en una variedad de campos, desde la robótica hasta la toma de decisiones empresariales.

...
Tendencias emergentes en la ciencia de datos y la inteligencia artificial.

En este artículo exploraremos las tendencias emergentes en la ciencia de datos y cómo están dando forma al futuro de la inteligencia artificial.

...
¿Por qué es importante aprender estadística si quieres ser científico de datos?

Si aspiras a convertirte en un data scientist, no puedes dejar a un lado la importancia de la estadística en tu camino. En este artículo exploraremos por qué la estadística es una habilidad crítica que todo data scientist debe dominar.

...
¿Cómo formarte como científico de datos desde cero?

Si no sabes qué necesitas para formarte como profesional en la ciencia de datos, aquí te dejamos una infografía para que comprendas mejor visualmente todo el proceso de formación y las etapas por las que pasarás hasta consolidarte como profesional cualificado.

...
Impresionantes proyectos de ciencia de datos para destacar en tu portfolio

Si acabas de formarte como científico de datos (data scientistis) y estás buscando destacar dentro de este mundo laboral y construir un portafolio impresionante, este es tu sitio.

...
Los algoritmos más usados en machine learning

Dentro del aprendizaje automático o machine learning, destacan algunos algoritmos sobre otros a la hora de resolver problemas. Estos algoritmos se repiten muy a menudo.

...
10 habilidades necesarias para científicos de datos en 2023

Mantenerse actualizado constantemente resulta de vital importancia a la hora de destacar en cualquier carrera profesional y, como era de esperar, en ciencia de datos también se aplica.

...
La importancia de supervisar los modelos de machine learning

Teniendo en cuenta que el aprendizaje automático o machine learning, se ha convertido en una poderosa herramienta para muchas empresas y organizaciones, ¿sabes por qué no debes descuidar la supervisión de tus modelos?

...
Cómo limpiar datos para sacar su máximo partido

Aprender a limpiar los datos y sacarle su máximo partido cada vez cobra más peso, si no sabes qué pasos seguir para realizarlo correctamente, sigue leyendo este artículo.

...
Google reacciona a ChatGPT de OpenAI y saca Bard, su IA conversacional.

El propio CEO de Google y Alphabet, Sundar Pichai lanzó un comunicado en el Blog Oficial de Google sobre esto mismo. Para saber más sobre Bard, quédate leyendo este artículo.

...
Chat GPT y por qué está revolucionando el panorama actual

Seguramente hayas escuchado hablar sobre ChatGPT y cómo actualmente está revolucionando el panorama tal cual como lo conocemos, pero ¿a qué se debe esto?

...
Aprende a hacer un buen portfolio de proyectos y consigue empleo con estos tips.

¿Aún no has comenzado a crear tu propio portafolio de proyectos de data science e IA? Aquí encontrarás los pasos que necesitas seguir para tener un buen portafolio de proyectos y el por qué deberías de comenzar en cuanto antes.

...
¿Análisis de datos en tiempo real? Descubre su importancia y ventajas.

¿Has oído hablar del análisis de datos en tiempo real? En este post descubrirás qué es y por qué tiene tanta importancia en la actualidad.

...
¿Merece la pena estudiar Data Science?

Teniendo en cuenta que la ciencia de datos está considerada como una de las ciencias más destacadas de la actualidad, ¿merece la pena estudiar un máster en ciencia de datos? Quédate leyendo este post si quieres saber por qué.

...
TOP 12 IDEAS PROYECTOS DE PYTHON PARA PRINCIPIANTES

¿Quieres empezar a realizar proyectos de Python pero no tienes ideas o simplemente te parecen muy difíciles los proyectos que encuentras?

...
FORMAS FÁCILES DE OBTENER DATOS PARA ENTRENAR MODELOS DE IA Y MACHINE LEARNING

La calidad y cantidad de los datos influye notablemente en los resultados que se obtienen, ¿quieres saber de dónde puedes obtener datos para tus modelos?

...
¿Cuánto gana un Data Scientist?

El salario: Uno de los motivos por los que deberías de aprender Data Science, proyectos de Machine Learning y Deep Learning para convertirte en Data Scientist.

...
Qué son y diferencias entre bases de datos SQL y bases de datos NoSQL

Aquí encontrarás unas breves pinceladas sobre qué son verdaderamente las bases de datos y qué tipos hay, además de las diferencias entre las bases de datos SQL y NoSQL.

...
Keras vs TensorFlow vs PyTorch: Diferencias clave entre frameworks de Deep Learning

En las últimas décadas, el Deep Learning está ganando popularidad.

...
Ventajas de aprender a programar en Python

A día de hoy, Python es el lenguaje de programación más usado. Si aún estás dudando de sus múltiples ventajas, en este post encontrarás algunas de las razones por las que deberías aprender a programar en Python

...
¿Cómo elegir el mejor modelo de machine learning?

Si estás pensando en crear un proyecto de machine learning, tienes que tener en cuenta que no siempre tener un modelo con mejor rendimiento será tu mejor solución.

...
Test de Turing

Qué es, cómo funciona y limitaciones del Test de Turing

...
Tipos de redes neuronales

El futuro de la Inteligencia Artificial ha llegado.

...
Underfitting vs Overfitting

Qué es, causas, cómo detectarlo y solucionarlo

...
Data Science: qué es, qué se hace, qué se necesita y aplicaciones

Descubre qué es la ciencia de datos, para qué sirve y qué salidas tiene

...
Chatbot: ¿Qué es, para qué sirve y qué tipos existen?

Un chatbot es mucho más que un servicio de mensajería automática, pero... ¿sabes todo lo necesario sobre ellos?

...
¿Cómo funciona el algoritmo y el sistema de recomendación de Spotify?

En este artículo podrás encontrar desglosado el funcionamiento del sistema de recomendación de Spotify basado en el uso del deep learning.

...
Los errores más comunes en Python que debes evitar si eres principiante

Sabiendo sobre el gran auge que ha tenido Python en estos últimos años... Es interesante que conozcas los siguientes errores más comunes para que puedas evitarlos.

...
Guía de cómo hacer un proyecto de ciencia de datos para que destaque de forma eficiente.

Así es como debes de hacer un proyecto de ciencia de datos o inteligencia artificial de forma eficiente.

...
¿Qué es Git?

¿Conoces Git? ¿Sabes lo que es un sistema de control de versiones? Si te gusta la programación, desarrollar tus propios proyectos, el desarrollo de software, etc. seguro que has leído algo sobre Git. Hoy te contamos todos los detalles acerca de esta herramienta.

...
¿Por qué se utiliza Python en la ciencia de datos?

Python se ha convertido en uno de los lenguajes de programación más populares e incluso el preferido para los científicos y analistas de datos, por eso en este artículo explicaremos a qué se debe su popularidad dentro de esta disciplina.

...
Netflix utiliza la inteligencia artificial para personalizar sus recomendaciones

A través de su algoritmo de recomendación Netflix predice qué contenidos te van a gustar. Si quieres saber cómo funciona no te pierdas este blog.

...
Los 10 mejores proyectos de Machine Learning si eres Principiante

Probablemente una de las cosas más difíciles a la hora de practicar lo aprendido de machine learning sea encontrar proyectos para principiantes.

...
¿Cuál es la diferencia entre la Inteligencia Artificial y el Machine Learning?

¿Son la Inteligencia Artificial y el Machine Learning lo mismo? Si son dos conceptos distintos, ¿de qué forma están relacionados? Estas son algunas de las preguntas que mucha gente se hace, en el post de hoy veremos las diferencias entre ambos y la relación que tienen.

...
¿Qué es Inteligencia Artificial?

Últimamente oímos hablar de inteligencia artificial con mucha frecuencia pero, ¿sabes realmente qué es y qué usos tiene? Te lo contamos más en detalle en este artículo.

...
¿Cómo aplicar Data Science en áreas como Marketing, Biología, Justicia y Arqueología?

El uso de la ciencia de datos está muy extendido, en el blog de hoy vamos a ver cómo podemos usarla en distintas áreas.

...
Deep Learning y Redes Neuronales Artificiales

En este post encontrarás que es el deep learning y todo lo que necesitas para poder comprender su funcionamiento y sus utilidades.

...
Historia del Data Science y la inteligencia artificial

Tanto la ciencia de datos como la inteligencia artificial se han encontrado a lo largo de la historia en una constante evolución, de ahí que estas tecnologías sigan desempeñando un papel cada vez más importante en la sociedad y economía.

...
¿Qué es el Machine Learning y qué aplicaciones tiene?

En este artículo explicaremos qué es el machine learning, cómo funciona y algunas de las aplicaciones más comunes que tiene en diferentes áreas.

...
¿Cómo el data science y el big data puede ayudar a tu negocio?

En este post vamos a hablar sobre cómo la ciencia de datos puede ayudar a mejorar un negocio.

...
¿Qué se necesita saber para ser Data Scientist?

En este post te hacemos un resumen sobre los conocimientos necesarios para trabajar como científico de datos.

...
¿Por qué estudiar Data Science?

En este post, te damos las claves de la importancia de estudiar ciencia de datos.

...
¿Cómo proteger nuestros datos?

En este post, te dejamos alguna información y trucos que puedes hacer para proteger mejor tus datos

...
¿Qué es Data Science?

¿Alguna vez te has preguntado qué es exactamente el data science o la ciencia de datos? ¿Cómo se utiliza y para qué sirve? ¡Estás en el lugar adecuado!

...
¡Bienvenidos Nodd3rs!

¡Bienvenidos a nuestro blog!