Los 10 mejores proyectos de Machine Learning si eres Principiante
west

Los 10 mejores proyectos de Machine Learning si eres Principiante

¿Quieres descubrir qué proyectos reales de Machine Learning puedes hacer si eres principiante?¿Quieres aplicar tus conocimientos de Machine Learning? ¿No sabes por dónde empezar? En el post de hoy te contamos 10 proyectos de ML que puedes hacer si eres principiante.


Nodd3r
22 de Marzo de 2022 . 10 min
 ...

Si eres principiante en Machine Learning, quieres hacer un proyecto y no sabes por dónde empezar, este es tu sitio.


En el blog de hoy vamos hablar sobre los 10 mejores proyectos de Machine Learning si eres principiante. Estos proyectos te ayudarán a empezar tu porfolio como Data Scientist.


El Machine Learning (ML) o Aprendizaje Automático es una de las tecnologías más populares en la actualidad que está transformando drásticamente todas las industrias, ya sea e-commerce, sanidad, economía, seguridad, etc.


El ML es un subcampo de la Inteligencia Artificial que proporciona a las máquinas la capacidad de aprender automáticamente y mejorar a partir de la experiencia sin ser programado expresamente para ello.


La mejor manera de aprender una cosa nueva es haciéndolo, es por ello, que te invitamos a que realices estos proyectos que te ayudarán a aprender y mejorar. La teoría es muy importante para entender las cosas, pero la mejor forma de afianzar conocimientos y aprender es aplicando la teoría haciendo proyectos con datos del mundo real. 


Además, estos proyectos te servirán como una buena carta de presentación en las entrevistas ante las empresas si estás buscando trabajo, y más si no tienes experiencia previa. A las empresas les gusta saber de qué eres capaz y qué mejor forma de mostrárselo que con proyectos que has realizado tú mismo.

Proyectos de Machine Learning para Principiantes


1. Calcular el precio de la vivienda


¿Sería fantástico poder saber el precio adecuado de una casa verdad? Pues a través de un modelo de aprendizaje automático es posible. El precio de una vivienda puede variar por muchos factores entre ellos el tamaño, la ubicación, el número de habitaciones, el estado de la casa, antigüedad, reformas…

Es un problema de regresión, tienes que escribir los valores de las variables independientes y obtendrás el precio adecuado de la casa en función de los valores de los factores proporcionados.

No te olvides de utilizar  las técnicas de ingeniería de características requeridas. Incluso, puedes visualizar el conjunto de datos para la comprensión humana. Con esto, podrás explicar a los usuarios finales la correlación entre la ubicación con el  precio de la casa.

En el conjunto de datos a continuación, hay varias características como el área de fachada, la ubicación, etc., que se pueden usar para predecir el precio de la vivienda.

Dataset

2. Predicción de abandono de clientes


La retención de clientes es uno de los grandes desafíos de cualquier empresa. Sin embargo, para los bancos aún más. El objetivo de este proyecto es clasificar si un cliente abandona o no. Para los bancos es muy útil identificar y visualizar qué factores contribuyen a la pérdida de clientes.

Si los bancos consiguen averiguar qué clientes van a abandonar y por qué, pueden crear estrategias de marketing y de retención adecuadas para conseguir que se queden. Por ejemplo, les podrían ofrecer intereses bajos o una tarjeta de crédito gratuita.

Dataset

3. Predicción de enfermedades del corazón


El Machine Learning se está cobrando una gran importancia en el sector de la sanidad, ya que permite predecir con mayor rapidez enfermedades cardíacas, cáncer…

Para predecir una enfermedad cardíaca se deben proporcionar los valores de los factores que contribuyen a la enfermedad, como son la presión arterial, el  tipo de dolor en el pecho, el colesterol, el nivel de azúcar, etc.

Es un problema de clasificación binaria. El conjunto de datos contiene 13 atributos independientes. Este conjunto de datos te permitirá practicar mucho la ingeniería de características. Además, puedes explorar diferentes técnicas de selección de funciones para seleccionar las funciones correctas para crear el modelo. El conjunto de datos está muy desequilibrado porque muchos pacientes del conjunto no desarrollaron enfermedades de corazón. Por lo tanto, también puede explorar técnicas como Oversampling y Undersampling.

4. Segmentación de clientes

Todas las empresas dividen a sus clientes en diferentes categorías en función de sus gustos, características o comportamientos para ofrecerles aquello que mejor se ajusta a sus necesidades.A esto se le llama segmentación. 

Para cada uno de los segmentos, las empresas diseñan y aplican diferentes estrategias de Marketing. 

La segmentación de clientes es un problema de aprendizaje no supervisado, lo que significa que no tenemos una variable dependiente.

Dataset

5. Detección de phishing


¿Qué es el phishing? El phishing o fraude electrónico es un delito cibernético en el que los delincuentes se hacen  pasar por entidades conocidas o de confianza y contactan a las personas a través de correo electrónico, mensaje de texto o teléfono y les piden que compartan información confidencial. También se les puede solicitar a los usuarios que ingresen la información de la tarjeta de crédito o los detalles de la cuenta bancaria, así como otros datos confidenciales. Una vez que han recopilado esta información, los delincuentes la utilizan para acceder a las cuentas, robar los datos e identidades y descargar malware en el ordenador del usuario.

¿Cómo podemos evitar el phishing?A través del aprendizaje automático, podemos identificar si existe una amenaza de phishing y actuar ante ello. Desde el punto de vista de la seguridad es una herramienta clave que puede evitar muchos delitos.

Dataset

6. Predicción de taquilla


A todos nos gusta ver películas. Todos los años se estrenan películas que son todo un éxito y generan millones de euros.

¿Crees que es posible predecir los ingresos de taquilla que va a tener una película? La respuesta es sí, a través del Machine Learning podemos hacer esta predicción.

Es un problema de regresión. El objetivo de este proyecto es analizar qué hace que determinadas películas sean exitosas y otras no tanto, según la medida de los ingresos de taquilla en todo el mundo. Para los productores de películas saber qué factores son los que hacen que una película tenga éxito sería una bendición.

En este conjunto de datos, hay 7398 películas y una variedad de metadatos obtenidos de The Movie Database (TMDB). Las películas están etiquetadas con id. Los puntos de datos incluyen el elenco, el equipo, las palabras clave de la trama, el presupuesto, los carteles, las fechas de lanzamiento, los idiomas, las productoras y los países.

Dataset

7. Reconocimiento de actividad humana con teléfonos inteligentes


Podemos  predecir la actividad que realiza una persona utilizando los valores de postura corporal capturados.

Es un problema de clasificación multiclase. El objetivo es clasificar las actividades en una de las seis actividades realizadas. Las seis actividades son: Caminar, Subir escaleras, Bajar escaleras, Sentarse, Estar de pie, Acostarse.

Se pueden aplicar diferentes algoritmos de clasificación como SVM, Naive Bayes, Random Forest, etc. para predecir la salida.

Dataset

8. Predicción de ingresos de la población


La predicción de ingresos es muy útil para predecir la economía del país y otras medidas importantes. El objetivo de este proyecto de aprendizaje automático es utilizar el conjunto de datos de ingresos del censo de adultos para predecir si los ingresos superan los 50 000 al año en función de los datos del censo, como el nivel educativo, la relación, las horas de trabajo por semana y otros atributos.

Con base en el análisis, podemos determinar la brecha de desigualdad de ingresos entre ricos y pobres. Además, podemos analizar qué factores contribuyen más a la desigualdad de ingresos. En base a esto, los gobiernos pueden introducir políticas apropiadas para cerrar la brecha de ingresos y asegurar un buen nivel de vida para todos.

El conjunto de datos tiene más de 32 mil filas y 15 atributos. Es un gran conjunto de datos para practicar cómo lidiar con los valores faltantes y la ingeniería de características.

Dataset

9. Duración del viaje en taxi de Nueva York


Este proyecto es ideal para practicar la ingeniería de características. El objetivo del proyecto es predecir la duración total de los viajes en taxi en la ciudad de Nueva York. Es un problema de regresión.

El conjunto de datos tiene variables que incluyen las coordenadas de inicio y finalización de un viaje en taxi, el tiempo y la cantidad de pasajeros. Las variables como el tiempo y las coordenadas deben procesarse previamente de manera adecuada y convertirse a un formato comprensible. Entonces, también puedes practicar el manejo de fechas. Este conjunto de datos también tiene algunos valores atípicos que hacen que la predicción sea más compleja, por lo que deberá manejar esto con técnicas de ingeniería de características.

Puede explorar varias técnicas de detección y tratamiento de valores atípicos tanto visual como estadísticamente.

Dataset

10. Predicción de Migración


El proyecto tiene como objetivo pronosticar la entrada de inmigrantes en varios países europeos. Al hacerlo, las autoridades gubernamentales pueden ser proactivas en la preparación para satisfacer sus necesidades y abogar por la voluntad política para proporcionar un paso seguro a Europa.

Es necesario brindar asistencia a los migrantes. Es por eso que la previsión es muy importante.

Dataset

Conclusión

El Machine Learning está cobrando cada vez más importancia y si eres principiante en este campo es necesario que comiences a aplicar tus conocimientos en proyectos reales para seguir aprendiendo. Es la mejor forma para mejorar y poder mostrar a las empresas de lo que eres capaz.

Si te interesa saber más sobre Machine Learning, Inteligencia Artificial y Data Science, no olvides visitar el resto de nuestro blog.

También te puede interesar





...
LA REVOLUCIÓN DEL DEEP LEARNING

El futuro de la Inteligencia Artificial ha llegado.

...
UNDERFITTING y OVERFITTING

Qué es, causas, cómo detectarlo y solucionarlo

...
¿Qué es Git?

¿Conoces Git? ¿Sabes lo que es un sistema de control de versiones? Si te gusta la programación, desarrollar tus propios proyectos, el desarrollo de software, etc. seguro que has leído algo sobre Git. Hoy te contamos todos los detalles acerca de esta herramienta.

...
¿Cómo funciona el algoritmo y el sistema de recomendación de Spotify?

¿Quieres saber cómo funciona el algoritmo de recomendación de Spotify? Descubre los tres modelos en los que se apoya su sistema de recomendación: Modelo de Filtrado Colaborativo, Modelo de Procesamiento del Lenguaje Natural y Modelo de Audio Sin Procesar

...
Cómo aprender a programar Python desde 0

Existen multitud de lenguajes de programación, entonces, ¿a qué se debe el gran crecimiento de Python? ¿Qué características tiene este lenguaje que muchos programadores se decantan por él? Descúbrelo en el post de hoy

...
Errores más comunes en Python

Si quieres aprender a programar en Python o ya has empezado y quieres conocer los errores más comunes que se cometen, te invitamos a que leas este post.

...
¿Cómo hacer un proyecto de Data Science de forma eficiente?

En el post de hoy te vamos a dar algunos consejos para que puedas sacar el máximo partido a tu tiempo mientras desarrollas un proyecto de Data Science.

...
¿Por qué se utiliza Python en Data Science?

Si quieres saber a qué se debe la alta demanda de Python en Data Science y cómo se utiliza, no te pierdas esta nueva entrada a nuestro blog.

...
Cómo usa Netflix la Inteligencia Artificial para recomendar series

A través de su algoritmo de recomendación Netflix predice qué contenidos te van a gustar. Si quieres saber cómo funciona no te pierdas este blog.

...
Los 10 mejores proyectos de Machine Learning si eres Principiante

¿Quieres descubrir qué proyectos reales de Machine Learning puedes hacer si eres principiante?¿Quieres aplicar tus conocimientos de Machine Learning? ¿No sabes por dónde empezar? En el post de hoy te contamos 10 proyectos de ML que puedes hacer si eres principiante.

...
¿Cuál es la diferencia entre la Inteligencia Artificial y el Machine Learning?

¿Son la Inteligencia Artificial y el Machine Learning lo mismo? Si son dos conceptos distintos, ¿de qué forma están relacionados? Estas son algunas de las preguntas que mucha gente se hace, en el post de hoy veremos las diferencias entre ambos y la relación que tienen.

...
¿Qué es Inteligencia Artificial?

En este post hablamos un poco de la historia de la inteligencia artificial, qué es, los tipos que hay, sus aplicaciones y sus ventajas e inconvenientes.

...
¿Cómo aplicar Data Science en áreas como Marketing, Biología, Justicia y Arqueología?

El uso de la ciencia de datos está muy extendido, en el blog de hoy vamos a ver cómo podemos usarla en distintas áreas.

...
¿Qué es Deep Learning?

Si quieres saber qué es el Deep Learning, cómo funciona y algunos de los usos que tiene, te lo contamos en este post.

...
Historia del Data Science

En este post hacemos un repaso por la historia de la Ciencia de Datos, cómo surgió y cómo fue evolucionando.

...
¿Qué es el Machine Learning y qué aplicaciones tiene?

En este post vamos a hablar sobre Machine Learning, qué es y cuáles son algunas de sus aplicaciones.

...
¿Cómo el data science y el big data puede ayudar a tu negocio?

En este post vamos a hablar sobre cómo la ciencia de datos puede ayudar a mejorar un negocio.

...
¿Qué se necesita saber para ser Data Scientist?

En este post te hacemos un resumen sobre los conocimientos necesarios para trabajar como científico de datos.

...
¿Por qué estudiar Data Science?

En este post, te damos las claves de la importancia de estudiar ciencia de datos.

...
¿Cómo proteger nuestros datos?

En este post, te dejamos alguna información y trucos que puedes hacer para proteger mejor tus datos

...
¿Qué es Data Science?

Si no sabes lo que es la la ciencia de datos, ni para qué sirve, te lo contamos en este post.

...
Bienvenidos Nodd3rs

¡Bienvenidos a nuestro nuevo blog!

whatsapp