Los 10 mejores proyectos de Machine Learning si eres Principiante
Probablemente una de las cosas más difíciles a la hora de practicar lo aprendido de machine learning sea encontrar proyectos para principiantes.
Por si aún hay conceptos que se te escapan y no tienes definidos o seguros al 100%, antes de nada, vamos a empezar por ahí.
¿QUÉ ES EL MACHINE LEARNING?
El machine learning o aprendizaje automático es una disciplina científica que se encuentra dentro del campo de la inteligencia artificial.
Se encarga de examinar, evaluar y comparar conjuntos de datos para poder extraer de ellos similitudes y patrones de comportamiento. Una vez conseguido esto, es más fácil poder realizar predicciones lo más exactas posible.
Actualmente, en muchas empresas de prácticamente todos los sectores están incorporando la ciencia de datos y en concreto, el machine learning, en sus acciones. Gracias a esto, podrán tomar mejores decisiones basadas en datos o comportamientos sobre los que apoyarse.
Teniendo claro este concepto, es interesante que si estás comenzando a adentrarte en el mundo del machine learning, practiques con los 10 mejores proyectos de machine learning para principiantes.
Además, una vez que los finalices, podrás incluirlos en tu portfolio como data sicentist.
¿QUÉ ES UN PORTFOLIO DE DATA SCIENTIST Y COMO CREAR UNO BUENO?
El portfolio es una herramienta esencial que contribuirá a que puedas superar una entrevista de empleo con éxito.
Consiste en recoger en un documento aquellos proyectos que consideras más relevantes en los que has trabajado y así poder demostrar tus habilidades.
Por lo tanto, se trata de un documento donde "vendes" tus habilidades y talentos.
Es decir, debe de decir "este soy yo y esto es lo que puedo hacer por vosotros".
Los responsables de recursos humanos encargados de la contratación examinan los curriculums muy rápidamente, por eso sólo tienes unos minutos para causar una buena impresión.
Por eso, como consejos para que tu porfolio destaque...
- Ten una longitud adecuada: Intenta que sea sencillo. Debe haber espacio suficiente para incluir todo tu trabajo en 2 o 3 páginas. No incluyas objetivos y conclusiones y aprovecha ese espacio para tus habilidades, proyectos y experiencias.
- Indica el trabajo de curso relevante: Enumera todos los trabajos de curso relevantes que crees que serán aplicables a la descripción del puesto.
- Habilidades técnicas: Indica al principio en cuáles eres mejor, calificándolas (de forma no numérica), es decir, con palabras como "competente" o "familiarizado".
- Experiencia laboral: Puedes incluir proyectos, tesis, concursos y prácticas. En el caso de que no tengas experiencia laboral como tal, estos pueden ser buenos sustitutos.
- Proyectos del mundo real: Permiten obtener experiencia, por lo que es aconsejable indicar 3-4 proyectos que cubran las responsabilidades laborales comunes que tienen los puestos de trabajo que te interesan. Redáctalo todo siempre de forma estructurada.
- Redes sociales: Publica trabajos, escritos, artículos, respuestas, etc. en tus redes sociales para que se te conozca y ser un "referente".
Y como siempre se ha dicho, la mejor forma de aprender una cosa nueva es haciéndolo.
La teoría es muy importante para entender las cosas, pero la mejor forma de afianzar conocimientos e interiorizarlos es aplicando la teoría a proyectos con datos del mundo real.
Además, estos proyectos te servirán como una buena carta de presentación en las entrevistas ante las empresas si estás buscando trabajo, y más si no tienes experiencia previa.
Recuerda que a las empresas les gusta saber de qué eres capaz y qué mejor forma de mostrárselo que con proyectos que has realizado tú mismo.
Proyectos de machine learning para principiantes
1. Calcular el precio de la vivienda.
¿Sería fantástico poder saber el precio adecuado de una casa verdad? Pues a través de un modelo de aprendizaje automático es posible. El precio de una vivienda puede variar por muchos factores entre ellos el tamaño, la ubicación, el número de habitaciones, el estado de la casa, antigüedad, reformas…
Es un problema de regresión, tienes que escribir los valores de las variables independientes y obtendrás el precio adecuado de la casa en función de los valores de los factores proporcionados.
No te olvides de utilizar las técnicas de ingeniería de características requeridas. Incluso, puedes visualizar el conjunto de datos para la comprensión humana. Con esto, podrás explicar a los usuarios finales la correlación entre la ubicación con el precio de la casa.
En el conjunto de datos a continuación, hay varias características como el área de fachada, la ubicación, etc., que se pueden usar para predecir el precio de la vivienda.
2. Predicción de abandono de clientes.
La retención de clientes es uno de los grandes desafíos de cualquier empresa. Sin embargo, para los bancos aún más. El objetivo de este proyecto es clasificar si un cliente abandona o no. Para los bancos es muy útil identificar y visualizar qué factores contribuyen a la pérdida de clientes.
Si los bancos consiguen averiguar qué clientes van a abandonar y por qué, pueden crear estrategias de marketing y de retención adecuadas para conseguir que se queden. Por ejemplo, les podrían ofrecer intereses bajos o una tarjeta de crédito gratuita.
3. Predicción de enfermedades del corazón.
El machine learning se está cobrando una gran importancia en el sector de la sanidad, ya que permite predecir con mayor rapidez enfermedades cardíacas, cáncer…
Para predecir una enfermedad cardíaca se deben proporcionar los valores de los factores que contribuyen a la enfermedad, como son la presión arterial, el tipo de dolor en el pecho, el colesterol, el nivel de azúcar, etc.
Es un problema de clasificación binaria. El conjunto de datos contiene 13 atributos independientes. Este conjunto de datos te permitirá practicar mucho la ingeniería de características. Además, puedes explorar diferentes técnicas de selección de funciones para seleccionar las funciones correctas para crear el modelo. El conjunto de datos está muy desequilibrado porque muchos pacientes del conjunto no desarrollaron enfermedades de corazón. Por lo tanto, también puede explorar técnicas como Oversampling y Undersampling.
4. Segmentación de clientes.
Todas las empresas dividen a sus clientes en diferentes categorías en función de sus gustos, características o comportamientos para ofrecerles aquello que mejor se ajusta a sus necesidades.A esto se le llama segmentación.
Para cada uno de los segmentos, las empresas diseñan y aplican diferentes estrategias de Marketing.
La segmentación de clientes es un problema de aprendizaje no supervisado, lo que significa que no tenemos una variable dependiente. Dataset
5. Detección de phishing.
¿Qué es el phishing? El phishing o fraude electrónico es un delito cibernético en el que los delincuentes se hacen pasar por entidades conocidas o de confianza y contactan a las personas a través de correo electrónico, mensaje de texto o teléfono y les piden que compartan información confidencial. También se les puede solicitar a los usuarios que ingresen la información de la tarjeta de crédito o los detalles de la cuenta bancaria, así como otros datos confidenciales. Una vez que han recopilado esta información, los delincuentes la utilizan para acceder a las cuentas, robar los datos e identidades y descargar malware en el ordenador del usuario.
¿Cómo podemos evitar el phishing? A través del aprendizaje automático, podemos identificar si existe una amenaza de phishing y actuar ante ello. Desde el punto de vista de la seguridad es una herramienta clave que puede evitar muchos delitos.
6. Predicción de taquilla.
A todos nos gusta ver películas. Todos los años se estrenan películas que son todo un éxito y generan millones de euros.
¿Crees que es posible predecir los ingresos de taquilla que va a tener una película? La respuesta es sí, a través del Machine Learning podemos hacer esta predicción.
Es un problema de regresión. El objetivo de este proyecto es analizar qué hace que determinadas películas sean exitosas y otras no tanto, según la medida de los ingresos de taquilla en todo el mundo. Para los productores de películas saber qué factores son los que hacen que una película tenga éxito sería una bendición.
En este conjunto de datos, hay 7398 películas y una variedad de metadatos obtenidos de The Movie Database (TMDB). Las películas están etiquetadas con id. Los puntos de datos incluyen el elenco, el equipo, las palabras clave de la trama, el presupuesto, los carteles, las fechas de lanzamiento, los idiomas, las productoras y los países.
7. Reconocimiento de actividad humana con teléfonos inteligentes.
Podemos predecir la actividad que realiza una persona utilizando los valores de postura corporal capturados.
Es un problema de clasificación multiclase. El objetivo es clasificar las actividades en una de las seis actividades realizadas. Las seis actividades son: Caminar, Subir escaleras, Bajar escaleras, Sentarse, Estar de pie, Acostarse.
Se pueden aplicar diferentes algoritmos de clasificación como SVM, Naive Bayes, Random Forest, etc. para predecir la salida.
8. Predicción de ingresos de la población.
La predicción de ingresos es muy útil para predecir la economía del país y otras medidas importantes. El objetivo de este proyecto de aprendizaje automático es utilizar el conjunto de datos de ingresos del censo de adultos para predecir si los ingresos superan los 50 000 al año en función de los datos del censo, como el nivel educativo, la relación, las horas de trabajo por semana y otros atributos.
Con base en el análisis, podemos determinar la brecha de desigualdad de ingresos entre ricos y pobres. Además, podemos analizar qué factores contribuyen más a la desigualdad de ingresos. En base a esto, los gobiernos pueden introducir políticas apropiadas para cerrar la brecha de ingresos y asegurar un buen nivel de vida para todos.
El conjunto de datos tiene más de 32 mil filas y 15 atributos. Es un gran conjunto de datos para practicar cómo lidiar con los valores faltantes y la ingeniería de características.
9. Duración del viaje en taxi de Nueva York.
Este proyecto es ideal para practicar la ingeniería de características. El objetivo del proyecto es predecir la duración total de los viajes en taxi en la ciudad de Nueva York. Es un problema de regresión.
El conjunto de datos tiene variables que incluyen las coordenadas de inicio y finalización de un viaje en taxi, el tiempo y la cantidad de pasajeros. Las variables como el tiempo y las coordenadas deben procesarse previamente de manera adecuada y convertirse a un formato comprensible. Entonces, también puedes practicar el manejo de fechas. Este conjunto de datos también tiene algunos valores atípicos que hacen que la predicción sea más compleja, por lo que deberá manejar esto con técnicas de ingeniería de características.
Puede explorar varias técnicas de detección y tratamiento de valores atípicos tanto visual como estadísticamente.
10. Predicción de Migración.
El proyecto tiene como objetivo pronosticar la entrada de inmigrantes en varios países europeos. Al hacerlo, las autoridades gubernamentales pueden ser proactivas en la preparación para satisfacer sus necesidades y abogar por la voluntad política para proporcionar un paso seguro a Europa.
Es necesario brindar asistencia a los migrantes. Es por eso que la previsión es muy importante.
Conclusión.
El Machine Learning está cobrando cada vez más importancia y si eres principiante en este campo es necesario que comiences a aplicar tus conocimientos en proyectos reales para seguir aprendiendo. Es la mejor forma para mejorar y poder mostrar a las empresas de lo que eres capaz.
Si te interesa saber más sobre Machine Learning, Inteligencia Artificial y Data Science, no olvides visitar el resto de nuestro blog.