Machine Learning Scientist Speech — Remoto - Global — Startup de IA Conversacional - Speech
Sobre la vacante
Una startup de alto crecimiento en el campo de IA conversacional está buscando un Machine Learning Scientist especializado en speech para construir modelos de fundación de audio a gran escala. El rol requiere experiencia con modelos de difusión o flow matching para audio/speech, y se consideran otras modalidades si tienes experiencia en modelos a gran escala y destilación de difusión. La startup está bien financiada y ofrece recursos abundantes, trabajando con un líder de la industria del speech en problemas fundamentales de IA conversacional multi-agente a gran escala. Modalidad completamente remota.
¿Por qué deberías aplicar?
Esta es una oportunidad única para unirte a un equipo fundacional en una startup que está redefiniendo la IA conversacional. Trabajarás en problemas de vanguardia con modelos de más de 3B de parámetros y millones de horas de datos, colaborando directamente con expertos de la industria. Aprenderás a escalar sistemas de ML en un entorno de recursos ilimitados, desarrollando habilidades que son altamente demandadas en el mercado actual de IA.
Tips y consejos de VacantesDigitales.com
Skills indispensables
- Experiencia sólida con modelos de difusión o flow matching aplicados a audio/speech
- Conocimiento profundo de arquitecturas de modelos de fundación a gran escala
- Habilidades en Python, PyTorch/TensorFlow y frameworks de ML
- Capacidad para trabajar con datasets masivos (1M+ horas)
- Pensamiento crítico para resolver problemas complejos de IA
Tips prácticos para este puesto
- Prepara ejemplos concretos de proyectos donde hayas aplicado difusión a audio
- Demuestra tu experiencia con escalamiento mencionando métricas de rendimiento en modelos grandes
- Investiga sobre IA conversacional multi-agente para entender el contexto del negocio
- Crea un portafolio con visualizaciones de tus modelos de audio (si es posible)
Recursos recomendados
- Librerías: DiffWave, WaveGrad, AudioLM
- Documentación: Papers de Google Research sobre diffusion models for audio
- Influencers: @soumithchintala, @ylecun, investigadores de Meta AI Speech
- Cursos: Stanford CS224S (Speech and Language Processing), Fast.ai Practical Deep Learning
Preguntas frecuentes en entrevistas para este rol
- "Describe tu experiencia con diffusion models para audio" - Enfócate en aspectos técnicos específicos como arquitectura, entrenamiento y métricas de evaluación
- "¿Cómo manejas datasets de audio a gran escala?" - Menciona técnicas de preprocesamiento, almacenamiento eficiente y pipelines de datos
- "¿Qué desafíos enfrentaste al escalar un modelo de speech?" - Habla sobre optimización de memoria, paralelización y validación de resultados
Rango salarial estimado (LATAM)
Basado en datos de Glassdoor, Computrabajo, GetOnBoard y el mercado actual:
| Nivel | Rango mensual USD |
|---|---|
| Mid | $4,000 - $7,000 |
| Senior | $7,000 - $12,000 |
| Lead/Principal | $12,000 - $20,000 |
Nota: Varía según país, empresa, modalidad (remoto internacional paga más) y tecnologías específicas. Empresas de USA/EU pagando en LATAM suelen ofrecer 30-50% más. Para roles de IA especializada como este, los rangos pueden ser incluso superiores.
Red flags a considerar
- Falta de claridad en los objetivos del modelo - Pregunta específicamente sobre los KPIs y casos de uso reales en la entrevista
- Infraestructura insuficiente para datasets masivos - Investiga sobre sus sistemas de almacenamiento y procesamiento antes de aceptar
- Equipo muy pequeño para la complejidad del problema - Pregunta sobre el tamaño del equipo de ML y su experiencia colectiva
Sobre empleos de Data Science y Analytics
La ciencia de datos y el análisis son campos en rápido crecimiento que combinan estadística, programación y conocimiento de negocios. Las empresas latinoamericanas e internacionales buscan profesionales capaces de transformar datos en decisiones estratégicas. Las tecnologías más demandadas incluyen Python, SQL, herramientas de visualización como Tableau y Power BI, y plataformas cloud como AWS y Google Cloud. La capacidad de contar historias con datos y comunicar insights de forma clara es tan importante como las habilidades técnicas.