ir al sitio UC

¿Tenemos suficientes datos?

20 de abril del 2021

Los últimos años han sido testigos de grandes avances en “machine learning” o ML. Los más emblemáticos han sido las derrotas que los jugadores profesionales de Go empezaron a sufrir a partir del año 2015 a manos de competidores no humanos. La cantidad de información que existe ahora en muchos terrenos—conducta de los consumidores, por ejemplo—han hecho pensar que en las finanzas vienen grandes progresos. Surge la duda entonces: ¿son los éxitos de ML en otros terrenos transferibles al campo de las finanzas?

La siguiente analogía es ilustrativa. Supongamos que hemos desarrollado un algoritmo para determinar el sexo de una persona examinando una foto de su cara. Y supongamos que está funcionando solo “reguleque.” ¿Cómo lo podemos mejorar? Muy fácil. Lo alimentamos (entrenamiento es el término técnico) con cien mil fotos más. Y si eso no es suficiente, le agregamos un millón. Con siete mil millones de seres humanos, el suministro de información cara-sexo para mejorar nuestro algoritmo es virtualmente infinito.

Supongamos ahora que queremos predecir los retornos del S&P 500 para armar una estrategia de inversión. ¿Cuantos datos independientes tenemos? La verdad es que depende del caso. Si queremos hacer high-frequency trading (HFT), es decir, tomar posiciones por periodos muy cortos (de segundos en muchos casos), tenemos una infinidad de datos. Y de hecho los métodos de ML han sido exitosos en este contexto.

Pero si consideramos horizontes más largos el asunto cambia. ¿Cuántos datos de retornos mensuales independientes tenemos? Si consideramos una ventana “hacia atrás” de 3 años (3 x 12 = 36), tenemos solo 36, en el mejor de los casos. Podríamos tomar cinco años, y aumentar nuestros datos a 60. Pero, ¿tiene sentido tomar cincuenta años para aumentar nuestros datos a 50 x 12 = 600? Por tentador que esto sea, no tiene sentido: los mercados financieros de hace cincuenta años tenían características estructurales muy distintas a los de hoy. En términos estadísticos, estaríamos tomando muestras de un universo distinto.

En resumen, el éxito de cualquier estrategia de inversión basada en ML depende del contar con datos relevantes (retornos en este caso) en gran cantidad. En horizontes cortos los datos no son problema. Pero en horizontes largos, nos faltan datos. Es decir, aquí el gran desafío es encontrar métodos para crear datos sintéticos, o sea, datos artificiales que sean representativos de un futuro que todavía no existe.

Autor: Arturo Cifuentes

Fuente: El Mercurio - Cuerpo B, Página 9.