La relación entre los mercados y la prensa económica es estrecha y bidireccional: se influyen mutuamente. Lo que pasa en los mercados llena páginas a diario, y a la vez, la prensa al hacerse eco de noticias, rumores y estudios, influye en las tendencias dominantes en los mercados. Para inversores y analistas resulta de gran utilidad “descifrar” la intención con la que se publican determinados artículos y notas de prensa, porque les permite aprovechar el “sentimiento de mercado” en su favor a la hora de operar.
La idea del índice eMonomic se me ocurrió al leer este artículo de Hugo Ferrer en el que explica su forma de interpretar “lo que se dice por ahí” para detectar el sentimiento de mercado a largo plazo. Para ello es importante saber diferenciar lo relevante de las anécdotas, y ahí es donde un sistema automático puede aportar valor. Al agregar estadísticamente el volumen de noticias positivas y negativas, podemos detectar la tendencia de fondo en la prensa en su conjunto. Lo único que necesitamos es un sistema que sea capaz de interpretar cuándo una noticia es “positiva” y cuando es “negativa”.
Aprendizaje automático
El aprendizaje automático es una rama de la inteligencia artificial que busca el desarrollo de sistemas de software expertos, capaces de aprender a predecir propiedades de un conjunto de muestras a partir de conocimiento previo. Suena complejo y avanzado (y en realidad lo es), pero lo cierto es que este tipo de aplicaciones nos rodean por completo:
- Cada vez que usas Google News estás navegando por artículos que han sido organizados automáticamente por un sistema experto.
- Cada vez que tu cliente de correo identifica un email como “Spam”, estás siendo asesorado por un sistema experto.
- Amazon ha desarrollado un gran sistema experto capaz de reconocer objetos en una fotografía para intentar que se los compres a ellos a través de su Fire Phone.
- Cada vez que una tienda online te hace una recomendación personalizada, es un sistema experto el que intenta predecir lo que te gustará a partir de tus compras anteriores y las de otros usuarios con perfil similar al tuyo.
En la práctica, estos sistemas suelen basarse en dos tipos de algoritmos:
- Probabilísticos: calculan la probabilidad de que una muestra pertenezca a un determinado grupo a partir de sus características. Quizá el más popular de estos algoritmos sea el Clasificador Bayesiano.
- Algebraicos: con un enfoque diferente, estos algoritmos tratan los datos como vectores en un espacio de muchas dimensiones y aplican distintos métodos para calcular distancias entre ellos y agruparlos usando criterios de vecindad. De estos uno de los más conocidos es el llamado “Máquinas de Vectores de Soporte”
La mayor parte del tiempo dedicado a trabajar con sistemas expertos se destina, por un lado, a preparar un buen conjunto de datos de entrenamiento, y por otro, a evaluar distintos algoritmos de clasificación y buscar la parametrización que produzca los mejores resultados.
Cálculo de índice eMonomic
El índice eMonomic utiliza un sistema experto para identificar qué titulares de la prensa económica son positivos y cuales negativos. El software que lo hace funcionar consta de tres partes:
- Un clasificador, que aprende a partir de los datos de entrenamiento y utiliza ese conocimiento para predecir si una noticia es positiva o negativa, utilizando una Máquina de Vectores de Soporte.
- Un ayudante para aprendizaje, que extrae noticias económicas de las principales fuentes de noticias del sector, y permite clasificarlas manualmente como positivas, negativas o neutras, para componer el conjunto de datos de entrenamiento. También se encarga de calibrar automáticamente el clasificador mediante una técnica conocida como “Grid Search”.
- Un módulo de cálculo, que descarga cada 30 minutos los titulares de prensa, usa el clasificador para asignarles un tipo (positivo/negativo/neutro) y calcula el porcentaje de noticias positivas en el día, hasta ese momento. Cuando el valor calculado cambia por encima de un determinado umbral, lo publica en la cuenta de Twitter del índice.
En cuanto a las fuentes analizadas, en este momento son las siguientes:
Todavía en pruebas
El sistema comenzó a funcionar el jueves 14 de Agosto de 2014, y de momento está funcionando en pruebas hasta que el clasificador consiga una precisión suficiente.
La precisión del sistema experto depende en gran medida del tamaño y calidad del conjunto de datos de entrenamiento. Con los datos obtenidos hasta ahora, y tras haber tenido que empezar de nuevo el entrenamiento una vez un defecto de forma en la clasificación manual (fallo humano ;-) ), el clasificador tiene una precisión alrededor del 86%. Esto significa que de cada 100 noticias analizadas con el clasificador, su predicción coincide en 86 con lo que un humano habría opinado.
Poco a poco, y aumentando el tamaño del conjunto de datos de entrenamiento, espero llegar al menos a un 95% de precisión con lo que la exactitud de índice será suficiente como para salir del período de pruebas.
Pues nada,otro indice para liarlo todo mas,es un pensamiento contado.
La idea me parece excelente. Un único pero Nacho. No me gusta las fuentes elegidas. Por ejemplo no se que pinta un blog como este de inbestia con un montón de periódicos on line. Por otro lado la mayoría de los periódicos que usas no van a tener más que un copy/paste de la noticia. Yo seleccionaría fuentes que mostraran fuertemente el sentimiento. Por ejemplo finanzas.com
Pues te agradezco un montón la sugerencia, porque la verdad es que me costó bastante decidir los medios, más de lo que yo pensaba. La idea era encontrar un buen balance entre medios "especializados pero poco", en los que se informan los inversores "masa", pero incluir también algunos más especializados en los que gente más o menos experta publicase artículos de análisis. Por eso están los grandes (que en efecto, generan un montón de contenido duplicado porque pegan la misma nota de prensa) y alguno más personalista como este.
Hola Nacho, me alegro mucho que un artículo mío diera pie a todo esto.
Por favor, de vez en cuando informa como va el indicador y te sugiero que lo grafiques junto con la evolución bursátil porque es así como veremos si señala algo interesante.
Otra sugerencia es que incluyas medios generalistas. El País, El Mundo, ABC. Creo que los medios elegidos están bien, pero metería más generalistas.
Un abrazo
Cuenta con ello! :-)
Buen dia. Me parece una excelente idea.
Sugiero que incluyas también este otro medio
http://www.libremercado.com/
Saludos.
Gran proyecto, ya tienes el follow asegurado, veo que te hacen varias sugerencias para que incluyas otros medios. Como más medios recojas más entonado tendrás el sentimiento, de nuevo enhorabuena.
Gracias :-)
Ya tengo las fuentes en el sistema, y sigo mejorando los datos de entrenamiento. En unas semanas, cuando tenga suficiente histórico, publicaré gráficas contra el IBEX, a ver si hay correlación o señal de algún tipo.
De momento tengo gráficas intradía: