
El aprendizaje automático se está imponiendo en todo tipo de aplicaciones, desde automóviles autónomos hasta reconocimiento de imágenes y motores de recomendación en línea. Pero a menos que sea un Google o un Facebook, es difícil tener el tipo de conjuntos de datos masivos del mundo real necesarios para probar y validar programas de aprendizaje automático.
Yahoo ha ayudado a rectificar eso con el lanzamiento el jueves de lo que llamó el conjunto de datos "más grande" puesto a disposición de los científicos de aprendizaje automático. Es una colección de interacciones anónimas de usuarios con las noticias en sitios como Yahoo News y Yahoo Sports..
INSIDER: Cómo el director de datos de TD Ameritrade está impulsando el cambioYahoo dice que hay 110 mil millones de eventos en el archivo, o 110 mil millones de registros de cuando un usuario hizo clic en una noticia o realizó alguna otra acción en el feed, y comprende 13.5TB de datos, o 1.5TB comprimido. Eso es más de diez veces el tamaño del mayor conjunto de datos publicado anteriormente, dice Yahoo.

Los datos provienen de interacciones con su fuente de noticias, el área en rojo arriba
"Los datos son la sangre vital de la investigación en aprendizaje automático", dijo la compañía. "Sin embargo, el acceso a conjuntos de datos verdaderamente a gran escala es un privilegio que tradicionalmente se ha reservado para investigadores de aprendizaje automático y científicos de datos que trabajan en grandes empresas, y fuera del alcance de la mayoría de los investigadores académicos".
El aprendizaje automático se refiere a una clase de programas que "aprenden" y mejoran su capacidad para resolver problemas con el tiempo. Un primer ejemplo fue la detección de spam, pero el aprendizaje automático se utiliza para el reconocimiento de imágenes, la traducción de idiomas y una miríada de otras tareas, incluidas algunas para negocios. Google dijo recientemente que estaba "repensando todo lo que estamos haciendo" en torno al aprendizaje automático.
Los informáticos crean modelos y escriben algoritmos para guiar los sistemas de aprendizaje automático, pero necesitan grandes conjuntos de datos para probar esos modelos y mejorarlos..
Pueden usar conjuntos de datos sintéticos, creados artificialmente, pero esos no reflejan el desorden y el comportamiento impredecible que los humanos exhiben en línea, dijo Suju Rajan, directora de investigación de Yahoo para la ciencia de la personalización..
"Los datos del mundo real son desordenados, presentan muchos desafíos, y esos desafíos no son necesariamente pensados cuando alguien crea un conjunto de datos artificiales", dijo. "Si no toma en cuenta mi comportamiento, el algoritmo que cree podría no funcionar tan bien".
Ella espera que los científicos usen los datos para ayudar a construir mejores motores de recomendación, como los de Netflix y Amazon. Pero dice que también podría impulsar otras áreas de investigación, como la recuperación de información, la clasificación de las fuentes sociales e incluso la ingeniería de sistemas, al ayudar a los proveedores de la nube a decidir cómo procesar los datos a medida que los usuarios interactúan con ellos..
Los datos de los usuarios debían estar disponibles para descargar el jueves a través del programa de intercambio de datos Webscope de Yahoo Labs, una biblioteca de conjuntos de datos anónimos para uso no comercial.
Se basa en las interacciones de los usuarios con Yahoo News, Sports, Finance, Movies y Real Estate. Los datos se recopilaron durante cuatro meses a principios del año pasado de 20 millones de usuarios de Yahoo. Además de los datos de interacción, incluye información demográfica categorizada, como rango de edad y género, para un subconjunto de usuarios. También está lanzando el título, el resumen y las frases clave de los artículos de noticias relacionados..
Yahoo dice que el conjunto de datos más grande anterior, publicado el año pasado por la firma de marketing en línea Criteo, tenía un tamaño de 1 TB e incluía unos 4 mil millones de eventos.
Dice que su objetivo es nivelar un poco el campo de juego para los investigadores académicos, que a menudo tienen más libertad para perseguir proyectos de largo alcance que sus pares en las corporaciones, pero que carecen de los datos del mundo real para hacerlo..
"Podrían resolver problemas de una manera que podamos utilizar en Yahoo, o presentar nuevos problemas de investigación en los que ni siquiera hayamos pensado", dijo Rajan.
Únase a las comunidades de Network World en Facebook y LinkedIn para comentar temas que son lo más importante.