> LAS GRANDES COMPAÑIAS ESTAN RECOPILANDO PERFILES PERSONALES DE TUS ACCESOS A INTERNET: MINERIA DE DATOS : voz pc voz pc: LAS GRANDES COMPAÑIAS ESTAN RECOPILANDO PERFILES PERSONALES DE TUS ACCESOS A INTERNET: MINERIA DE DATOS
Have an account?

traductor PC

English cv French German Spain Italian Dutch Russian Portuguese Japanese Korean Arabic Chinese Simplified

sábado, 24 de abril de 2010

LAS GRANDES COMPAÑIAS ESTAN RECOPILANDO PERFILES PERSONALES DE TUS ACCESOS A INTERNET: MINERIA DE DATOS

“Si, tienen un registro de cada persona, tiene una línea de cientos de números que pintan un cuadro completo de una persona: quiénes son, cuáles son sus intereses, quiénes son sus amigos y así sucesivamente “, dice . ” Estas cadenas de cientos de atributos se denominan datos de alta dimensión , ya que cada atributo se llama una dimensión. La minería de datos es la excavación de la información interesante de estos datos de alta dimensión. ”
Un grupo de métodos de minería de datos llamado “escalamiento multidimensional ” o MDS  fue primero utilizado en la década de 1930 por los psicólogos y se ha utilizado desde entonces para hacer el análisis de datos más sencillo gracias a la reducción de la dimensionalidad de los datos. Venkatasubramanian dice que es “probablemente una de las herramientas más importantes en minería de datos y es utilizada por los investigadores en innumerables partes”.
Ahora, Venkatasubramanian y sus colegas han ideado un nuevo método de escalamiento multidimensional que es más rápido, más simple, puede ser utilizado universalmente por numerosos problemas y puede manejar más datos, básicamente por ” aplastamiento de cosas [ datos ] en su sitio”.
Presentó el nuevo método el pasado miércoles, 28 de julio en Washington en la reunión de primera clase en su campo, la Conferencia de Descubrimiento de Conocimiento y Minería de Datos patrocinada por la Association for Computing Machinery.
“Este problema de la reducción de dimensionalidad y visualización de datos es fundamental en muchas disciplinas de las ciencias naturales y sociales “, dice Venkatasubramanian . “Así que creemos que nuestro método será útil para hacer un mejor análisis de datos en todas estas áreas “.
“Lo que nuestro enfoque hace es unificar en un marco común una serie de métodos diferentes para realizar esta reducción de dimensionalidad para simplificar los datos de alta dimensión, dice. “Tenemos un programa informático que unifica los diferentes métodos que se han desarrollado durante los últimos 60 o 70 años. Una cosa que hace que sea muy bueno para los datos de hoy – además de ser un procedimiento de ventanilla única – es que también maneja mucho más grande conjuntos de datos que los métodos de antes fueron capaces de manejar . ”
Y añade: “con los métodos anteriores era una lucha de las computadoras modernas manejar datos de más de 5.000 personas . Nuestro método maneja sin problemas muy por encima de 50.000 personas”.
Venkatasubramanian condujo la investigación con la Universidad de Utah ciencias de la computación, estudiante de doctorado Arvind Agarwal y el becario postdoctoral Jeff Phillips. La investigación fue financiada por la National Science Foundation.
La maldición de la dimensionalidad
Al analizar las cadenas largas de los atributos que describen a la gente, “usted está mirando no sólo las variables individuales, sino la forma en que interactúan unas con otras “, dice . “Por ejemplo, si usted puede describir a una persona por su altura y peso, estas son variables que describen a una persona. Sin embargo, tienen correlaciones entre ellas, una persona que es más alta se espera que sea más pesado que alguien que es más bajo. ”
La alta “dimensionalida ” de los datos proviene del hecho de que “las variables interactúan entre sí . Ahí es donde usted consigue un espacio [ ] multidimensional , no sólo una lista de variables “.
“Los datos analizados mediante minería permite encontrar patrones, relaciones y correlaciones en los datos de alta dimensión “, dice Venkatasubramanian.  ”Literalmente, están cavando a través de los datos para encontrar las venas pequeñas de la información. ”
Él dice que los usos de la minería de datos incluyen recomendaciones de Amazon a los clientes individuales basados no sólo en sus compras anteriores, sino en los de las personas con preferencias similares , y el mismo método de Netflix para recomendar películas. Facebook recomienda a sus amigos sobre la base de personas que ya son sus amigos, y sobre sus amigos.
“El desafío de la minería de datos es que se está ocupando de la dimensionalidad de los datos y el volumen de los mismos. Así que una expresión común en la comunidad de minería de datos es  ”la maldición de dimensionalidad “, dice Venkatasubramanian .
” a maldición de la dimensionalidad es el fenómeno observado que a medida que se jalan más atributos para describir a los individuos, las tareas de minería de datos que se desean realizar se vuelven exponencialmente más difíciles “, añade. “Ahora estamos en el punto donde la dimensionalidad y el tamaño de los datos es un gran problema. Hace las cosas computacionalmente muy difícil encontrar estos patrones que queremos encontrar. ”
El escalamiento multidimensional para simplificar los datos multidimensionales es un “intento de reducir la dimensionalidad de los datos por encontrar los atributos clave que definen la mayoría del comportamiento”, dice Venkatasubramanian.
Universal, Minería de Datos rápidos
El nuevo método de Venkatasubramanian es universal – “una nueva forma de abstraer el problema en pequeños pedazos, y darse cuenta de muchas versiones diferentes de este problema se puede abstraer de la misma manera. “En otras palabras, un conjunto de instrucciones se puede utilizar para hacer una gran variedad de escalamiento multidimensional que antes requerían instrucciones por separado.
El nuevo método puede manejar grandes cantidades de datos porque “en lugar de tratar de analizar todo el conjunto de datos como un todo, lo analizamos de forma incremental, una especie de persona a persona”, dice Venkatasubramanian . La minería aumenta velocidades de los analisis de datos “porque no es necesario tener todos los datos frente a usted antes de empezar a reducir su dimensionalidad “.
Venkatasubramanian y sus colegas realizaron una serie de pruebas de su nuevo método con “datos sintéticos ” – puntos de datos en un “espacio de alta dimensión. ”
Las pruebas muestran que la nueva forma de minería de datos por escalamiento multidimensional “puede ser más rápida e igualmente precisa – y por lo general más precisa” que los métodos existentes, dice.
El método tiene lo que se conoce como “convergencia garantizada “, lo que significa que ” se le consigue una respuesta mejor y mejor y mejor, y con el tiempo se detiene cuando se vuelve la mejor respuesta que puede encontrar”, dice Venkatasubramanian. También es modular, lo que significa que las partes del software son fácilmente cambiadas con las mejorasque  se encuentran.
Privacidad y Minería de Datos
¿Cuál son las preocupaciones de que estamos sacrificando nuestra privacidad a los vendedores ?
“El tema de la intimidad en la minería de datos es como cualquier conjunto de consecuencias potencialmente negativas de los avances científicos “, dice Venkatasubramanian, y agregó que mucha investigación ha estudiado la manera de extraer datos de una manera que protege la privacidad individual.
Cita recomendaciones de las películas de Netflix, por ejemplo, señalando que ” si orientan los anuncios sobre la base de lo que la gente necesita, llega a ser útil. Cuanto mejor es la publicidad hace, más se convierte en información útil y no la publicidad. ”
” Y por la forma en que están siendo inundados con todo tipo de información en el mundo actual, nos guste o no tenemos otra opción que permitirá a las máquinas y sistemas automatizados tamizar a través de todo esto para dar sentido a la avalancha de información que pasa a nuestros ojos todos los días”.

0 comentarios:

Publicar un comentario