Etiquetas

domingo, 3 de marzo de 2013

Una base de datos gratis de todo Internet podría generar el próximo Google


Google es famosa por haber comenzado como poco más que un algoritmo más eficiente para clasificar páginas web. Sin embargo, el éxito de la compañía también ha dependido de su capacidad para el rastreo de la web, utilizando un software que visita cada página con el fin de construir un enorme índice de contenidos en línea.

Una organización no lucrativa llamada Common Crawl está utilizando su propio rastreador web y también está creando una copia gigante de internet a la que podrá acceder cualquier persona. La organización ofrece hasta más de cinco mil millones de páginas web, disponibles de forma gratuita para que investigadores y empresarios puedan probar cosas que de otra manera solo serían posibles para aquellos que tuvieran acceso a recursos a la escala de Google.

"Internet representa, por lo que sé, la mayor acumulación de conocimientos, y con él se pueden construir muchas cosas", señala el empresario Gilad Elbaz, fundador de Common Crawl. "Sin embargo, solo el hecho de llevar a cabo la enorme cantidad de trabajo necesaria para acceder a toda esa información resulta un gran impedimento. Muy pocas organizaciones han tenido los recursos para hacerlo".

Una de las cosas que se pueden construir usando un índice de la web son nuevos motores de búsqueda, señala Elbaz, quien añade que el software de traducción de Google ha sido entrenado usando texto disponible en línea en varios idiomas. "La única manera de hacerlo fue a partir de un rastreo masivo. Eso los ha puesto en camino de construir el traductor de Star Trek", afirma. "Poseer un cuerpo abierto y compartido de conocimiento humano es simplemente una forma de democratizar el acceso a la información y algo fundamental para la innovación".

Elbaz afirma que, hace unos cinco años, se dio cuenta de que aquellos investigadores con nuevas ideas sobre cómo utilizar los datos de internet se sentían obligados a aceptar empleos en Google porque era el único lugar donde podían poner a prueba esas ideas. Señala que los datos de Common Crawl facilitarán que las ideas novedosas ganen fuerza, tanto en el mundo de las start-ups como en la investigación académica.

Quién es quién en Common Crawl

Elbaz fundador y director general de Factual, una compañía dedicada a trabajar con grandes volúmenes de datos, y con anterioridad fundó una compañía adquirida por Google para que fuera la base de su negocio de publicidad para páginas web. Common Crawl también cuenta con Peter Norvig, director de investigación de Google, y Joi Ito, director del MIT Media Lab, en su consejo asesor.

Hasta ahora Common Crawl ha indexado más de cinco mil millones de páginas, acumulando hasta 81 terabytes de datos, disponibles a través del servicio de computación en nube de Amazon. Por alrededor de 25 dólares (18,5 euros) un programador puede crear una cuenta en Amazon y ponerse a trabajar usando los datos de Common Crawl, señala Lisa Green, directora de Common Crawl.

El Archivo de Internet, otra organización no lucrativa, también ha extraído una copia de Internet y ofrece un servicio llamado "Wayback Machine", capaz de mostrar las versiones antiguas de una página en particular. Sin embargo, no permite que cualquiera analice todos sus datos de una vez de esa manera.

Colaboración con otras start-up

Common Crawl ya ha inspirado o ayudado a algunas start-ups de internet nuevas. TinEye, una motor de búsqueda 'inverso' que encuentra imágenes similares a una proporcionada por el usuario, utilizó parte de los primeros datos de Common Crawl para empezar. El proyecto personal de un programador con datos de Common Crawl para medir la cantidad de páginas en Internet que se conectan con Facebook (alrededor de un 22%, según sus conclusiones), lo llevó a asegurar el financiamiento para una start-up, Lucky Oyster, dedicada a ayudar a personas a encontrar información útil en sus datos sociales.

Otras ideas habilitadas por el proyecto surgieron de un concurso organizado el año pasado que otorgó premios a las mejores ideas de utilización. Uno de los ganadores utilizó enlaces de Wikipedia en los datos de rastreo para crear un servicio capaz de definir significados de palabras. Otro trató de determinar actitudes públicas hacia la legislación del Congreso de EEUU, analizando el contenido de discusiones en línea sobre nuevas leyes.

Rich Skrenta, cofundador y director general del motor de búsqueda y start-up Blekko, señala que los datos de Common Crawl responden a una clara necesidad dentro de la comunidad de start-ups. Afirma que varias start-ups con necesidades tecnológicas se han puesto en contacto con Blekko para poder acceder a grandes volúmenes de datos en línea. "Este tipo de datos están ahora fácilmente disponibles en Common Crawl", indica Skrenta, cuya compañía aportó algunos de sus propios datos al proyecto en diciembre de 2012. Blekko compartió información de su sistema, que clasifica las páginas web según su contenido, por ejemplo etiquetando si contienen pornografía o spam.

Ben Zhao, profesor asistente de la Universidad de California en Santa Bárbara (EEUU), y que utiliza grandes conjuntos de datos de Internet para la investigación de la actividad en las redes sociales, señala que los datos de Common Crawl probablemente sean únicos. "Los rastreos frescos y a gran escala son muy raros, y personalmente no sé dónde acudir para obtener grandes volúmenes de datos de rastreo en Internet", señala.

Sin embargo, Zhao señala que algunas de las partes más interesantes y valiosas de Internet no estarán bien representadas en los datos de Common Crawl: "Hoy día los sitios sociales ponen mucha atención a su contenido, y ponen en práctica muchos mecanismos antirastreo para limitar la velocidad a la que cualquier persona pueda acceder a dicho contenido".

http://commoncrawl.org/

8 razones para pasarse a LibreOffice



1. Código e interfaces comunes entre aplicaciones

A diferencia de Microsoft Office (MSO), LibreOffice (LO) no es un conjunto de programas independientes agrupados bajo una marca comercial. Las aplicaciones de LO han sido diseñadas para compartir el máximo de código posible. ¿Qué ventajas presenta esta característica? En primer lugar, una instalación de LO ocupa menos espacio en disco que una de MSO. En segundo lugar, mayor velocidad sobre una misma máquina. En tercer y último lugar, mayores similitudes entre aplicaciones, en cuanto a las ventanas, diálogos, menús, etc.

2. Ciclo regular de 2 actualizaciones anuales

Frente al ciclo de una actualización cada tres años al que nos tiene acostumbrados MSO, LO libera una actualización cada 6 meses, lo que implica una mayor capacidad para responder a las necesidades cambiantes de sus usuarios. En el caso de LO, la compatibilidad con versiones anteriores es total, mientras que en MSO, con frecuencia cambian los formatos de archivo.

3. Seguridad

Cuando MSO tiene un fallo de seguridad de cualquier tipo, los usuarios no suelen ser conscientes del problema. La tradicional opacidad de la compañía, se traduce en una total falta de información, exceptuando casos extremadamente graves. Cuando aparece algún parche o actualización para MSO, el usuario sigue sin saber exactamente cuál era el problema, simplemente se le ofrece una solución. En cambio, la comunidad de LO, como la de la mayoría de aplicaciones de software libre, es mucho más transparente en este sentido.

4. Multiplataforma y anti obsolescencia programada

LO funciona en cualquier distribución de Linux, en Windows y Mac. Además es posible ejecutarlo en hardware antiguo (hasta Windows 95), algo inimaginable en el mundo del software propietario que nos obliga a actualizar nuestro hardware y sistemas operativos constantemente mucho más allá de lo realmente necesario. Sin ir más lejos, la próxima versión de Office parece que no será compatible con Windows XP y Vista.

libreoffice

5. Estabilidad

MSO funciona correctamente con documentos más o menos pequeños. Sin embargo, cuando trabajamos con archivos de cientos de páginas suele colgarse. En cambio, LO se muestra mucho más capaz de manejar documentos de cientos de páginas o con grandes cantidades de imágenes. La principal limitación está en la memoria RAM disponible en el sistema que estemos utilizando.

6. Formatos de archivo

MSO trabaja con formatos de archivo propietarios por lo que la compatibilidad total de esos archivos sólo es posible asegurarla si dispones de la versión correcta del software de Microsoft. Por el contrario, LO utiliza archivos en formato Open Document (ODF), un formato de archivo abierto y estándar para el almacenamiento de documentos ofimáticos aprobado por las organizaciones ISO/IEC como estándar ISO/IEC 26300:2006 Open Document Format for Office Applications.

7. Extensiones

La filosofía de desarrollo del software libre permite que programadores trabajen para mejorar o ampliar las funcionalidades de las aplicaciones libres mediante extensiones. Las extensiones son plug-ins de software que se instalan como extras al LibreOffice estándar que se descarga, y que agregan algún tipo de funcionalidad adicional a la suite, ya sea para un uso particular (Writer, Calc, Impress, …), o para todas las aplicaciones. Poco a poco, las mejores extensiones se van incorporando al paquete estándar, aunque siempre existen mejoras específicas que se distribuyen por separado.

8. Precio

LO se distribuye de manera gratuita. Los precios para hacerse con una licencia de Microsoft Office 2010 para un equipo y un usuario son:
  • Office hogar y estudiantes: 89,10€ (soporte técnico 90 días)
  • Office hogar y pequeña empresa: 224,10€ (soporte técnico 90 días)
  • Office profesional: 449,10€ (soporte técnico 1 año)
disfrutarlo:
http://www.libreoffice.org