el caballo de batalla
A principios de mes me encontré este ensayo de Eric Raymond, más conocido por la Catedral y el Bazar. Como sabéis es miembro fundador de la Open Source Initiative, que pretende estimular el uso de software libre entre empresas e instituciones, entre otras cosas cambiándole el nombre; él y sus colegas se inventaron lo de open source, o "código abierto" en traducción libre. En franca oposición a Richard Stallman y su free software innegociable.
Antes de seguir os recomiendo leer el ensayo ("Las Guerras Terminológicas: Un Análisis de Contenido en la Web") si podéis con el inglés. En él, esr intenta demostrar que "open source" se usa muchísimo más que "free software" en múltiples sitios de la web, entre otros sourceforge.net. Para ello qué mejor herramienta que un buscador, ¿no? Así que a tirar de Google; sólo que éste es famoso por su falta de precisión al contar resultados. Así que se va a Yahoo! y empieza a buscar los términos: "open source" OR "free software", "open source" AND NOT "free software", "free software" AND "open source" y así sucesivamente. En sourceforge.net, que es el caballo de batalla más importante, encuentra que las proporciones están 98% a 3% a favor de "open source" (con algo de solapamiento, es decir páginas que usan ambos términos). "Apenas por encima del nivel de ruido", concluye.
problema de filtros
Sólo hay una pequeña pega: sourceforge.net pertenece a OSTG, más conocida como Open Source Technology Group. Y en todas sus páginas (las que pertenecen a la empresa, no las de desarrolladores) aparece un aviso de copyright como éste:
© Copyright 2004 - OSTG Open Source Technology Group, All Rights Reserved
Lo cual invalida sus 2 millones y pico de páginas que contienen "open source". Habría que eliminar todas las páginas corporativas, lo cual nos deja sólo las páginas creadas por los proyectos -- vamos, las páginas de los desarrolladores que son las que se pretende contar. Y no es tan difícil: basta con buscar por ejemplo "open source" AND NOT "open source technology group". Yo hice el ejercicio y me salió lo siguiente:
'site:sourceforge.net (("open source" OR "free software") AND NOT "open source technology group")'
160,000 (100%)
'site:sourceforge.net (("open source" AND "free software") AND NOT "open source technology group")'
18,100 (11%)
'site:sourceforge.net ("open source" AND NOT "open source technology group")'
99,000 (62%)
'site:sourceforge.net ("free software" AND NOT "open source technology group")'
73,600 (46%)
'site:sourceforge.net (("open source" AND NOT "free software") AND NOT "open source technology group")'
82,100 (51%)
'site:sourceforge.net (("free software" AND NOT "open source") AND NOT "open source technology group")'
55,300 (35%)
Esto ya tiene otra pinta, ¿no? Es más bien 62% contra 46%, con cierto solapamiento. Lo bueno del ejercicio es que no tenéis que creeros nada, sólo tenéis que ir al buscador de Yahoo!, copiar y pegar.
El siguiente punto del ensayo se dedica a buscar en sitios donde "free software" podría ser más popular. Nada menos que en savannah.gnu.org y savannah.nongnu.org, donde el copyright es:
Copyright (C) 2000, 2001, 2002, 2003, 2004 Free Software Foundation [...]
O sea que otra colección de resultados sin sentido. En este caso ni siquiera es posible filtrar el copyright: si buscamos "free software" AND NOT "free software foundation" nos quedamos con ¡13 páginas! en gnu, y cero en nongnu.
correspondencia
Me puse en contacto con esr el 13 de octubre para informarle de estos errores de método, y él empezó a poner pegas: que si en esa época se llamaba Open Source Development Labs y no OSTG, que si el buscador no debería indexar las páginas generadas con CGI. Pero en un comentario de lwn.net y en una entrada de blog sale claramente el antiguo copyright, que confirma mis resultados.
Nada más hasta que este domingo 24 de octubre le escribí para decirle que iba a mandar una carta al editor de lwn.net, explicando los errores. En seguida me respondió diciendo que mejor me esperara y así hacíamos una carta conjunta. Cómo negarme a esta proposición. Así que le envié lo que tenía, incluyendo nuevos problemas.
errores de bulto
Sí, aún hay más. El ensayo sigue haciendo un análisis de sitios de noticias relacionados, como news.com (donde "open source" aparece unos dos millones de veces) y informationweek.com (con 150,000 ocurrencias). Ahora quitemos el término clave: site:news.com -"open source" nos deja con 122.000 páginas (la mayoría antiguas), y site:informationweek.com -"open source" con 310. Poco donde elegir; ¿es creíble que el 95% de las páginas del sitio hablen de "open source"?
El problema está en el éxito innegable del término: ambos sitios de noticias tienen un enlace a "open source" en el menú de navegación, que aparece en todas las páginas salvo las más exóticas o las de archivo. Por lo tanto otra fuente de errores a favor de open source. En los restantes tres sitios analizados no es tan clarísimo, pero también hay múltiples secciones "open source" repartidas por sus páginas.
Ahora pasemos a la última sección: búsqueda en la web completa. Tras hacer una estimación del número de falsos positivos con "free software", que sale en muchísimas páginas con software gratis (en inglés no se distinguen ambos conceptos, para desdicha eterna de Stallman), esr mete a bulto todas las páginas donde sale "open source", excepto las que contienen un concepto esotérico llamado "open source intelligence".
Aquí se nota el efecto acumulado de los anteriores problemas. De los 24 millones de páginas que yo encontré, más del 20% provenía sólo de dos fuentes que ya hemos visto: o contenían "open source technology group" o venían de news.com. Sin embargo esr no corrige en absoluto sus valores, y al final llega a 95% contra 5% a favor de "open source".
conclusión inconclusa
Como respuesta a todo esto, expresado en un correctísimo inglés de Majadahonda, recibo un mensaje en el que esr me cuenta que tengo razón con lo de news.com, pero que eliminar el copyright de sourceforge.net también deja fuera muchas páginas legítimas. Le respondo que sí, pero que así por lo menos la muestra está equilibrada. Y hoy recibo otro correo en el que me dice lo siguiente (más o menos traducido):
Sí, es un problema. Significa que tus resultados no contienen menos ruido que los míos, y muy posiblemente más -- no se puede saber. No creo que ninguno de los dos deba hacer público el asunto hasta que pensemos cómo hacerlo mejor.
Añadiré una nota aclarativa a mi artículo.
Estoy pensando en usar el API de Google para hacer búsquedas masivas, recogiendo los resultados a mano y filtrando con expresiones regulares.
Eric S. Raymond
La verdad es que no he quedado del todo convencido. Vamos, que este tío me quiere hacer la pirula. Pero no sé muy bien qué hacer porque está claro quién tiene las de perder. Necesito vuestra opinión, si es en comentario mejor que en la encuesta.