Libertonia
Portada · Todo · Software Libre · Desarrolladores · Comunidad · Internet · Tecnología · Meta · Diarios
Timado por Eric Raymond

man ls's Diary
Por man ls
departamento diatribas kilométricas , Sección Diarios
Puesto a las Wed Oct 27th, 2004 at 01:51:37 AM CET
Me siento estafado. Nada más y nada menos que por esr y por correo electrónico. No sé muy bien qué hacer, así que os pido consejo.

 


el caballo de batalla

A principios de mes me encontré este ensayo de Eric Raymond, más conocido por la Catedral y el Bazar. Como sabéis es miembro fundador de la Open Source Initiative, que pretende estimular el uso de software libre entre empresas e instituciones, entre otras cosas cambiándole el nombre; él y sus colegas se inventaron lo de open source, o "código abierto" en traducción libre. En franca oposición a Richard Stallman y su free software innegociable.

Antes de seguir os recomiendo leer el ensayo ("Las Guerras Terminológicas: Un Análisis de Contenido en la Web") si podéis con el inglés. En él, esr intenta demostrar que "open source" se usa muchísimo más que "free software" en múltiples sitios de la web, entre otros sourceforge.net. Para ello qué mejor herramienta que un buscador, ¿no? Así que a tirar de Google; sólo que éste es famoso por su falta de precisión al contar resultados. Así que se va a Yahoo! y empieza a buscar los términos: "open source" OR "free software", "open source" AND NOT "free software", "free software" AND "open source" y así sucesivamente. En sourceforge.net, que es el caballo de batalla más importante, encuentra que las proporciones están 98% a 3% a favor de "open source" (con algo de solapamiento, es decir páginas que usan ambos términos). "Apenas por encima del nivel de ruido", concluye.

problema de filtros

Sólo hay una pequeña pega: sourceforge.net pertenece a OSTG, más conocida como Open Source Technology Group. Y en todas sus páginas (las que pertenecen a la empresa, no las de desarrolladores) aparece un aviso de copyright como éste:

© Copyright 2004 - OSTG Open Source Technology Group, All Rights Reserved
Lo cual invalida sus 2 millones y pico de páginas que contienen "open source". Habría que eliminar todas las páginas corporativas, lo cual nos deja sólo las páginas creadas por los proyectos -- vamos, las páginas de los desarrolladores que son las que se pretende contar. Y no es tan difícil: basta con buscar por ejemplo "open source" AND NOT "open source technology group". Yo hice el ejercicio y me salió lo siguiente:
'site:sourceforge.net (("open source" OR "free software") AND NOT "open source technology group")'
  160,000 (100%)
'site:sourceforge.net (("open source" AND "free software") AND NOT "open source technology group")'
  18,100 (11%)
'site:sourceforge.net ("open source" AND NOT "open source technology group")'
  99,000 (62%)
'site:sourceforge.net ("free software" AND NOT "open source technology group")'
  73,600 (46%)
'site:sourceforge.net (("open source" AND NOT "free software") AND NOT "open source technology group")'
  82,100 (51%)
'site:sourceforge.net (("free software" AND NOT "open source") AND NOT "open source technology group")'
  55,300 (35%)
Esto ya tiene otra pinta, ¿no? Es más bien 62% contra 46%, con cierto solapamiento. Lo bueno del ejercicio es que no tenéis que creeros nada, sólo tenéis que ir al buscador de Yahoo!, copiar y pegar.

El siguiente punto del ensayo se dedica a buscar en sitios donde "free software" podría ser más popular. Nada menos que en savannah.gnu.org y savannah.nongnu.org, donde el copyright es:

Copyright (C) 2000, 2001, 2002, 2003, 2004 Free Software Foundation [...]
O sea que otra colección de resultados sin sentido. En este caso ni siquiera es posible filtrar el copyright: si buscamos "free software" AND NOT "free software foundation" nos quedamos con ¡13 páginas! en gnu, y cero en nongnu.

correspondencia

Me puse en contacto con esr el 13 de octubre para informarle de estos errores de método, y él empezó a poner pegas: que si en esa época se llamaba Open Source Development Labs y no OSTG, que si el buscador no debería indexar las páginas generadas con CGI. Pero en un comentario de lwn.net y en una entrada de blog sale claramente el antiguo copyright, que confirma mis resultados.

Nada más hasta que este domingo 24 de octubre le escribí para decirle que iba a mandar una carta al editor de lwn.net, explicando los errores. En seguida me respondió diciendo que mejor me esperara y así hacíamos una carta conjunta. Cómo negarme a esta proposición. Así que le envié lo que tenía, incluyendo nuevos problemas.

errores de bulto

Sí, aún hay más. El ensayo sigue haciendo un análisis de sitios de noticias relacionados, como news.com (donde "open source" aparece unos dos millones de veces) y informationweek.com (con 150,000 ocurrencias). Ahora quitemos el término clave: site:news.com -"open source" nos deja con 122.000 páginas (la mayoría antiguas), y site:informationweek.com -"open source" con 310. Poco donde elegir; ¿es creíble que el 95% de las páginas del sitio hablen de "open source"?

El problema está en el éxito innegable del término: ambos sitios de noticias tienen un enlace a "open source" en el menú de navegación, que aparece en todas las páginas salvo las más exóticas o las de archivo. Por lo tanto otra fuente de errores a favor de open source. En los restantes tres sitios analizados no es tan clarísimo, pero también hay múltiples secciones "open source" repartidas por sus páginas.

Ahora pasemos a la última sección: búsqueda en la web completa. Tras hacer una estimación del número de falsos positivos con "free software", que sale en muchísimas páginas con software gratis (en inglés no se distinguen ambos conceptos, para desdicha eterna de Stallman), esr mete a bulto todas las páginas donde sale "open source", excepto las que contienen un concepto esotérico llamado "open source intelligence".

Aquí se nota el efecto acumulado de los anteriores problemas. De los 24 millones de páginas que yo encontré, más del 20% provenía sólo de dos fuentes que ya hemos visto: o contenían "open source technology group" o venían de news.com. Sin embargo esr no corrige en absoluto sus valores, y al final llega a 95% contra 5% a favor de "open source".

conclusión inconclusa

Como respuesta a todo esto, expresado en un correctísimo inglés de Majadahonda, recibo un mensaje en el que esr me cuenta que tengo razón con lo de news.com, pero que eliminar el copyright de sourceforge.net también deja fuera muchas páginas legítimas. Le respondo que sí, pero que así por lo menos la muestra está equilibrada. Y hoy recibo otro correo en el que me dice lo siguiente (más o menos traducido):

Sí, es un problema. Significa que tus resultados no contienen menos ruido que los míos, y muy posiblemente más -- no se puede saber. No creo que ninguno de los dos deba hacer público el asunto hasta que pensemos cómo hacerlo mejor.

Añadiré una nota aclarativa a mi artículo.

Estoy pensando en usar el API de Google para hacer búsquedas masivas, recogiendo los resultados a mano y filtrando con expresiones regulares.

Eric S. Raymond

La verdad es que no he quedado del todo convencido. Vamos, que este tío me quiere hacer la pirula. Pero no sé muy bien qué hacer porque está claro quién tiene las de perder. Necesito vuestra opinión, si es en comentario mejor que en la encuesta.
< Conoce Portugal de la mano del Software Libre (0 comments) | Latinoware 2004 reúne en Brasil los grandes nombres del software libre (0 comments) >
Enlaces Relacionados
· este ensayo de Eric Raymond
· la Catedral y el Bazar
· Open Source Initiative
· free software
· sourceforge.net
· buscador de Yahoo!
· savannah.gnu.org
· savannah.nongnu.org
· en un comentario de lwn.net
· una entrada de blog
· news.com
· informationweek.com
· More on man ls's Diary
· Also by man ls

Encuesta
¿Qué debo hacer?
· Es un tipo con autoridad, déjalo correr 0%
· Suele ir armado -- tú verás 20%
· Espera a ver 33%
· Escríbele educadamente 8%
· Escríbele un insulto tras otro 4%
· Manda la carta a lwn.net 20%
· Manda una a lwn.net y otra al juez 0%
· Relájate, no es tan importante 12%

Votos: 24
Resultados | Otras Encuestas

Menu
· crear cuenta
· FAQ
· búsqueda
· Fuentes de Noticias

Login
Nueva cuenta
Usuario:
Contraseña:

Ver: Modo: Orden:
Timado por Eric Raymond | 23 comentarios (23 temáticos, editoriales, 0 ocultos)
Reflexiones rápidas sobre el asunto (5.00 / 2) (#6)
por atopos a las Thu Oct 28th, 2004 at 02:33:30 AM CET
(Información Usuario) http://los-pajaros-de-hogano.blogspot.com

Me atrevo a lanzarte unas ideas rápidas y desordenadas sobre este tema. En realidad no he tenido tiempo ---ni ganas--- durante todos los años que llevo usando SL de meterme en la maraña de problemas y pseudo-problemas relacionados con el tópico "FS vs. OS".

En cuanto a la consulta concreta, yo también soy partidario de esperar un cierto tiempo, por si esr va de buena fe ---como dice jamarier. Nunca será tarde para públicar tu opinión, si lo crees conveniente.

Sin embargo, a mí el artículo de esr ---al que estimo mucho por otros escritos--- me parece un despilfarro de energía mental y de tiempo. Para empezar yo no lo pienso leer, aunque lo he mirado por encima, para poder responderte.

Incluso aun cuando esr estuviera en lo cierto (cosa que tus simples datos ya empiezan a poner en duda), ¿de qué sirve? El que el término "open source" tenga o pueda tener en un futuro mayor presencia numérica que el de "free software" no dice nada sobre el valor de una propuesta u otra. Estaría bueno que ahora la verdad o falsedad de una idea dependiera del número de sus seguidores. Por cierto, ¿ha notado esr que el término "Windows" ---lo dije--- y todas sus variantes domina el mundo? ¿Habremos de convertirnos a la "secta" de Gates a la vista del vasto número de sus correligionarios?

En fin, a mí esta clase de estadísticas ---sean cuales sean sus resultados--- me parecen ruido. Un ruido innecesario y peligroso.

Siempre me ha dado la sensación de que el fondo de la enconada oposición OS / FS es de índole política (política en el sentido "estrecho" y poco aprovechable del término) y, quizá, de política americana. Es sólo un presentimiento, no tengo datos para corroborarlo.

¿No sería mejor ---en cualquier caso--- dejar a cada cual decidir sobre el compromiso ---o falta de compromiso--- ético o político (ahora en el sentido amplio del término) de su vinculación con el SL?

A veces parece que, como en toda batalla, los aliados de un mismo bando tienen más interés en reyertas intestinas que en vencer al enemigo. Y el enemigo esta ahí. Duro como una piedra, fuerte como un troyano.

¿Acaso se ha olvidado que la cólera de Aquiles y la insensatez de Agamenón estuvieron a punto de costar a los aqueos todas sus naves?



Esperar (none / 0) (#1)
por La Mula Francis (la.mula.francisCHIRIVITAgmail.com) a las Wed Oct 27th, 2004 at 08:35:17 AM CET
(Información Usuario) http://semana.org

Yo creo que deberías esperar. Primero a que ponga un aviso en el artículo anterior, indicando que el informe está mal y que lo va a corregir y cuando lo haya hecho ya quedaréis de acuerdo para presentar un artículo.




Hiiiiiiiii haaaaaaaaaaa!hiiiiiiiiiii haaaaaaaaaaaaa!


Defendiendo los resultados (none / 0) (#2)
por jamarier a las Wed Oct 27th, 2004 at 07:07:49 PM CET
(Información Usuario) http://barbacana.net/drupal/

Supongamos que ERS tiene buena fé. Y que cometió errores y se da cuenta gracias a tu correo. Lo lógico es pensar que quiere enmendarlo para hacerlo bien.

Ahora bien, los buscadores no han sido diseñados para contar palabras. Ni las búsquedas propuestas por tí tampoco. Por ejemplo: si la página contiene un programa «Open Source» y a pie de página aparece el ya citado mensaje de Copyright, con las expresiones ("Open Source" AND NOT "(c)...") no contará adecuadamente esta página.

La única forma de contar apropiada que se me ocurre es crear un bot especifico que recorriese las páginas y contara las apariciones de de FS y OS sin contar los mensajes de copyright que suelen ser constantes. Con un wget, un grep, y dos pipes mas se puede hacer ;-)

Ahora si ERS va de mala fé, todo lo que le digas no va a servir para nada

Osea espera. Tal y como ha comentado La Mula a ver si se retracta en su artículo anterior. Y en caso contrario hazte famoso por ser el que «pillo a ERS en renuncio».

-----
- Porque mañana será un gran día.



¿Y qué tal esta página? (none / 0) (#11)
por giordino a las Thu Oct 28th, 2004 at 10:19:15 PM CET
(Información Usuario) http://txetxu.blogspot.com

Lista de proyectos OS de SourceForge.

A mi me salen unos 10 mil y pico proyectos con todas las licencias excepto las GLP y LGPL. Entre estas dos últimas, solamente, ya hay más de 45.000 proyectos de soft.

Eso sí GLP sólo hay dos licencias. Open Source un buen puñao.



¿Has mirado GoogleFight.com? (none / 0) (#22)
por jepetux a las Sat Oct 30th, 2004 at 11:40:44 PM CET
(Información Usuario)

En http://www.googlefight.com/ puedes comparar dos conceptos y confrontarlos, para ver cual es el que aparece reflejado en más páginas

Con Open Source y Free Software, así sin más, los resultados que me acaban de salir son:
  • OS: 14 500 000 results
  • FS: 20 400 000 results


Para disminuir ruido, entrecomillando los conceptos, tras escribir "Open Source" y "Free Software", los resultados finales son ahora:
  • OS: 11 700 000 results
  • FS: 9 010 000 results


Como decías en tu mensaje original, las diferencias no son demasiado significativas y tal vez lo mejor sea dejarse las neuronas en otras coñas ;)

saludOS desde FS :D



 
Timado por Eric Raymond | 23 comentarios (23 temáticos, editoriales, 0 ocultos)
Ver: Modo: Orden:

ecol Logo Powered by Scoop
Todas las Marcas Registradas y copyrights de esta página son propiedad de sus respectivos dueños.
Los comentarios son propiedad del que los escribe.
Los iconos de las noticias y el logotipo son propiedad de Javier Malonda.
El Resto © 2002 Escomposlinux.org y aledaños.

Puedes sindicar los contenidos de libertonia en formato RSS 1.0 y RDF 0.9. También se puede sindicar la cola de envíos pendientes de moderación.

El proyecto escomposlinux.org está dedicado a la memoria de tas

crear cuenta | faq | búsqueda