|
Alimentando a la bestia
|
|
Por colores
departamento busquedas frenéticas , Sección Diarios Puesto a las Thu Jul 8th, 2004 at 11:33:06 AM CET
|
 |
|
Aunque se tiene acceso al codigo fuente (LaTeX+postscripts.tar.gz) de todos los artículos en Física de Altas Energías desde 1992 en arXiv, y hay poderosas bases de datos para su consulta, aún no es posible hacer búsquedas en el texto completo de todos ellos. Para ello se pretende alimentar a google con los 9G de PDFs que se pueden generar a desde arXiv
|
Casí todos los artículos de Física de altas energías, desde 1992, se encuentran almacenados en código fuente (LaTeX y figuras postscript) en arXiv, en versiones que en lo que ha contenido se refiere, son prácticamente idénticas a las finalmente publicadas en revistas internacionales. Con la información de este sitio se han creado poderosas bases de datos que incluyen, entre otras cosas, las citaciones entre los artículos.
Incluso, usando google, se pueden hacer búsquedas dentro de los PDFs que genera el sistema temporalmete a petición de un usuario. De hecho, cuando un usuario solicita un pdf suele aparecer un anuncio como este:
"PDF for hep-ph/9210253
We are now attempting to automatically create some PDF from the paper's source.
...this may take a little time.
For convenience, your browser has been asked to automatically reload this URL in 15 seconds.
[...]
What's happening?
The source for this paper is being processed by a script which uncompresses it, unpacks it, determines the source type (e.g. LaTeX/TeX/LaTeX2e...), then runs the appropriate programs.
[...]"
Despues de algunos días el PDF es borrado.
En arrXiv se pretende almacenar los aproximadamente 9G de PDF de las sección hep-ph de arXiv para poder hacer búsquedas dentro de cada uno de los miles de PDF que se espera vaya almacenado google. Una página simplificada de búsqueda parodia aún más a google, el cual se espera que se alimente de ésto (Advertencia: ¡Listado de directorio de más de 10000 líneas!)
|
|
|