[Ayuda] Alguien conoce alguna extension o parecido de TIDY para hacerlo func
Arturo Espinosa-Aldama
arturoea en hotmail.com
Vie Abr 15 10:02:58 CDT 2005
Es probable que haya bindings de Tidy para PERL (o sea, un modulo). El Perl
para Windows se llama Active Perl, de la compania Active State. Creo que
Perl seria el lenguaje ideal para esto.
Si yo fuera tu, bajaria antiword, y usaria wget para bajar el documento,
luego antiword para convertir el chunche a docbook y de alli convertiria a
HTML a patita (o con un filtro de docbook modificado, solo que son medio
pesados). Todo esto se podria realizar con un solo script de perl, al que
nomas le pasarias la fecha o algun parametro que permitiera automaticamente
generar el url de donde se baja el documento word.
Otra posibilidad tambien es que los documentos OpenOffice son en realidad
archivos .zip que tienen adentro archivos xml, entre otros. Alli el
principal es content.xml, de manera que podrias abrir el archivo con
openoffice y guardarlo en formato nativo de oo, y luego ejecutar un script
en Perl que abriera el Zip (hay un modulo para eso) y luego convirtiera el
content.xml (que es muy sencillo) a HTML directamente: a diferencia de Word,
el formato abierto de OO es una maravilla, y MUY abierto. Ademas, hay dos
tres parsers de XML ya hechos (Xpat, XML-Simple y Spartan), con los que
rapidamente podrias hacer tu filtro personalizado... o podrias usar tambien
xslt, si te quieres ver moderno.
Abre con el winzip un archivo openoffice de oowriter y checa los adentros...
veras que el content.xml ya te da la solucion casi peladita.
Saludos,
Arturo
>From: Iván Caballero Cano <ivanc en grupocti.com.mx>
>To: Arturo Espinosa-Aldama <arturoea en hotmail.com>, Ayuda en linux.org.mx
>Subject: Re: [Ayuda] Alguien conoce alguna extension o parecido de TIDY
>para hacerlo func
>Date: Thu, 14 Apr 2005 11:30:49 -0500
>
>Gracias Arturo, mira de hecho tengo el plugin TIDY para dreamweaver que si
>me funciona para lo que deseo, pero esto me implica hacer mas pasos ya que
>primero tengo que pegar el Documento Word a Oppen Office en la modalidad de
>creacion de pagina web y luego extraer el HTML generado por Open Office y
>pegarlo a DreamWeaver, luego le paso el pluggin de TIDY y luego tengo que
>limpiar todas las clases de CSS para ponerles las mias. Como ves es un
>proceso que si funciona pero esta un poco largo de realizar. Por eso estaba
>buscando el plug in de tidy para Open Office y me ahorro todo los pasos que
>tienen que ver con Dream Weaver.
>Usar Antiword, supongo que tambien debe funcionar, pero igualmente creo que
>serian tambien mas pasos a seguir. Me doy a entender???
>Tal vez aqui es donde veo la necesidad de yo crearme un programa libre para
>realizar de un solo paso la conversion de un documento word a HTML usando
>tambien TIDY...Eso si que seria bueno no?? Aunque creo que seria complicado
>de programa, primero tendria que integrar un software libre de convercion
>de word a HTML y luego ya pasarle el TIDY, pero todo en un solo programa
>creado en ... no se.. tal vez pascal de la Gnu...algo asi.
>
>>
>>Hola, Ivan.
>>
>>Te recomiendo el sitio http://freshmeat.net/ donde hay un montón de
>>software que no viene en el disco. No sé si estés programando tu sitio en
>>PHP, pero si es asi, este software te puede ser de gran ayuda:
>>
>>http://freshmeat.net/projects/servoo/
>>
>>Y hay otro que se llama antiword que convierte de doc a docbook, el cual
>>seria ya trivial de convertir a HTML con estilos y toda la cosa:
>>
>>http://freshmeat.net/projects/antiword/
>>
>>Y por cierto, a toda la banda: es mejor que expliquen desde el principio
>>qué están haciendo, en vez de que nomás digan en qué detallito ínfimo se
>>están atorando, porque a veces es mejor replantear todo el proceso usando
>>algún programa que esté mejor adaptado al problema real.
>>
>>El antiword jala en windows. Qué lástima que estés usando windows, porque
>>UNIX le parte la madre en el área de automatización de procesos. Te
>>recomendaría poner una maquinita Linux leve que hiciera estos procesos por
>>tí, con un servidorcito SAMBA para integrar todo el rollo con el resto de
>>tu sistema.
>>
>>Saludos,
>>Arturo
>>
>>>From: Iván Caballero Cano <ivanc en grupocti.com.mx>
>>>To: Max Valdez <maxvalde en fis.unam.mx>, Ayuda en linux.org.mx
>>>Subject: Re: [Ayuda] Alguien conoce alguna extension o parecido de TIDY
>>>para hacerlo funcionar con Open Office?
>>>Date: Wed, 13 Apr 2005 16:01:23 -0500
>>>
>>>Lo que sucede es que tengo la necesidad de convertir Documentos que salen
>>>en el Diario Oficial de la federación por medio de terra ya que estoy
>>>suscrito al servicio, pero los documentos vienen en word y debo migrarlos
>>>para que se vean como Páginas Web.
>>>No tengo el tiempo necesario para convertirl los documentos a pie asi de
>>>linea por linea, pues tengo otras prioridades que urgen como actualizar
>>>la base de datos de mismo sistema. (www.legam.com.mx). Realmente tengo
>>>mucho trabajo y tengo que dar prioridad a otras cosas, pero tampoco
>>>quiero que los documentos queden tan mal hechos.
>>>Entonces lo que hago es usar open office, ahi le pegas el documento word
>>>y te lo convierte ya en HTML, pero le agrega muchas etiquetas como <font>
>>>y de otras que no necesito ya que uso hojas de estilo para formatear el
>>>documento.
>>>Tengo el plugin de TIDY para dreamweaver, pero me ahorro tiempo si puedo
>>>conseguir dicho plugin para Open Office.
>>>No estoy seguro si al pegar un documento word en Quanta me respeta las
>>>tablas asi como viene en Word, por que al menos dreamweaver no la toma en
>>>cuenta, la desaparece, pero deja los datos de la misma. Por eso es que
>>>uso Open Office, tambien con Word la puedo convertir a HTML pero me deja
>>>un HTML demasiado asqueroso.. muy malo, Open office tambien lo deja medio
>>>gacho pero no tanto como Word. Con tidy lo limpio bien pero seria mas
>>>rapido si lo hago desde el mismo open office.
>>>Los documentos que convierto son a veces muy largos y definitivamente
>>>tengo la necesidad de convertirlos a HTML de la forma mas rapida que sea
>>>posible.
>>>Si se HTML y CSS pero lo que no tengo es tiempo para hacer asi super bien
>>>hechos.
>>>Como sea probare Quanta.. pero jalara en windows?? lo investigare.
>>>
>>>Gracias por tu sugerencia.
>>>
>>>Max Valdez wrote:
>>>
>>>>On Wednesday 13 April 2005 12:52 pm, Iván Caballero Cano wrote:
>>>>
>>>>
>>>>>Alguien conoce alguna extension o algo parecido de TIDY para hacerlo
>>>>>funcionar con Open Office?
>>>>>Es decir no habra algun programilla por ahi para agregar un comando o
>>>>>boton al OpenOffice para que
>>>>>corriga las HTML que estamos creando con el editor de paginas que trae
>>>>>el Open office?
>>>>>
>>>>>
>>>>Si realmente quieres eso te recomendaria usar quanta, pero supongo que
>>>>prefieres seguir usando un wysiwyg y contaminar el codigo ademas de
>>>>hacerlo mas grande, dificil de administrar, y gastar mas ancho de banda,
>>>>etc.
>>>>
>>>>Si le metieras unas 2 horas al dia durante una semana podrias aprender
>>>>bien html y css y dejar de depender de que un programa haga lo que
>>>>quieres sin importar la manera en la que lo haga.
>>>>
>>>>Porque quieres sacarle esa funcionalidad a ooffice ?
>>>>
>>>>Saludos
>>>>Max
>>>>
>>>>
>>>
>>>
>>>
>>>_______________________________________________
>>>Ayuda mailing list
>>>Ayuda en linux.org.mx
>>>Para salir de la lista:
>>>http://mail.linux.org.mx/cgi-bin/mailman/listinfo/ayuda/
>>
>>
>>
>>
>>
>>
>
>
>
>_______________________________________________
>Ayuda mailing list
>Ayuda en linux.org.mx
>Para salir de la lista:
>http://mail.linux.org.mx/cgi-bin/mailman/listinfo/ayuda/
_______________________________________________
Ayuda mailing list
Ayuda en linux.org.mx
Para salir de la lista: http://mail.linux.org.mx/cgi-bin/mailman/listinfo/ayuda/
Más información sobre la lista de distribución Ayuda