shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Remover tags html, mas deixar o endereço do Link


From: Rodrigo Boechat
Subject: Remover tags html, mas deixar o endereço do Link
Date: Fri, 02 Dec 2011 20:37:14 -0200
User-agent: Mozilla/5.0 (X11; Linux x86_64; rv:8.0) Gecko/20111108 Thunderbird/8.0

Pessoal,

Estou com uma encrenca braba para resolver.
No meu serviço fizeram uma "Base de Conhecimento" em html no WORD!!!!!
Agora eu preciso limpar a bagaça toda que o word fez no html para 
refazer a base.
Eu consegui remover todas as tags com o comando abaixo, mas ele gerou 
dois problemas que eu não sei como resolver:

cat menuinstallconteudo.htm | tr "\r" " " | tr "\n" " " | sed -e 
"s/<[^>]*>//g;s/[&nbsp;]//g" > teste2.htm

Primeiramente é que o comando removeu todas as letras "n" do arquivo. 
Não consegui compreender o porque...
O segundo é que eu preciso do valor do HREF das tags <a>...

Não me importa como será a saída, desde que o link esteja próximo do texto.
Exemplos:

texto texto.link texto2 texto2.link texto3 texto3.link

ou
texto1 texto1.link
texto2 texto2.link

ou
texto1.link texto1
texto2.link texto2


Segue um exemplo da encrenca que eu estou enfrentando:
<p class=MsoNoSpacing 
style='margin-left:36.0pt;text-indent:-18.0pt;line-height:
115%;mso-list:l0 level1 lfo2'><![if !supportLists]><span style='font-family:
Symbol;mso-fareast-font-family:Symbol;mso-bidi-font-family:Symbol'><span
style='mso-list:Ignore'>·<span style='font:7.0pt "Times New 
Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span></span><![endif]><span 
style='font-size:10.0pt;line-height:115%;
font-family:"Verdana","sans-serif"'><a 
href="../install/I-7ZIP.doc">7-ZIP</a></span><span
style='font-family:"Verdana","sans-serif"'><o:p></o:p></span></p>

Tags multi linhas e uma confusão difícil de compreender. E há parágrafos 
ainda mais confusos, dependendo da quantidade de vez que ele foi editado...


[As partes desta mensagem que não continham texto foram removidas]



reply via email to

[Prev in Thread] Current Thread [Next in Thread]