[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [shell-script] Remover tags html, mas deixar o endereço do Link
From: |
Tiago Peczenyj |
Subject: |
Re: [shell-script] Remover tags html, mas deixar o endereço do Link |
Date: |
Mon, 5 Dec 2011 19:03:09 -0200 |
Esquecer não é erro, de repente vc nunca utilizou o lynx -- isso só é comum
por quem teve o desespero de usar internet pelo terminal :)
o browser links pode renderizar algumas coisas de uma forma melhor, acho
que vale a pena olhar.
2011/12/5 Rodrigo Boechat <address@hidden>
> **
>
>
> Tiago,
> Obrigado.
> O lynx --dump atendeu perfeitamente o que eu precisava.
>
> Obriado também por me relembrar. Foi um erro básico que eu criei sem me
> dar conta.
>
> :)
>
> Em 02-12-2011 20:46, Tiago Peczenyj escreveu:
>
> > faça assim
> >
> > sed 's/\ //g'
> >
> > quando vc coloca entre [ e ] isso significa qualquer caracter dentro
> desses
> > caracteres
> >
> > ou seja, tanto n quanto b quanto s ou p...
> >
> > Porém vc ja tentou utilizar o lynx com a opcao --dump? acho que ele
> > encontra todos os links e coloca no final... de uma olhada.
> >
> > 2011/12/2 Rodrigo Boechat<address@hidden>
> >
> >> **
>
> >>
> >>
> >> Pessoal,
> >>
> >> Estou com uma encrenca braba para resolver.
> >> No meu serviço fizeram uma "Base de Conhecimento" em html no WORD!!!!!
> >> Agora eu preciso limpar a bagaça toda que o word fez no html para
> >> refazer a base.
> >> Eu consegui remover todas as tags com o comando abaixo, mas ele gerou
> >> dois problemas que eu não sei como resolver:
> >>
> >> cat menuinstallconteudo.htm | tr "\r" " " | tr "\n" " " | sed -e
> >> "s/<[^>]*>//g;s/[ ]//g"> teste2.htm
> >>
> >> Primeiramente é que o comando removeu todas as letras "n" do arquivo.
> >> Não consegui compreender o porque...
> >> O segundo é que eu preciso do valor do HREF das tags<a>...
> >>
> >> Não me importa como será a saída, desde que o link esteja próximo do
> texto.
> >> Exemplos:
> >>
> >> texto texto.link texto2 texto2.link texto3 texto3.link
> >>
> >> ou
> >> texto1 texto1.link
> >> texto2 texto2.link
> >>
> >> ou
> >> texto1.link texto1
> >> texto2.link texto2
> >>
> >> Segue um exemplo da encrenca que eu estou enfrentando:
> >> <p class=MsoNoSpacing
> >> style='margin-left:36.0pt;text-indent:-18.0pt;line-height:
> >> 115%;mso-list:l0 level1 lfo2'><![if !supportLists]><span
> >> style='font-family:
> >> Symbol;mso-fareast-font-family:Symbol;mso-bidi-font-family:Symbol'><span
> >> style='mso-list:Ignore'>·<span style='font:7.0pt "Times New
> >> Roman"'>
> >> </span></span></span><![endif]><span
> >> style='font-size:10.0pt;line-height:115%;
> >> font-family:"Verdana","sans-serif"'><a
> >> href="../install/I-7ZIP.doc">7-ZIP</a></span><span
> >> style='font-family:"Verdana","sans-serif"'><o:p></o:p></span></p>
> >>
> >> Tags multi linhas e uma confusão difícil de compreender. E há parágrafos
> >> ainda mais confusos, dependendo da quantidade de vez que ele foi
> editado...
> >>
> >> [As partes desta mensagem que não continham texto foram removidas]
> >>
> >>
> >>
> >
> >
>
>
>
--
Tiago B. Peczenyj
Linux User #405772
http://pacman.blog.br
[As partes desta mensagem que não continham texto foram removidas]