shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [shell-script] Filtrar retorno html


From: Petterson Faria
Subject: Re: [shell-script] Filtrar retorno html
Date: Wed, 12 Sep 2012 14:58:42 -0300

show de bola, vou anotar aqui.
peguei a saida do curl jogando pro grep resolveu para o que eu queria :)

--
Atenciosamente,
*Petterson Faria*

*"*Where there is a shell there is a way" (UNIX)




2012/9/12 Leslie Watter <address@hidden>

> **
>
>
> Oi Peterson,
>
> Eu usei o w3m com a opção -dump... veja só :
>
> leslie@mione:~$ w3m -dump "
>
> https://vendas.autoviacao1001.com.br/perl/br5.cgi?ida=soloida&txt_desde=532&txt_hasta=521&fecha=120912&fecha_vuelta=120911&Submit2=
> "
> | grep "( ) "
> Received cookie: sessionID6=2d0396fe63be4deed4a17545d436ae2f
> ( ) 16:20 (qua) 19:00 20,64 25 CONV C/AR [avmil]
> ( ) 17:15 (qua) 19:45 20,64 31 CONV C/AR [avmil]
> ( ) 18:15 (qua) 20:45 20,64 26 CONVENCIONAL [avmil]
> ( ) 23:50 (qua) 02:00 20,64 19 CONV C/AR [avmil]
> ( ) 23:57 (qua) 02:30 20,64 35 CONVENCIONAL [avmil]
> leslie@mione:~$
>
> É só vc filtrar mais se quiser alguma coisa diferente ... e com certeza
> fica mais fácil que o while grep ....
>
> []s
>
> Leslie
>
>
> 2012/9/11 Petterson Faria <address@hidden>
>
> > Vaeu Fernando, vou testar sim.
> > Fiz usando curl -s |grep e ta resolvendo para o que eu queria.
> >
> > --
> > Atenciosamente,
> > *Petterson Faria*
> >
> > *"*Where there is a shell there is a way" (UNIX)
> >
> >
> >
> >
> > 2012/9/11 Fernando Mercês <address@hidden>
> >
> > > **
>
> > >
> > >
> > > Petterson,
> > >
> > > Dá pra fazer com sed, mas em geral não se recomenda o sed para parsear
> > html
> > > e sim texto puro. Por isso eu acho legal você converter html para texto
> > > antes. Um script legal é o html2text.py [1]. Com ele dá pra fazer:
> > >
> > > wget -qO - 'sua_url' | iconv -f ISO-8859-1 -t UTF-8 | python
> html2text.py
> > >
> > > PS.: Usei o iconv porque o site que você informou é ISO-8859-1 :( e o
> > > html2text trabalha com UTF-8.
> > >
> > > A partir daí o que você vai ter é texto puro, sem as tags HTML. Acho
> > melhor
> > > para parsear com o sed/grep. Por exemplo, as datas disponíveis você já
> > pega
> > > com a regex '[01][0-9]:[0-5][0-9] \([a-z]{3}\)'
> > >
> > > Abraço.
> > >
> > > [1] https://github.com/aaronsw/html2text
> > >
> > > Att,
> > >
> > > Fernando Mercês
> > > Linux Registered User #432779
> > > www.mentebinaria.com.br
> > > ------------------------------------
> > > "Ninguém pode ser escravo de sua identidade; quando surge uma
> > possibilidade
> > > de mudança é preciso mudar". (Elliot Gould)
> > >
> > > 2012/9/11 Petterson Faria <address@hidden>
> > >
> > > > **
> > >
> > > >
> > > >
> > > > Boa tarde amigos.
> > > >
> > > > Estava ajudando um amigo a fazer um script para consultar horario de
> > > onibus
> > > > no site da 1001
> > > >
> > > > basicamente seria chamar o curl para a url com os parametros de data,
> > > > origem e destino.
> > > > Porem a gente queria passar por parametro um horario e ele retornar
> se
> > > tem
> > > > ou nao.
> > > >
> > > > Existem algum jeito melhor de trabalhar com o retorno do que usando
> > > > "Tokenize" ou "while read" limitando pelo "<d1> + </dd>" desse
> retorno?
> > > >
> > > >
> > >
> >
> https://vendas.autoviacao1001.com.br/perl/br5.cgi?ida=soloida&txt_desde=532&txt_hasta=521&fecha=120911&fecha_vuelta=120911&Submit2=
> > > >
> > > > --
> > > > Atenciosamente,
> > > > *Petterson Faria*
> > > >
> > > > *"*Where there is a shell there is a way" (UNIX)
> > > >
> > > > [As partes desta mensagem que não continham texto foram removidas]
> > > >
> > > >
> > > >
> > >
> > > [As partes desta mensagem que não continham texto foram removidas]
> > >
> > >
> > >
> >
> >
> > [As partes desta mensagem que não continham texto foram removidas]
> >
> >
> >
> > ------------------------------------
>
> >
> > ----------------------------------------------------------
> > Esta lista não admite a abordagem de outras liguagens de programação,
> como
> > perl, C etc. Quem insistir em não seguir esta regra será moderado sem
> > prévio aviso.
> > ----------------------------------------------------------
> > Sair da lista: address@hidden
>
> > ----------------------------------------------------------
> > Esta lista é moderada de acordo com o previsto em
> > http://www.listas-discussao.cjb.net
> > ----------------------------------------------------------
> > Servidor Newsgroup da lista: news.gmane.org
> > Grupo: gmane.org.user-groups.programming.shell.brazil
> >
> > Links do Yahoo! Grupos
> >
> >
> >
>
> --
> Leslie H. Watter
>
>
> [As partes desta mensagem que não continham texto foram removidas]
>
>  
>


[As partes desta mensagem que não continham texto foram removidas]



reply via email to

[Prev in Thread] Current Thread [Next in Thread]