shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [shell-script] Pesquisando e manipulando strings


From: Tiago Peczenyj
Subject: Re: [shell-script] Pesquisando e manipulando strings
Date: Wed, 29 Feb 2012 11:45:43 -0300

Ola

Para entendermos o problema em termos de shell script, existe um
aplicativo chamado xmllint que pode analisar, em teoria, um xml (nunca
usei com html) e poderia pegar os emails por xpath. Outra opção seria
usar o dump do lynx que geralmente mostra a lista de links no final.

Em tempo.

O curso CS 101: BUILDING A SEARCH ENGINE do Udacity (um projeto de
cursos gratuitos) descreve um pouco como fazer esta ativide de
crowling, ou seja, de analisar um html (

http://www.udacity.com/overview/Course/cs101

No exemplo em questão é relativamente facil pois o html é bem
comportado mas é possivel fazer o mesmo em qualquer tipo de documento.
Se puder fazer com ferramentas shell, melhor ainda.

2012/2/29 Julio C. Neves <address@hidden>
>
> Adonai,
> sem pensar muito eu faria o seguinte:
>
> $ sed -rn 's/.*matricula=([0-9]+).*/\1/p;s/.*mailto:([[:lower:].]+)@.*/\1/p'
> a | xargs -L2 | tr ' ' \;
>
> Ou seja filtro campos desejados com sed. Isso vai gerar na saída uma
> lista matric1
> nome1 matric2 nome2 ... matricn nomen, cada um em uma linha. O xargs -L2
> junta de 2 em duas linhas, usando um branco como separador. Finalmente o tr
> troca esse branco por um ponto e vírgula.
>
> Abcs,
> Julio
> *Já foi lançado "Bombando o
> Shell<http://www.brasport.com.br/index.php?dispatch=products.view&product_id=666>
> ". *
> *Show **de interfaces gráficas sob Shell!*
> *
> *
>
>
>
> Em 29 de fevereiro de 2012 10:52, Adonai Silveira Canez <
> address@hidden> escreveu:
>
> > **
> >
> >
> > Petterson, isso eu sei, o problema é que ainda não domino como fazer os
> > filtros, por isso estou pedindo ajuda na lista, se tiver um livro que me
> > ajude a conhecer os recursos das ferramentas que posso usar num shell
> > script vai me ajudar. Mas até eu conhecer bem sobre shell script vou ter
> > que fazer essas perguntas mais básicas.
> >
> > Adonai
> >
> > Em 29 de fevereiro de 2012 10:40, Petterson Faria <
> > address@hidden> escreveu:
> >
> >
> > > Filtra o id da "matricula=" e o nome que esta antes de "@"
> > > A consulta retorna o que esta perguntando ¬¬
> > >
> > > --
> > > Atenciosamente,
> > > *Petterson Faria*
> > >
> > > *"A ciência nunca resolve um problema sem criar mais dez"
> > > (George Bernard Shaw*)
> > >
> > >
> > >
> > >
> > > 2012/2/29 Adonai Silveira Canez <address@hidden>
> > >
> > > > **
> > > >
> > > >
> > > > Pessoal, eu tenho um arquivo com o conteudo que está abaixo e preciso
> > > gerar
> > > > um arquivo que contenha apenas a matricula e o username do email
> > > separados
> > > > por ponto-e-virgula
> > > >
> > > > Arquivo entrada:
> > > > document.write('<a
> > > > href=/localizapessoas/bancodedados/FuncNome3.asp?matricula=035983>');
> > > > <td align=left><font face='verdana' size=1><a
> > > > href="mailto:address@hidden";>address@hidden
> > > > </a></font>&nbsp;</td>
> > > > document.write('<a
> > > > href=/localizapessoas/bancodedados/FuncNome3.asp?matricula=053817>');
> > > > <td align=left><font face='verdana' size=1><a
> > > > href="mailto:address@hidden";>address@hidden
> > > > </a></font>&nbsp;</td>
> > > > document.write('<a
> > > > href=/localizapessoas/bancodedados/FuncNome3.asp?matricula=013653>');
> > > > <td align=left><font face='verdana' size=1><a
> > > > href="mailto:address@hidden";>
> > > > address@hidden
> > > > </a></font>&nbsp;</td>
> > > > document.write('<a
> > > > href=/localizapessoas/bancodedados/FuncNome3.asp?matricula=052519>');
> > > >
> > > > Arquivo Saida:
> > > > 035983;adelia
> > > > 053817;adeliamm
> > > > 013653;ademilde.pires
> > > > 056760;ademilson
> > > >
> > > > Como eu processo esse texto para conseguir essa saida, qual comando
> > usar?
> > > > Imagino que o awk ou o sed façam isso, mas ainda não sei como trabalhar
> > > com
> > > > eles, só sei o básico, inclusive gostaria de indicação de um bom livro
> > > > sobre o assunto shell script.
> > > >
> > > > [As partes desta mensagem que não continham texto foram removidas]
> > > >
> > > >
> > > >
> > >
> > >
> > > [As partes desta mensagem que não continham texto foram removidas]
> > >
> > >
> > >
> > > ------------------------------------
> > >
> > > ----------------------------------------------------------
> > > Esta lista não admite a abordagem de outras liguagens de programação,
> > como
> > > perl, C etc. Quem insistir em não seguir esta regra será moderado sem
> > > prévio aviso.
> > > ----------------------------------------------------------
> > > Sair da lista: address@hidden
> >
> > > ----------------------------------------------------------
> > > Esta lista é moderada de acordo com o previsto em
> > > http://www.listas-discussao.cjb.net
> > > ----------------------------------------------------------
> > > Servidor Newsgroup da lista: news.gmane.org
> > > Grupo: gmane.org.user-groups.programming.shell.brazil
> > >
> > > Links do Yahoo! Grupos
> > >
> > >
> > >
> >
> > [As partes desta mensagem que não continham texto foram removidas]
> >
> >
> >
>
>
> [As partes desta mensagem que não continham texto foram removidas]
>
>
>
> ------------------------------------
>
> ---------------------------------------------------------------------
> Esta lista não admite a abordagem de outras liguagens de programação, como 
> perl, C etc. Quem insistir em não seguir esta regra será moderado sem prévio 
> aviso.
> ---------------------------------------------------------------------
> Sair da lista: address@hidden
> ---------------------------------------------------------------------
> Esta lista é moderada de acordo com o previsto em 
> http://www.listas-discussao.cjb.net
> ---------------------------------------------------------------------
> Servidor Newsgroup da lista: news.gmane.org
> Grupo: gmane.org.user-groups.programming.shell.brazil
>
> Links do Yahoo! Grupos
>
>



--
Tiago B. Peczenyj
Linux User #405772

http://pacman.blog.br


reply via email to

[Prev in Thread] Current Thread [Next in Thread]