shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [shell-script] Extra��o de URLs de uma pag HTML


From: Aurelio Marinho Jargas
Subject: Re: [shell-script] Extração de URLs de uma pag HTML
Date: Wed, 10 Mar 2004 09:30:01 -0300 (ART)

oi gilberto,

 --- Gilberto Martins <address@hidden> escreveu: 
> Acredito que as respostas enviadas nasceram de profundo senso
> de humor, considerando que os que perguntam normalmente não
> sabem fazer. Assim devo considerar respostas do tipo
> "Só fazer...", "você pode usar E.Rs para isso..." como boas
> piadas e descontrair um pouco.

realmente elas não foram tão prestativas quanto poderiam.
vou tentar mudar esssa situação.
 
para extrair todos os link de uma página HTML (local ou remota)
uma boa pedida é usar o navegador de modo texto 'lynx'.
tem no Linux e no Cygwin também (pra quem usa Windows).

por exemplo, quais são todos os links da página principal do
google?

    
$ lynx -dump www.google.com

                                   Google

                 Web   [1]Imagens   [2]Grupos   [3]Diretório

     _______________________________________________________
   Pesquisa Google Estou com sorte   o  [4]Pesquisa avançada
     o  [5]Preferências
     o  [6]Ferramentas de idiomas
   Pesquisar: (_) a Web (_) páginas em português (_) páginas do Brasil

   [7]Soluções de publicidade - [8]Tudo sobre o Google - [9]Google.com
in
                                  English

          ©2004 Google - Pesquisando 4,285,199,774 páginas na Web


References

   1. http://www.google.com.br/imghp?hl=pt-BR&tab=wi&ie=UTF-8
   2. http://www.google.com.br/grphp?hl=pt-BR&tab=wg&ie=UTF-8
   3. http://www.google.com.br/dirhp?hl=pt-BR&tab=wd&ie=UTF-8
   4. http://www.google.com.br/advanced_search?hl=pt-BR
   5. http://www.google.com.br/preferences?hl=pt-BR
   6. http://www.google.com.br/language_tools?hl=pt-BR
   7. http://www.google.com.br/intl/pt/ads/
   8. http://www.google.com.br/intl/pt-BR/about.html
   9. http://www.google.com/ncr
$

pronto!

com a opção -dump, além do lynx já fazer o 'parsing' do HTML
mostrando apenas o texto da página, no final ele coloca aquela
seção 'References' com uma lista prontinha de todos os links
da página :)

para você extrair somente os links, tem várias maneiras.
a mais fácil talvez seja apagar tudo da primeira linha até
achar 'References' no começo de alguma linha. isso o sed
pode fazer com o comando "1,/^References/d"

então fim das contas, fica:

$ lynx -dump www.google.com | sed '1,/^References/d'

   1. http://www.google.com.br/imghp?hl=pt-BR&tab=wi&ie=UTF-8
   2. http://www.google.com.br/grphp?hl=pt-BR&tab=wg&ie=UTF-8
   3. http://www.google.com.br/dirhp?hl=pt-BR&tab=wd&ie=UTF-8
   4. http://www.google.com.br/advanced_search?hl=pt-BR
   5. http://www.google.com.br/preferences?hl=pt-BR
   6. http://www.google.com.br/language_tools?hl=pt-BR
   7. http://www.google.com.br/intl/pt/ads/
   8. http://www.google.com.br/intl/pt-BR/about.html
   9. http://www.google.com/ncr

se quiser tirar os números e deixar somente os links, adicione
mais um  

  | cut -d. -f2-

no final do comando.

espero que agora tenha ficado claro amigo.

falou!


=====
-- 
Aurelio Marinho Jargas - De volta para Curitiba & Conectiva
Apostila Reloaded: PDF - http://aurelio.net/shell/apostila
palestra.sucesu.relato - http://aurelio.net/curso/sucesu
Funcoes ZZ via ICQ!!?! - http://aurelio.net/zz

______________________________________________________________________

Yahoo! Mail - O melhor e-mail do Brasil! Abra sua conta agora:
http://br.yahoo.com/info/mail.html


reply via email to

[Prev in Thread] Current Thread [Next in Thread]