[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [shell-script] Extra��o de URLs de uma pag HTML
From: |
Aurelio Marinho Jargas |
Subject: |
Re: [shell-script] Extração de URLs de uma pag HTML |
Date: |
Wed, 10 Mar 2004 09:30:01 -0300 (ART) |
oi gilberto,
--- Gilberto Martins <address@hidden> escreveu:
> Acredito que as respostas enviadas nasceram de profundo senso
> de humor, considerando que os que perguntam normalmente não
> sabem fazer. Assim devo considerar respostas do tipo
> "Só fazer...", "você pode usar E.Rs para isso..." como boas
> piadas e descontrair um pouco.
realmente elas não foram tão prestativas quanto poderiam.
vou tentar mudar esssa situação.
para extrair todos os link de uma página HTML (local ou remota)
uma boa pedida é usar o navegador de modo texto 'lynx'.
tem no Linux e no Cygwin também (pra quem usa Windows).
por exemplo, quais são todos os links da página principal do
google?
$ lynx -dump www.google.com
Google
Web [1]Imagens [2]Grupos [3]Diretório
_______________________________________________________
Pesquisa Google Estou com sorte o [4]Pesquisa avançada
o [5]Preferências
o [6]Ferramentas de idiomas
Pesquisar: (_) a Web (_) páginas em português (_) páginas do Brasil
[7]Soluções de publicidade - [8]Tudo sobre o Google - [9]Google.com
in
English
©2004 Google - Pesquisando 4,285,199,774 páginas na Web
References
1. http://www.google.com.br/imghp?hl=pt-BR&tab=wi&ie=UTF-8
2. http://www.google.com.br/grphp?hl=pt-BR&tab=wg&ie=UTF-8
3. http://www.google.com.br/dirhp?hl=pt-BR&tab=wd&ie=UTF-8
4. http://www.google.com.br/advanced_search?hl=pt-BR
5. http://www.google.com.br/preferences?hl=pt-BR
6. http://www.google.com.br/language_tools?hl=pt-BR
7. http://www.google.com.br/intl/pt/ads/
8. http://www.google.com.br/intl/pt-BR/about.html
9. http://www.google.com/ncr
$
pronto!
com a opção -dump, além do lynx já fazer o 'parsing' do HTML
mostrando apenas o texto da página, no final ele coloca aquela
seção 'References' com uma lista prontinha de todos os links
da página :)
para você extrair somente os links, tem várias maneiras.
a mais fácil talvez seja apagar tudo da primeira linha até
achar 'References' no começo de alguma linha. isso o sed
pode fazer com o comando "1,/^References/d"
então fim das contas, fica:
$ lynx -dump www.google.com | sed '1,/^References/d'
1. http://www.google.com.br/imghp?hl=pt-BR&tab=wi&ie=UTF-8
2. http://www.google.com.br/grphp?hl=pt-BR&tab=wg&ie=UTF-8
3. http://www.google.com.br/dirhp?hl=pt-BR&tab=wd&ie=UTF-8
4. http://www.google.com.br/advanced_search?hl=pt-BR
5. http://www.google.com.br/preferences?hl=pt-BR
6. http://www.google.com.br/language_tools?hl=pt-BR
7. http://www.google.com.br/intl/pt/ads/
8. http://www.google.com.br/intl/pt-BR/about.html
9. http://www.google.com/ncr
se quiser tirar os números e deixar somente os links, adicione
mais um
| cut -d. -f2-
no final do comando.
espero que agora tenha ficado claro amigo.
falou!
=====
--
Aurelio Marinho Jargas - De volta para Curitiba & Conectiva
Apostila Reloaded: PDF - http://aurelio.net/shell/apostila
palestra.sucesu.relato - http://aurelio.net/curso/sucesu
Funcoes ZZ via ICQ!!?! - http://aurelio.net/zz
______________________________________________________________________
Yahoo! Mail - O melhor e-mail do Brasil! Abra sua conta agora:
http://br.yahoo.com/info/mail.html