[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [shell-script] Extra��o de URLs de uma pag HTML
From: |
Renata Romanazzi |
Subject: |
Re: [shell-script] Extração de URLs de uma pag HTML |
Date: |
Wed, 10 Mar 2004 10:57:51 -0300 |
Tio Aurélio:
sua dica acaba sendo extremamente útil pra um script que eu estava
desenvolvendo, valeu mesmo. :)
E, a propósito, seu livro de RegEx me faz olhar com mais simpatias
para elas. Adorei seu senso de humor. :)
At Wednesday, 10 March 2004, you wrote:
>oi gilberto,
>
> --- Gilberto Martins <address@hidden> escreveu:
>> Acredito que as respostas enviadas nasceram de profundo senso
>> de humor, considerando que os que perguntam normalmente não
>> sabem fazer. Assim devo considerar respostas do tipo
>> "Só fazer...", "você pode usar E.Rs para isso..." como boas
>> piadas e descontrair um pouco.
>
>realmente elas não foram tão prestativas quanto poderiam.
>vou tentar mudar esssa situação.
>
>para extrair todos os link de uma página HTML (local ou remota)
>uma boa pedida é usar o navegador de modo texto 'lynx'.
>tem no Linux e no Cygwin também (pra quem usa Windows).
>
>por exemplo, quais são todos os links da página principal do
>google?
>
>$ lynx -dump www.google.com
>
> Google
>
> Web [1]Imagens [2]Grupos [3]Diretório
>
> _______________________________________________________
> Pesquisa Google Estou com sorte o [4]Pesquisa avançada
> o [5]Preferências
> o [6]Ferramentas de idiomas
> Pesquisar: (_) a Web (_) páginas em português (_) páginas do Brasil
>
> [7]Soluções de publicidade - [8]Tudo sobre o Google - [9]Google.com
>in
> English
>
> ©2004 Google - Pesquisando 4,285,199,774 páginas na Web
>
>References
>
> 1. http://www.google.com.br/imghp?hl=pt-BR&tab=wi&ie=UTF-8
> 2. http://www.google.com.br/grphp?hl=pt-BR&tab=wg&ie=UTF-8
> 3. http://www.google.com.br/dirhp?hl=pt-BR&tab=wd&ie=UTF-8
> 4. http://www.google.com.br/advanced_search?hl=pt-BR
> 5. http://www.google.com.br/preferences?hl=pt-BR
> 6. http://www.google.com.br/language_tools?hl=pt-BR
> 7. http://www.google.com.br/intl/pt/ads/
> 8. http://www.google.com.br/intl/pt-BR/about.html
> 9. http://www.google.com/ncr
>$
>
>pronto!
>
>com a opção -dump, além do lynx já fazer o 'parsing' do HTML
>mostrando apenas o texto da página, no final ele coloca aquela
>seção 'References' com uma lista prontinha de todos os links
>da página :)
>
>para você extrair somente os links, tem várias maneiras.
>a mais fácil talvez seja apagar tudo da primeira linha até
>achar 'References' no começo de alguma linha. isso o sed
>pode fazer com o comando "1,/^References/d"
>
>então fim das contas, fica:
>
>$ lynx -dump www.google.com | sed '1,/^References/d'
>
> 1. http://www.google.com.br/imghp?hl=pt-BR&tab=wi&ie=UTF-8
> 2. http://www.google.com.br/grphp?hl=pt-BR&tab=wg&ie=UTF-8
> 3. http://www.google.com.br/dirhp?hl=pt-BR&tab=wd&ie=UTF-8
> 4. http://www.google.com.br/advanced_search?hl=pt-BR
> 5. http://www.google.com.br/preferences?hl=pt-BR
> 6. http://www.google.com.br/language_tools?hl=pt-BR
> 7. http://www.google.com.br/intl/pt/ads/
> 8. http://www.google.com.br/intl/pt-BR/about.html
> 9. http://www.google.com/ncr
>
>se quiser tirar os números e deixar somente os links, adicione
>mais um
>
> | cut -d. -f2-
>
>no final do comando.
>
>espero que agora tenha ficado claro amigo.
>
>falou!
>
>=====
>--
>Aurelio Marinho Jargas - De volta para Curitiba & Conectiva
>Apostila Reloaded: PDF - http://aurelio.net/shell/apostila
>palestra.sucesu.relato - http://aurelio.net/curso/sucesu
>Funcoes ZZ via ICQ!!?! - http://aurelio.net/zz
>
>______________________________________________________________________
>
>Yahoo! Mail - O melhor e-mail do Brasil! Abra sua conta agora:
>http://br.yahoo.com/info/mail.html
>
>---------------------------------------------------------------------
>Esta lista não admite a abordagem de outras liguagens de programação,
>como perl, C etc. Quem insistir em não seguir esta regra será moderado
>sem prévio aviso.
>---------------------------------------------------------------------
>Sair da lista: address@hidden
>---------------------------------------------------------------------
>Esta lista é moderada de acordo com o previsto em http://www.listasdiscussao.
>cjb.net
>---------------------------------------------------------------------
>
>Links do Yahoo! Grupos
>Para visitar o site do seu grupo, acesse:
> http://br.groups.yahoo.com/group/shell-script/
>
>Para sair deste grupo, envie um e-mail para:
> address@hidden
>
>O uso que você faz do Yahoo! Grupos está sujeito aos:
> http://br.yahoo.com/info/utos.html
>
===================================================================
EASY and FREE access to your email anywhere: http://Mailreader.com/
===================================================================
[Prev in Thread] |
Current Thread |
[Next in Thread] |
- Re: [shell-script] Extração de URLs de uma pag HTML,
Renata Romanazzi <=