shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [shell-script-pt] Grep em HTML


From: Alfredo Casanova
Subject: Re: [shell-script-pt] Grep em HTML
Date: Fri, 18 Dec 2020 10:59:57 -0300

Dá pra fazer fácil com cut:
$ cut -f2 -d\> html | cut -f1 -d\<
avahi-0.8+15+ge8a3dd0-3-x86_64.chi.zst
avahi-0.8+15+ge8a3dd0-3-x86_64.chi.zst.desc
avfs-1.1.3-1-x86_64.chi.zst
avfs-1.1.3-1-x86_64.chi.zst.desc

Ou com PCRE tb, usando lookbehind (já citado na thread):
$ grep -Po "(?<=\">)[^<]+" html
avahi-0.8+15+ge8a3dd0-3-x86_64.chi.zst
avahi-0.8+15+ge8a3dd0-3-x86_64.chi.zst.desc
avfs-1.1.3-1-x86_64.chi.zst
avfs-1.1.3-1-x86_64.chi.zst.desc

Ou com sed, tirando tags html e imprimindo apenas a primeira palavra restante:
$ sed 's/<[^>]*>//g;s/ .*//' html
avahi-0.8+15+ge8a3dd0-3-x86_64.chi.zst
avahi-0.8+15+ge8a3dd0-3-x86_64.chi.zst.desc
avfs-1.1.3-1-x86_64.chi.zst
avfs-1.1.3-1-x86_64.chi.zst.desc

nenhuma das opções é solução genérica, mas se aplicam ao seu exemplo.

On Fri, Dec 18, 2020 at 8:48 AM Itamar Santos de Souza por (shell-script-pt) <shell-script-pt@nongnu.org> wrote:
Bom dia senhore:

No caso de usar o lynx para ser mais efetivo use:
lynx -dump -listonly

Outra opção é:
links -dump -html-numbered-links

[]'s
Itamar
Em sexta-feira, 18 de dezembro de 2020 08:36:19 BRT, Julio C. Neves <julio.neves@gmail.com> escreveu:


Eu creio que uma ER do tipo: sed -r 's/^[^>]+>(.*\.zst).*/\1/' seja suficiente (não perdi muito tmpo tentando entender o problema), mas eu ia sugerir exatamente o que o bom e velho Tiago (papai novo...) sugeriu: o uso de lynx -dump, no lugar do cURL.

Abraços,
Julio
» Não tem tempo para fazer um curso presencial?
» Na sua cidade não tem nenhum bom curso de Linux?

Também damos treinamento em sua empresa
em qualquer cidadecom certificado e nota fiscal.








Em sex., 18 de dez. de 2020 às 01:11, Vilmar Catafesta <vcatafesta@gmail.com> escreveu:
Olá pessoal,

Alguém disposto a ajudar com um regex para o GREP pegar de um html
o nome do arquivo entre as tags > e </a ?

Eu  poderia pegar a url do arquivo, porém, dependendo do nome do arquivo, como no exemplo
abaixo, o cURL me retorna a url do arquivo "truncado", e necessito pegar o nome do arquivo
integral para que possa criar um pacote com este nome.

O mais próximo que consegui foi com o regex abaixo:
grep -Eo '>[^"]*.chi.zst'

Exemplo de parte de html:
<a href=""            08-Dec-2020 17:26              517141
<a href=""       08-Dec-2020 17:26                 642
<a href=""                       08-Dec-2020 17:26              237986
<a href=""                  08-Dec-2020 17:26                 544

resultado:
>avahi-0.8+15+ge8a3dd0-3-x86_64.chi.zst
>avahi-0.8+15+ge8a3dd0-3-x86_64.chi.zst
>avfs-1.1.3-1-x86_64.chi.zst
>avfs-1.1.3-1-x86_64.chi.zst


outro detalhe, o regex tem que retornar somente o nome finalizado com .chi.zst
mas NÃO com .chi.zst.desc

Saudações
Vilmar




_______________________________________________
Lista brasileira de usuários de shell script
Endereço de e-mail da lista: shell-script-pt@nongnu.org
Para se inscrever ou desinscrever acesse: https://lists.nongnu.org/mailman/listinfo/shell-script-pt
Para ver os arquivos da lista (mensagens anteriores) e pesquisar nelas, acesse https://lists.nongnu.org/archive/html/shell-script-pt/

NOTA: A lista anterior, no Yahoo Groups, foi *desativada*. Por favor utilize somente esta.
_______________________________________________
Lista brasileira de usuários de shell script
Endereço de e-mail da lista: shell-script-pt@nongnu.org
Para se inscrever ou desinscrever acesse: https://lists.nongnu.org/mailman/listinfo/shell-script-pt
Para ver os arquivos da lista (mensagens anteriores) e pesquisar nelas, acesse https://lists.nongnu.org/archive/html/shell-script-pt/

NOTA: A lista anterior, no Yahoo Groups, foi *desativada*. Por favor utilize somente esta.
_______________________________________________
Lista brasileira de usuários de shell script
Endereço de e-mail da lista: shell-script-pt@nongnu.org
Para se inscrever ou desinscrever acesse: https://lists.nongnu.org/mailman/listinfo/shell-script-pt
Para ver os arquivos da lista (mensagens anteriores) e pesquisar nelas, acesse https://lists.nongnu.org/archive/html/shell-script-pt/

NOTA: A lista anterior, no Yahoo Groups, foi *desativada*. Por favor utilize somente esta.


--
[]'s
Alfredo Tristão Casanova .͘.
Linux User #228230
tel: +55 61 9655 9619

reply via email to

[Prev in Thread] Current Thread [Next in Thread]