Re: [Rio-pm] xpath

Matheus Lucas Wed, 03 Apr 2013 10:54:11 -0700

Ok, realmente eu estou usando o WWW::Mechanize. :-) 
E o html não esta tao porquinho, ja vi piores kkkkk mais é realmente muito 
complicado mesmo, cheguei a esta conclusão.
No caso é um <p> que esta no meio do codigo e o mesmo esta gigante, entao 
pensei que regex não iria facilitar, teria que ter algo mais inteligente e 
principalmente navegavel. :-) 
Me lebrei dos seletores do Jquery com esse mojo::dom . :-)
Valeu pela dica André, ogribado !






----------------Matheus Lucas
Tecnologia em Sistemas para InternetViçosa-MG
"Seja livre, use Linux !"

--- Em qua, 3/4/13, Andre Carneiro <andregarciacarne...@gmail.com> escreveu:

De: Andre Carneiro <andregarciacarne...@gmail.com>
Assunto: Re: [Rio-pm] xpath
Para: "Perl Mongers Rio de Janeiro" <rio-pm@pm.org>
Data: Quarta-feira, 3 de Abril de 2013, 14:00

Não, não pode!
Evite esse tipo de atitude o máximo possível!
Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é porque 
eu 'posso' que signfica que eu farei.

Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o 
suficiente para não ser parseado, é muito provável que não valha a pena 
parsea-lo!
Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil chegar 
nesse ponto! Pelo menos os links dá pra pegar. Até com o WWW::Mechanize dá pra 
pegar!

Em 99,99999% dos casos é desnecessário...

Cheers!


2013/4/3 Tiago Peczenyj <tiago.pecze...@gmail.com>

IMHO vc pode sim usar regex para parserar html SE
1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas q não 
façam muito sentido)
2) a estrutura (quase) nunca mudar (e vc procura uma string X como "APROVADO" 
ou "ERRO)

3) vc está desesperado

Mas para cada ponto que vc pode usar, existem muitos argumentos contra. vc até 
pode usar como um complemento ao seu parser mas se basear SÓ nisso, como 
criterio geral, é furada.




2013/4/3 Marcio Ferreira <marciodesouzaferre...@gmail.com>



Desculpe a pressa em responder, o e-mail anterior, alguns pontos que podem ser 
tocados:



o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação, assim vc 
de fato se concentra no seu problema e esquece o resto.


o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar no seu 
DOM, isso é legal!
NUNCA USE REGEX PRA PARSER DE 
HTMLhttp://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top







Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha seus 
"findnodes" e compor seu objeto na mao, frente a soluções como Web::Scraper e 
Mojo::DOM, acho que ele ficou pra trás. =/






**Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath mesmo =P

[]s,

Marcio Ferreira

skype: marcio.ferreir4

(21) 8365-7768



2013/4/3 Nuba Princigalli <n...@fastmail.fm>











On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:

Também há o HTML::TreeBuilder (mas um pouco mais complicado de "gerenciar" o 
workflow).


 
Já usei e recomendo o https://metacpan.org/module/HTML::TreeBuilder::XPath

 
--

Nuba R. Princigalli  n...@pauleira.com  http://pauleira.com  @nprincigalli

Discipline is not an end in itself, just a means to an end. - King Crimson

 




_______________________________________________

Rio-pm mailing list

Rio-pm@pm.org

http://mail.pm.org/mailman/listinfo/rio-pm



_______________________________________________

Rio-pm mailing list

Rio-pm@pm.org

http://mail.pm.org/mailman/listinfo/rio-pm




-- 
Tiago B. Peczenyj
Linux User #405772



http://about.me/peczenyj


_______________________________________________

Rio-pm mailing list

Rio-pm@pm.org

http://mail.pm.org/mailman/listinfo/rio-pm



-- 
André Garcia Carneiro
Software Engineer

(11)982907780


-----Anexo incorporado-----

_______________________________________________
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm

_______________________________________________
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm

Re: [Rio-pm] xpath

Responder a