Para manipular árvores DOM de documentos HTML (e não XHTML) use o HttpUnit. É ideal para extrair informações mas, a qualidade do HTML pode impedir que você tenha acesso a qualquer campo (por exemplo, HTML "sujo" gerado por Word ou FrontPage). Use o Tidy para transformar o HTML em XHTML e ter maior controle (funciona bem com páginas + ou - bem formadas).
[]s Helder. ----- Original Message ----- From: "Sergio Luiz T. Gomes" <[EMAIL PROTECTED]> To: <[EMAIL PROTECTED]> Sent: Thursday, April 11, 2002 5:39 PM Subject: [java-list] Document Object Model > Preciso acessar uma página HTML e extrair informações, fiquei sabendo que > para isso é usado a API DOM, alguém tem algum exemplo e onde baixar essa API? > > Obrigado. > > --------------------------------------------------------------- > Sergio Luiz Theodorico Gomes - Analista de Sistemas > Softplan - Florianópolis - SC - Grupo SIDER > Sistema da Qualidade Certificado - ISO9001 > BVQI - INMETRO > e-mail: [EMAIL PROTECTED] <mailto:[EMAIL PROTECTED]> > --------------------------------------------------------------- > > ------------------------------ LISTA SOUJAVA ---------------------------- > http://www.soujava.org.br - Sociedade de Usuários Java da Sucesu-SP > dúvidas mais comuns: http://www.soujava.org.br/faq.htm > regras da lista: http://www.soujava.org.br/regras.htm > historico: http://www.mail-archive.com/java-list%40soujava.org.br > para sair da lista: envie email para [EMAIL PROTECTED] > ------------------------------------------------------------------------- > ------------------------------ LISTA SOUJAVA ---------------------------- http://www.soujava.org.br - Sociedade de Usuários Java da Sucesu-SP dúvidas mais comuns: http://www.soujava.org.br/faq.htm regras da lista: http://www.soujava.org.br/regras.htm historico: http://www.mail-archive.com/java-list%40soujava.org.br para sair da lista: envie email para [EMAIL PROTECTED] -------------------------------------------------------------------------