Minicurso: Prática em Laboratório
Título: Extração de Informação em Bases Textuais utilizando Expressões Regulares
Local: Faculdade de Tecnologia e Ciências de Vitória da Conquista
Dia: 28/10/2011, sexta-feira
Horário: 18:30 - 22:30
Resumo: Existe um grande volume de informação em formato textual sendo publicada cada vez mais em meios eletrônicos. Assim, com o passar do tempo, o ser humano fica cada vez mais restringido a uma limitada quantidade de texto que é capaz de processar e assimilar. No sentido de auxiliar na identificação e extração das informações relevantes de um texto será apresentado neste minicurso As Expressões Regulares. Uma expressão regular é um método formal de se especificar um padrão de texto (JARGAS, 2009). Também pode ser considerada uma composição de símbolos, caracteres com funções especiais, que, agrupados entre si e com caracteres literais, formam uma sequência, uma expressão. Essa expressão é interpretada como uma regra, que indicará sucesso se uma entrada de dados qualquer “casar” com essa regra, ou seja, obedecer exatamente a todas as suas condições.
Recursos
Programas:
- ftc-Etiquetador: Etiquetador morfossintático em Java
- ftc-ER: Testador de Expressão Regular em Java
Bases Textuais:
Slides e Materiais Relacionados
Padrões Textuais:
- Respostas dos padrões apresentados nos slides 64, 65, 66 e 67
Exemplos de Expressões Regulares:
- Exemplos de ER utilizadas em Editor de Texto (slide 24) e em Navegador de Internet (slide 26)
Ambientes de Teste
Piazinho: Exemplos interativos de Expressões Regulares (Recomendo utilizar este aqui!!!)
Outros Ambientes:
Referências
FRIEDL, J. E. F. Mastering Regular Expressions. 3 ed. USA: O'Reilly Media, 2006. 544 p.
GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide information growth through 2010. IDC Whitepaper, 2007.
JARGAS, A. M. Expressões Regulares: Uma Abordagem Divertida. 3 ed. São Paulo: Novatec, 2009. 208p. Disponível em: http://aurelio.net/er/. Acesso em: 10 out. 2011.
JARGAS, A. M. Expressões regulares: guia de consulta rápida. 2001. Disponível em: http://aurelio.net/regex/guia. Acesso em: 10 out. 2011.
MARCUS, M. P.; MARCINKIEWICZ, M. A.; SANTORINI, B. Building a large annotated corpus of English: the penn treebank. Computational Linguistics, v. 19, n. 2, p. 313-330, 1993.
ORACLE. Java platform API specification: standard edition 6. 2011. Disponível em: http://download.oracle.com/javase/6/docs/api/. Acesso em: 03 de out. 2011.
THE STANFORD NATURAL LANGUAGE PROCESSING GROUP. Stanford log-linear part-of-speech tagger. 2011. Disponível em: http://nlp.stanford.edu/software/tagger.shtml. Acesso em: 05 out. 2011.
TAGSET. Penn Treebank Tagset. 2011. Disponível em: http://www.computing.dcu.ie/~acahill/tagset.html. Acesso em: 05 out. 2011.