Pablo Freire Matos, MSc - Extração de Informação utilizando Expressões Regulares (simSIS)

Minicurso: Prática em Laboratório

Título: Extração de Informação em Bases Textuais utilizando Expressões Regulares

Local: Faculdade de Tecnologia e Ciências de Vitória da Conquista

Dia: 28/10/2011, sexta-feira

Horário: 18:30 - 22:30

Resumo: Existe um grande volume de informação em formato textual sendo publicada cada vez mais em meios eletrônicos. Assim, com o passar do tempo, o ser humano fica cada vez mais restringido a uma limitada quantidade de texto que é capaz de processar e assimilar. No sentido de auxiliar na identificação e extração das informações relevantes de um texto será apresentado neste minicurso As Expressões Regulares. Uma expressão regular é um método formal de se especificar um padrão de texto (JARGAS, 2009). Também pode ser considerada uma composição de símbolos, caracteres com funções especiais, que, agrupados entre si e com caracteres literais, formam uma sequência, uma expressão. Essa expressão é interpretada como uma regra, que indicará sucesso se uma entrada de dados qualquer “casar” com essa regra, ou seja, obedecer exatamente a todas as suas condições.

Recursos

Programas:

ftc-Etiquetador: Etiquetador morfossintático em Java
ftc-ER: Testador de Expressão Regular em Java

Bases Textuais:

Slides e Materiais Relacionados

Slides do Minicurso

Padrões Textuais:

Respostas dos padrões apresentados nos slides 64, 65, 66 e 67

Exemplos de Expressões Regulares:

Exemplos de ER utilizadas em Editor de Texto (slide 24) e em Navegador de Internet (slide 26)

Ambientes de Teste

Piazinho: Exemplos interativos de Expressões Regulares (Recomendo utilizar este aqui!!!)

Outros Ambientes:

Referências

FRIEDL, J. E. F. Mastering Regular Expressions. 3 ed. USA: O'Reilly Media, 2006. 544 p.

GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide information growth through 2010. IDC Whitepaper, 2007.

JARGAS, A. M. Expressões Regulares: Uma Abordagem Divertida. 3 ed. São Paulo: Novatec, 2009. 208p. Disponível em: http://aurelio.net/er/. Acesso em: 10 out. 2011.

JARGAS, A. M. Expressões regulares: guia de consulta rápida. 2001. Disponível em: http://aurelio.net/regex/guia. Acesso em: 10 out. 2011.

MARCUS, M. P.; MARCINKIEWICZ, M. A.; SANTORINI, B. Building a large annotated corpus of English: the penn treebank. Computational Linguistics, v. 19, n. 2, p. 313-330, 1993.

ORACLE. Java platform API specification: standard edition 6. 2011. Disponível em: http://download.oracle.com/javase/6/docs/api/. Acesso em: 03 de out. 2011.

THE STANFORD NATURAL LANGUAGE PROCESSING GROUP. Stanford log-linear part-of-speech tagger. 2011. Disponível em: http://nlp.stanford.edu/software/tagger.shtml. Acesso em: 05 out. 2011.

TAGSET. Penn Treebank Tagset. 2011. Disponível em: http://www.computing.dcu.ie/~acahill/tagset.html. Acesso em: 05 out. 2011.