Recursos do pólo de Braga

Outros recursos desenvolvidos no pólo de Braga poderão estar disponíveis em CVS, mas ainda não documentados na página. Existem mais recursos disponíveis nos catálogo de recursos ou ferramentas na página da Linguateca. Lista de recursos disponíveis localmente:

Floresta Sintáctica

A Floresta Sintáctica (FS) é o primeiro treebank para a língua portuguesa: um banco de árvores sintacticamente analisadas pelo analisador sintáctico PALAVRAS de texto jornalístico (proveniente dos corpora CETEMPúblico e CETENFolha), criado em colaboração com projecto VISL

O pólo de Braga mantêm um conjunto de ferramentas para análise, validação, e processamento da FS em CVS, especialmente ferramentas de conversão da FS, para permitir a pesquisa da FS noutros formatos de representação de dados.

Dicionários de português europeu

Vários formatos do dicionário de português europeu opensource está disponível nesta página: Dicionários pt_PT

Para uso online veja o WebJspell

WebJspell

O WebJspell é uma recurso online que disponibiliza análise morfológica de palavras, correcção ortográfica de palavras ou frases, verificação de páginas html online, e sugestão de palavras.

Este recurso usa o analisador morfológico Jspell, disponível no servidor do Natura.

NATools - Alinhamento de Corpora à Palavra

O NATools desenvolvido por Alberto Simões, permite a consulta e uso em geral de corpora paralelos, o que requerem que estes se encontrem de alguma forma interligados, nomeadamente o alinhamento ao nível da frase, segmento ou da palavra. O NATools inclui um alinhador à frase e um outro à palavra.

Além dos alinhadores, o NATools contém um conjunto de ferramentas para tirar partido dos corpora alinhados, tais como: um gerador de dicionários probabilísticos consultáveis via rede, um módulo de classificação/avaliação da probabilidade de tradução de dois textos, um extractor de terminologia bilingue multi-palavra e um protótipo de uma ferramenta de tradução por exemplo: example-based machine translation.

Memórias de Tradução Distribuídas

O conceito denominado Memórias de Tradução Distribuídas (MTD), em muito semelhante à concepção das aplicações peer-to-peer. É habitual os tradutores usarem ferramentas proprietárias de tradução que usam como memória as traduções já efectuadas, mas este processo é demasiado pessoal, já que os programas actuais não permitem a fácil partilha destas memórias.

As MTD pretendem ser um serviço na rede prestado quer por empresas de tradução, comunidades de tradutores ou mesmo tradutores independentes em que cada tradutor possa, através da rede, consultar as memórias de outros tradutores. Este serviço (ainda protótipo) está implementado na tecnologia dos Web services e pretendemos vir a incorporá-lo em ferramentas de tradução de domínio público.

Contactar o Alberto Simões para mais informações

Corpus do Museu da Pessoa

O Museu da Pessoa (MP) é um projecto com vista a preservar a história oral dos povos. Surgiu com o Museu da Pessoa Brasileiro, e depressa se expandiu para o Museu da Pessoa Português. O MP é visto como um museu virtual, em que as peças em exposição não são mais do que histórias da pessoa anónima, ou seja, de todos nós que fazemos parte da história da nossa cidade e país, mas que não teríamos de outra forma a possibilidade de contar a nossa experiência de vida.

A Linguateca associou-se ao MP Português para tirar partido das histórias recolhidas, por constituírem uma fonte interessantíssima de corpora orais, que podem ser usados em diferentes estudos, desde o estudo da terminologia usada em diferentes zonas do país, das diferentes formas de expressão dos vários extractos sociais, até ao estudo activo do léxico.

O Corpus Museu da Pessoa (CMP) pretende coleccionar um conjunto de entrevistas do Museu da Pessoa, Núcleo Português, transcritas de entrevista oral, com o intuito de manter alguma oralidade na transcrição.

O CMP está dividido em vários documentos XML, um por cada entrevista.

Corpus para download: CMP-bruto.tar.gz (0.8 MB)