898 Shares 8879 views

O que é Lingüística de Corpus?

Apenas algumas décadas atrás para automatizar a investigação linguística, os cientistas só podiam sonhar. O trabalho foi feito à mão, que atrai um grande número de estudantes, há uma probabilidade substancial de erros "descuidados", e mais importante – tudo isso levou um longo, longo tempo.

Com o desenvolvimento da tecnologia informática tornou-se possível realizar pesquisas sobre a ordem de grandeza mais rápido, e hoje uma das direções mais promissoras no estudo da linguagem é um corpus lingüística. Sua principal característica é o uso de grandes quantidades de informações de texto, informações em um único banco de dados, de uma maneira especial e chamou o corpo marcado.

Até o momento, existem muitos edifícios criados com finalidades diferentes, com base em vários materiais linguística abrangendo de milhões para dezenas de bilhões de unidades lexicais. Essa direção é reconhecido como um promissor e demonstra progressos significativos para efeitos de aplicação e de pesquisa. Especialistas, de uma forma ou outra lidar com a linguagem natural, recomenda-se a se familiarizar com o corpo de textos, pelo menos em um nível básico.

História da linguística de corpus

A formação dessa tendência é devido à criação dos Estados Unidos para o corpo Brown no início dos anos 60-s do século passado. A coleção inclui os textos de todos os 1 milhão de formas de palavras, e hoje o corpo deste tamanho seria totalmente não competitivo. Isto é principalmente devido ao ritmo de desenvolvimento da tecnologia informática, bem como a crescente demanda por novos recursos de pesquisa.

Na década de 90 linguística de corpus surgiram em uma disciplina completa e independente, uma coleção de textos foram elaborados e marcados para dezenas de idiomas. Neste período ele foi criado, por exemplo, os British National Corpus 100 milhões de tokens.

Com o desenvolvimento desta área da linguística, volumes de texto estão se tornando mais e mais (e chegar a bilhões de unidades de dicionário), eo layout é cada vez mais diversificada. Até à data, o espaço Internet podem ser encontradas carcaças escrita e língua falada, multilíngue e literatura artística ou acadêmica orientada para a aprendizagem, bem como muitas outras espécies.

O que são a habitação

tipos de corpo em lingüística do corpo podem ser fornecidos por várias razões. Intuitivamente, a base para a classificação pode ser uma linguagem de texto (russo, alemão), o modo de acesso (open source, fechou, comercial), o gênero do material de origem (ficção, documentário, acadêmica, jornalismo).

maneira interessante gera materiais de linguagem falada. Desde a gravação deliberada de tal discurso para criar um ambiente artificial para os respondentes, e o material resultante não poderia ser chamado de "espontânea", modernos linguística de corpus tem ido por outro caminho. Um voluntário equipado com um microfone, e durante o dia produziu um registo de todas as conversas, em que participa. As pessoas em volta, é claro, não pode saber que, no curso de conversação diária contribui para o desenvolvimento da ciência.

Mais tarde recebeu registro armazenado no banco de dados e são acompanhados por impressa tipo de texto transcrito. Assim, torna-se possível a marcação necessária para criar um invólucro discurso oral diária.

aplicação

Sempre que possível o uso da linguagem, e talvez o uso de edifícios textos. Métodos para aplicar o casco em lingüística podem ser:

  • Criação de um programa que determina a chave, é amplamente utilizado na política e de negócios para manter o controle de respostas positivas e negativas de eleitores e clientes, respectivamente.
  • sistema de informações de conexão para dicionários e tradutores para melhorar seu desempenho.
  • Uma variedade de tarefas de investigação que contribuam para a compreensão da unidade de linguagem, a história de seu desenvolvimento e previsão de mudanças no futuro próximo.
  • Desenvolvimento de sistemas de recuperação de informação com base nas características morfológicas, sintáticas, semânticas e outros.
  • Otimização dos diferentes sistemas lingüísticos e outros.

Utilização de edifícios

interface de recurso semelhante com um motor de busca normal, e solicita que o usuário digite uma palavra ou combinação de palavras para pesquisar a base de informações. Além formar a consulta exata pode usar a versão melhorada, que permite encontrar informações textuais em praticamente todos os critérios lingüísticos.

base de pesquisa podem ser:

  • pertença a um grupo particular de partes de fala;
  • características gramaticais;
  • semântica;
  • coloração estilística e emocional.

Você também pode combinar critérios de pesquisa para uma sequência de palavras, por exemplo, para localizar todas as ocorrências do verbo no presente do indicativo primeira pessoa, singular, que vem depois a preposição "em" e o substantivo no caso acusativo. A solução para uma tarefa tão simples leva o usuário alguns segundos e requer apenas alguns cliques do mouse nos campos especificados.

O processo de criação

A busca em si pode ser realizado em todas as subcorpus e escolhido especificamente, dependendo das necessidades para alcançar um objetivo particular:

  1. O primeiro passo é a definir quais os textos formam a base para o caso. Para fins práticos, é frequentemente usado jornalísticos, notícias, comentários online. O projeto de pesquisa é o uso de uma ampla variedade de tipos de pacotes, mas o texto deve ser selecionado de acordo com alguns pontos em comum.
  2. A coleção resultante de textos submetidos a tratamento prévio, não há correção de erros, se houver, preparado pela descrição bibliográfica e extra-linguística do texto.
  3. É eliminado todas as informações não textuais: Limpa os gráficos, imagens, tabelas.
  4. É uma alocação de tokens, que são tipicamente discurso, para processamento posterior.
  5. Finalmente, procedeu pluralidade morfológica, sintática e outras marcações obtido de elementos.

O resultado de todas as transacções realizadas por uma estrutura sintáctica com nele dispersado de uma pluralidade de elementos, cada um dos quais é identificado parte do discurso, gramatical e, em alguns casos, os atributos semânticos.

Dificuldades na criação de edifícios

É importante compreender que não é suficiente para montar um conjunto de palavras ou frases para o corpo. Por um lado, uma coleção de textos deve ser equilibrada, isto é, representam diferentes tipos de textos em determinadas proporções. Por outro lado – o conteúdo do invólucro devem ser espaçadas de um modo especial.

O primeiro problema é resolvido por um acordo: por exemplo, na coleção inclui 60% de textos literários, 20% dos documentários, uma certa percentagem é dada uma representação escrita da língua falada, legislação, trabalhos científicos, etc. perfeito receita corpo equilibrado hoje não existe …

A segunda questão, relativa ao layout de conteúdo, resolver um desafio. Existem programas especiais e algoritmos utilizados para a marcação automática de textos, mas eles não dão um resultado perfeito, pode causar interrupções e exigem retrabalho manual. Oportunidades e desafios em lidar com este problema são descritos em detalhes em um artigo V. P. Zaharova de linguística de corpus.

marcação de texto é implementado em vários níveis, que listamos abaixo.

marcação morfológica

Da escola, lembramos que na língua russa, há diferentes partes do discurso, e cada um deles tem suas próprias características. Por exemplo, o verbo tem categorias de inclinação e o tempo em que não substantivo. um falante nativo sem hesitação declina substantivos e verbos conjugados, mas para marcar o corpo de 100 milhões. fichas de trabalho manual não vai funcionar. Todas as operações necessárias pode executar o computador, no entanto, para isso, ele precisa ser ensinado.

marcação morfológica, o computador deve "entender" cada palavra como uma determinada parte do discurso ter certas características gramaticais. Desde o russo (e qualquer outra língua) opera uma série de regras regulares, é possível construir um procedimento automático para a análise morfológica, investindo no carro para uma série de algoritmos. No entanto, há exceções à regra, bem como vários fatores complicadores. Como resultado, a análise de computador líquido de hoje está longe do ideal, e mesmo 4 erro% produz um valor de 4 mi. Palavras sobre o corpo de 100 milhões. Units, exigindo retrabalho manual.

livro detalhado descreve o problema Zaharova V. P. "Corpus Linguistics".

anotação sintática

Análise ou análise – um procedimento que determina a relação de palavras em uma frase. Usando um conjunto de algoritmos é possível determinar o texto do sujeito, predicado, adições, múltiplas voltas de discurso. Descubra quais palavras são da sequência principal, e que – dependente, que pode efetivamente extrair informações de texto e para ensinar a máquina a emitir em resposta a uma solicitação de pesquisa apenas as informações nos interessante.

By the way, modernos motores de busca usar isso para dar números específicos, em vez de longos textos em resposta às consultas pertinentes, tais como "quantas calorias em uma maçã" ou "a distância de Moscou para São Petersburgo." No entanto, para entender até mesmo as noções básicas do processo descrito pela necessidade de consultar o "Introdução à Linguística de Corpus" ou outro tutorial básico.

marcação semântica

A semântica da palavra – é, em termos simples, o significado. abordagem amplamente aplicável à análise semântica de uma atribuição palavra etiquetas, refletindo sua pertença a um conjunto de categorias semânticas e subcategorias. Tal informação é valiosa para otimizar algoritmos analisar tom texto, sumarização automática e outras tarefas métodos de linguística de corpus.

Há uma série de "raiz" da árvore, o que representa uma palavra abstrata com uma grande semântica. Como um ramo dos nós da árvore são formadas, contendo cada vez mais específicos elementos lexicais. Por exemplo, a palavra "criatura" pode estar associada a conceitos como "humano" e "animal". A primeira palavra vai continuar a ramificar-se em diferentes profissões, termos de parentesco, nacionalidade, eo segundo – em classes e tipos de animais.

A utilização de sistemas de recuperação de informação

Áreas de utilização da linguística de corpus cobrem diversas áreas de actividade. Caixas são utilizados para a elaboração e correcção de dicionários, criar sistemas de tradução automática, anotação recuperar fatos, determinando o tom e outros processamentos de texto.

Além disso, esses recursos são usados ativamente no estudo de línguas e os mecanismos de funcionamento da linguagem em geral mundo. Acesso a grandes volumes de informação pré-preparado facilita estudo rápida e abrangente das tendências de linguagens de desenvolvimento e mudança neologismos formação estáveis velocidade discurso valoriza unidades lexicais e outros.

Desde o trabalho com tais grandes quantidades de dados requer automação, hoje há uma estreita interacção entre o computador e corpus lingüística.

Corpus Nacional Russa

Neste caso (abreviado NKRYA) inclui uma série de subcorpus, permitindo o uso de um recurso para uma grande variedade de tarefas.

Os materiais no banco de dados são divididos NKRYA:

  • a publicações em 90 e 2000 dos media, tanto nacionais como estrangeiros;
  • a gravação de voz;
  • aktsentologicheski marcado textos (isto é, as marcas de tensão);
  • discurso dialeto;
  • poesia;
  • Materiais com marcas sintáticas e outros.

O sistema de informação também inclui subcorpus com traduções paralelas de obras do russo para o Inglês, alemão, francês e muitas outras línguas (e vice-versa).

Também no banco de dados, há uma seção de textos históricos, representando o discurso escrito em russo em diferentes períodos do seu desenvolvimento. Há também um organismo de formação, que pode ser útil para os cidadãos estrangeiros em dominar o idioma russo.

Russian Corpus Nacional compreende 400 milhões de unidades lexicais, e de muitas maneiras à frente de uma parte significativa das línguas dos corpos Europa.

perspectivas

Fato, em favor do reconhecimento dessa tendência é a disponibilidade de prometendo linguística de corpus de laboratório em universidades russas, bem como estrangeira. Com o uso de e de investigação no âmbito desta informação e busca recursos implica o desenvolvimento de determinadas áreas no domínio das altas tecnologias, sistemas de responder à pergunta, mas é discutido acima.

Desenvolvimento da linguística de corpus é previsto em todos os níveis, que variam de técnico e em termos de implementação de novos algoritmos que otimizam os processos de pesquisa e processamento de informação, capacitando computadores, mais RAM, e para o consumidor, porque os usuários estão mais e mais maneiras de usar este tipo de recurso em seu diário vida e obra.

em conclusão

No meio do século passado, em 2017 parecia futuro distante, onde as naves espaciais viajam através do universo e robôs fazem todo o trabalho para as pessoas. Na verdade, a ciência está repleta de "manchas brancas" e fazer tentativas desesperadas para responder às perguntas da humanidade durante séculos perturbador. Perguntas funcionamento da linguagem aqui ocupar um lugar de honra, e do gabinete e computacionais lingüística pode nos ajudar a respondê-las.

Processamento de grandes conjuntos de dados pode detectar padrões, anteriormente inacessíveis, prever o desenvolvimento de recursos de linguagem específicos para controlar a formação de palavras em tempo quase real.

Em um nível prático, os recintos globais pode ser visto, por exemplo, como um potencial instrumento para avaliar o humor do público – A Internet é um constantemente atualizados base vários textos diários criados por usuários reais: este observações e comentários, e artigos, e muitas outras formas de discurso.

Além disso, trabalhar com os órgãos contribui para o desenvolvimento do mesmo hardware, que estão envolvidos na recuperação da informação, estamos familiarizados com o serviço "Google" ou "Yandex", tradução automática, dicionários eletrônicos.

Podemos confiantemente afirmar que a linguística de corpus faz apenas os primeiros passos, e no futuro próximo, irá florescer.