253 Shares 4368 views

Trabalhando com texto. Como determinar a codificação do arquivo

Vamos descobrir o que codificação de arquivo. Simplificando, a codificação é considerado como um conjunto de caracteres de dois bytes, o que corresponde à letra do alfabeto em um idioma específico. Cada idioma tem a sua própria seqüência específica de codificação de símbolos. Às vezes há uma necessidade de especificar a codificação. Considere isso como um exemplo de um documento de texto.


O que você precisa

Um conjunto de software específico. Para começar, basta digitar aplicações Word, KWrite, o navegador Firefox e ferramentas de reconhecimento – enca.

Determinar a codificação do arquivo, você pode usar o editor Microsoft Word genérico. Primeiro, você precisa instalá-lo a partir do Office. Quando o aplicativo é instalado, e pode ser aberto por meio de ícones um símbolo W na área de trabalho, vá para a próxima etapa.

A próxima etapa do reconhecimento

Através das aplicações da barra de navegação, por sua vez vá para "File" – "Open". O mesmo pode ser feito usando uma combinação de teclado Ctrl + O.

Em seguida, na caixa de diálogo, selecione o diretório e, na verdade, um arquivo para leitura. Selecione com o mouse, clique no "descoberta".

Quando um conjunto de arquivos partidas são CP1251, a aplicação tenta determinar sua própria codificação. uma lista de possíveis correspondências serão exibidos. O conjunto proposto de caracteres à direita da lista, escolha uma das codificações. Se a escolha é feita corretamente, a itens "amostra" são exibidos texto reconhecido.

Como para determinar o meio de codificação KWrite

Além do pré-processador para processamento de texto, Word, há outra utilidade funcional. Um deles – KWrite (analógico para UNIX-sistemas). Então você não está confuso, sinal para os pontos da tarefa "para determinar a codificação do documento em KWrite».

  1. Baixe a apresentar um pedido com a extensão .txt.
  2. codificações busto, enquanto um deles seria adequado.
  3. Execute o passo 2, vá para a opção de menu ferramentas na codificação.

navegador Mozilla Firefox, o objetivo é o mesmo – para determinar a codificação de caracteres

O princípio é o mesmo que em utilitários para trabalhar com texto. Execute o navegador instalar para executar, e se ele não estiver instalado – o download do instalador do mozilla.org.

Então você precisa para abrir um documento de texto em uma janela aberta, através do menu "Arquivo", submenu "Abrir arquivo". Se o arquivo selecionado é exibido sem distorção, eo texto legível, definir a codificação não é difícil.

Para fazer isso, vá para o "View" – "codificação", não é exibido alguns conjuntos de caracteres, ea um deles, na frente do qual está um "tick", e há uma certa codificação de browser.

Se o texto não é reconhecido corretamente, selecione "Considerações adicionais", experimento com ele codificações ou selecione "Auto".

software especializado – estamos trabalhando com enca

Há uma série de meios electrónicos auxiliares, tornando possível definir a codificação do texto simples.

Para aqueles que estão acostumados a trabalhar sob o unix, utilidade enca adequado. Ele pode ser instalado usando o serviço "Gerenciador de Pacotes". Encontrar uma categoria pacote acessível, você pode proceder para instalar o software.

Para exibir a lista de idiomas de reconhecimento, execute enca línguas –list, usando o terminal.

Se você deseja definir a codificação do arquivo de texto após a tecla (g), digite um nome e, em seguida, a opção (L) da mesma maneira, digite o idioma de reconhecimento:

enca -L /home/vic/temp/myfile.txt -g russa.

Para resumir a codificação acima

Eu acredito que os utilitários acima será suficiente para o usuário um conjunto de ferramentas para a descodificação de documentos de texto.

Até agora, na verdade, é tudo sobre como reconhecer a codificação. Para efeitos da norma, penso eu, o software é bom. Existem também métodos mais especializados de determinação, mas que estão fora do âmbito deste artigo.

Para o Microsoft Word reconhecimento fonte do programa pode ser um texto tão simples e documentos com formatação complexa.