Trabalhando com texto. Como determinar a codificação do arquivo
Vamos descobrir o que codificação de arquivo. Simplificando, a codificação é considerado como um conjunto de caracteres de dois bytes, o que corresponde à letra do alfabeto em um idioma específico. Cada idioma tem a sua própria seqüência específica de codificação de símbolos. Às vezes há uma necessidade de especificar a codificação. Considere isso como um exemplo de um documento de texto.
O que você precisa
Um conjunto de software específico. Para começar, basta digitar aplicações Word, KWrite, o navegador Firefox e ferramentas de reconhecimento – enca.
Determinar a codificação do arquivo, você pode usar o editor Microsoft Word genérico. Primeiro, você precisa instalá-lo a partir do Office. Quando o aplicativo é instalado, e pode ser aberto por meio de ícones um símbolo W na área de trabalho, vá para a próxima etapa.
A próxima etapa do reconhecimento
Através das aplicações da barra de navegação, por sua vez vá para "File" – "Open". O mesmo pode ser feito usando uma combinação de teclado Ctrl + O.
Em seguida, na caixa de diálogo, selecione o diretório e, na verdade, um arquivo para leitura. Selecione com o mouse, clique no "descoberta".
Quando um conjunto de arquivos partidas são CP1251, a aplicação tenta determinar sua própria codificação. uma lista de possíveis correspondências serão exibidos. O conjunto proposto de caracteres à direita da lista, escolha uma das codificações. Se a escolha é feita corretamente, a itens "amostra" são exibidos texto reconhecido.
Como para determinar o meio de codificação KWrite
Além do pré-processador para processamento de texto, Word, há outra utilidade funcional. Um deles – KWrite (analógico para UNIX-sistemas). Então você não está confuso, sinal para os pontos da tarefa "para determinar a codificação do documento em KWrite».
- Baixe a apresentar um pedido com a extensão .txt.
- codificações busto, enquanto um deles seria adequado.
- Execute o passo 2, vá para a opção de menu ferramentas na codificação.
navegador Mozilla Firefox, o objetivo é o mesmo – para determinar a codificação de caracteres
O princípio é o mesmo que em utilitários para trabalhar com texto. Execute o navegador instalar para executar, e se ele não estiver instalado – o download do instalador do mozilla.org.
Então você precisa para abrir um documento de texto em uma janela aberta, através do menu "Arquivo", submenu "Abrir arquivo". Se o arquivo selecionado é exibido sem distorção, eo texto legível, definir a codificação não é difícil.
Para fazer isso, vá para o "View" – "codificação", não é exibido alguns conjuntos de caracteres, ea um deles, na frente do qual está um "tick", e há uma certa codificação de browser.
Se o texto não é reconhecido corretamente, selecione "Considerações adicionais", experimento com ele codificações ou selecione "Auto".
software especializado – estamos trabalhando com enca
Há uma série de meios electrónicos auxiliares, tornando possível definir a codificação do texto simples.
Para aqueles que estão acostumados a trabalhar sob o unix, utilidade enca adequado. Ele pode ser instalado usando o serviço "Gerenciador de Pacotes". Encontrar uma categoria pacote acessível, você pode proceder para instalar o software.
Para exibir a lista de idiomas de reconhecimento, execute enca línguas –list, usando o terminal.
Se você deseja definir a codificação do arquivo de texto após a tecla (g), digite um nome e, em seguida, a opção (L) da mesma maneira, digite o idioma de reconhecimento:
enca -L /home/vic/temp/myfile.txt -g russa.
Para resumir a codificação acima
Eu acredito que os utilitários acima será suficiente para o usuário um conjunto de ferramentas para a descodificação de documentos de texto.
Até agora, na verdade, é tudo sobre como reconhecer a codificação. Para efeitos da norma, penso eu, o software é bom. Existem também métodos mais especializados de determinação, mas que estão fora do âmbito deste artigo.
Para o Microsoft Word reconhecimento fonte do programa pode ser um texto tão simples e documentos com formatação complexa.