Índice:
Definição - O que significa Tokenization?
Tokenização é o ato de dividir uma sequência de strings em pedaços, como palavras, palavras-chave, frases, símbolos e outros elementos chamados tokens. Os tokens podem ser palavras, frases ou mesmo frases inteiras. No processo de tokenização, alguns caracteres como sinais de pontuação são descartados. Os tokens se tornam a entrada para outro processo, como análise e mineração de texto.
A tokenização é usada na ciência da computação, onde desempenha um papel importante no processo de análise lexical.
Techopedia explica Tokenização
A tokenização depende principalmente de heurísticas simples para separar os tokens seguindo algumas etapas:
- Tokens ou palavras são separados por espaços em branco, sinais de pontuação ou quebras de linha
- Espaços em branco ou sinais de pontuação podem ou não ser incluídos, dependendo da necessidade
- Todos os caracteres em cadeias contíguas fazem parte do token. Os tokens podem ser compostos de todos os caracteres alfa, alfanuméricos ou apenas caracteres numéricos.
Os próprios tokens também podem ser separadores. Por exemplo, na maioria das linguagens de programação, identificadores podem ser colocados junto com operadores aritméticos sem espaços em branco. Embora pareça que isso apareça como uma única palavra ou token, a gramática da linguagem realmente considera o operador matemático (um token) como um separador; portanto, mesmo quando vários tokens são agrupados, eles ainda podem ser separados por meio da matemática. operador.