Establecer reglas para clasificar documentos o páginas

En este tema, se describe la capacidad de establecer reglas para clasificar documentos o páginas.

Comprender las reglas y su uso

Una regla sirve para determinar la categoría a la que debe asignarse un documento. En el ejemplo siguiente, una regla puede especificar una frase concreta como Anexo y cuando la regla se aplica al texto del documento, si se encuentra esa frase, a la categoría asociada a la regla se le asignará una puntuación alta, como 80, lo que indica una coincidencia fuerte.

[
{
"DocumentTypeID": 0,
"Location": 0,
"Distance": 1,
"Score": 80,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": false,
"TextRulePhrases": [
{
"Text": "Annexure",
"IsNegativePhrase": false,
"PhraseType": 1
}
}
]

Las reglas son útiles cuando se necesita una orientación adicional para mejorar la precisión de un modelo de clasificación a la hora de determinar la categoría de documento más relevante. Aunque técnicamente es posible realizar toda la clasificación mediante reglas, no es la práctica recomendada, ya que la gestión de la configuración de las reglas se convierte en una importante sobrecarga de trabajo, en especial cuando se trata de una gran cantidad de categorías.

Ejemplo de un archivo de reglas

Un archivo de reglas es un esquema json y en formato json como se especifica a continuación. El <filename>.json puede tener varias reglas configuradas. A fin de que un documento se tenga en cuenta durante el proceso de entrenamiento para la clasificación, se debe colocar en una categoría de carpeta de entrenamiento designada, por ejemplo, C:\Factura\Proveedor1.

[
{
"DocumentTypeID": 0,
"Location": 1,
"Distance": 3,
"Score": 90,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": true,
"TextRulePhrases": [
{
"Text": "Annexure",
"IsNegativePhrase": false,
"PhraseType": 1
},
{
"Text": "Terms & Conditions",
"IsNegativePhrase": false,
"PhraseType": 1
},
{
"Text": "Payment Terms",
"IsNegativePhrase": false,
"PhraseType": 1
}
]
},
{
"DocumentTypeID": 2,
"Location": 2,
"Distance": 1,
"Score": 95,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": false,
"TextRulePhrases": [
{
"Text": "Addendum",
"IsNegativePhrase": true,
"PhraseType": 5
}
]
}
]

Propiedades configurables de un archivo de reglas

Configuración Descripción
DocumentTypeID Actualmente, este campo no es compatible. Para cualquier regla que esté en configuración se puede mantener texto estático como 0.
Location
Desde esta configuración se especifica en qué ubicación del texto del documento se aplica la regla. Los valores pueden ser 0, 1, 2 o 3.
  • "Location": 0 Cualquier ubicación: No hay restricciones para encontrar la frase, puede estar en cualquier parte del documento

  • "Location": 1 Primera página: La frase debe estar en la primera página del documento.

  • "Location": 2 Título interno: La frase debe estar en el título interno del texto del documento.
  • "Location": 3 Última página: La frase debe estar en la última página del documento. Si solo se proporcionan algunas páginas al clasificador de reglas de texto, se pasará la última página al clasificador.
Distance
Desde esta configuración, se especifica la distancia entre frases cuando se realiza la búsqueda en el texto del documento. La regla solo coincidirá si la distancia es la especificada en esta configuración. Los valores pueden ser 0, 1, 2 o 3.
  • "Distance": 0 Misma línea de texto: todas las frases deben estar en la misma línea de texto.
  • "Distance": 1 Siguiente línea de texto: Todas las frases deben estar en la misma línea de texto o tener como máximo un salto de línea entre ellas.
  • "Distance": 2 Mismo párrafo: Todas las frases deben estar dentro del mismo párrafo de texto.
  • "Distance": 3 Misma página: Todas las frases deben estar en la misma página.
Score Una vez que se realiza la coincidencia de una regla, se asigna una puntuación a la categoría (o carpeta de entrenamiento) asociada a dicha regla. El valor de la puntuación puede estar entre -100 y 100.
KBGuid Actualmente, este campo no es compatible. Para cualquier regla que esté en configuración, se puede mantener texto estático como 00000000-0000-0000-0000-000000000000
IsEnabled Esto permite habilitar o inhabilitar la regla con la configuración detrue O false, respectivamente.
ExpectExactSequence
Cuando se buscan varias frases en una regla, desde esta configuración se especifica la coincidencia basada en la secuencia exacta. Por ejemplo, si se establece true en el ejemplo,"Text": "Annexure", "Text": "Terms & Conditions", y "Payment Terms" deben estar presentes en el texto del documento en este orden para que la regla coincida. Es posible que haya otro texto entre estas frases, pero es importante que su orden sea consecutivo, con una a continuación de la otra.
Nota: A menos que esté muy claro que la secuencia esperada seguirá un patrón específico, se recomienda conservar esta configuración en false

TextRulePhrases

TextRulePhrases contiene todos los valores de texto de la frase que deben buscarse en el texto del documento. Puede tener uno o más valores de texto de la frase.

Text Text: especifica el valor de texto de la frase que debe buscarse en el texto del documento
IsNegativePhrase IsNegativePhrase: especifica si la condición de búsqueda es de tipo frase negativa. Cuando se establece true en el ejemplo, esto significará que "Text": "Addendum"no está presente en el texto del documento para que la regla coincida.
PhraseType PhraseType especifica el tipo de coincidencia que se usará cuando se busque el valor de texto de la frase en el texto del documento

"PhraseType": 1 La coincidencia parcial permite usar cierta tolerancia en la coincidencia de palabras. Una frase coincide si la distancia Levenshtein es >= 80 %. Para una palabra de 5 caracteres, esto significa que 1 carácter puede ser diferente.

"PhraseType": 5 La coincidencia exacta requiere una concordancia exacta de la frase, pero aún ignora las mayúsculas y minúsculas, y también incluye cierto filtrado de puntuaciones.

"PhraseType": 6 La expresión normal permite definir una expresión común que luego se busca en el texto original. Para este tipo de concordancia no se realiza ningún procesamiento previo del texto ni se filtran los caracteres de puntuación.