Utilizar el tipo de documento no estructurado
- Última actualización2024/10/31
Utilizar el tipo de documento no estructurado
Puede utilizar el tipo de documento no estructurado para extraer datos de documentos no estructurados que carecen de un formato estándar, de un diseño fijo o de datos sin etiquetas.
El modelo utiliza una combinación de capacidades de OCR con procesamiento de lenguaje natural (NLP) y tecnologías de IA generativa para realizar análisis semántico y extraer pares clave-valor y datos de tablas de los documentos no estructurados.
Los siguientes son algunos ejemplos de documentos no estructurados:
- Documentos legales
- Correspondencia (incluidos correos electrónicos)
- Informes
Este modelo ofrece la opción de seleccionar entre los siguientes proveedores de IA generativa:
- OpenAI
- Usar esta opción proporciona las siguientes capacidades:
- Encargarse de una amplia variedad de tareas.
- Administrar los documentos tanto en inglés como en otros idiomas.
- Admitir capacidades multimodales.
- Incorporar capacidades de ajuste para ciertos modelos.
- Anthropic
- Usar esta opción proporciona las siguientes capacidades:
- Procesar de manera eficiente los documentos grandes y no estructurados.
- Administrar los documentos tanto en inglés como en otros idiomas.
- Procesar con mayor rapidez los documentos durante la extracción de datos más precisa.
Los proveedores de IA generativa ofrecen inteligencia generalizada, lo que significa que no existe un entrenamiento específico de la instancia ni se requiere un modelo de aprendizaje para diferentes tipos de documentos. En su lugar, al configurar una instancia de aprendizaje, los usuarios deben optimizar los mensajes de consulta para identificar y definir cómo se deben extraer los datos de los documentos. Por ejemplo, puede definir los siguientes ejemplos de mensajes para recuperar datos específicos de contratos y acuerdos:
- ¿Cuál es la fecha de vigencia del contrato?
- ¿Cuál es el número de referencia?
- ¿Cuál es la fecha de vigencia del contrato? Proporcione la respuesta en formato DD/MM/AAAA.
- ¿Cuál es el número de referencia? Debe seguir este patrón: AAA-12345.
-
¿Hay impuestos sin pagar a la fecha de vigencia del acuerdo? Responda “Sí” o “No”.
Nota: Si el mensaje de consulta está vacío, los resultados de la extracción o la salida también lo estarán. A veces, puede optar por dejar un mensaje vacío como marcador de posición de datos cuando el flujo de trabajo implica el procesamiento posterior de datos. Un ejemplo de este caso sería si desea recuperar datos de una base de datos y usarlos en el campo para compararlos.
Los campos de formularios y tablas definidos por el sistema no están disponibles, ya que el tipo de documento no estructurado no utiliza un formato estándar o un diseño fijo, o carece de datos sin etiquetas. Debe definir todos los campos de formularios y tablas que requieren extracción de datos cuando configure una instancia de aprendizaje.
En el caso de los clientes que deseen utilizar instancias privadas de Nube de modelos de IA generativa en Microsoft Azure, AWS o GCP, pueden conectarse a los modelos en su Nube privada. Consulte Conectar sus propios servicios de IA generativa.