Extrakce s Azure Document Intelligence

Azure AI nejprve převede dokument na text (OCR), který pak LLM model převede do JSON

Postup:
  1. Azure Document Intelligence přečte dokument pomocí OCR → Markdown
  2. LLM model (Ollama/ChatGPT) převede markdown → strukturovaný JSON
Schéma definuje, jaká data se budou z dokumentu extrahovat
Pro převod markdown→JSON nepoužíváme vision modely, takže je to rychlejší a levnější
Podporované formáty: PDF, JPG, PNG, GIF, BMP, TIFF (max 10 MB)