Is an agentic approach necessary in this context?

Fig-Priv vs. current SOTA models: Hover over the images to zoom in!

Original Image

Gemini 2.5 Output

GPT-4o Output

GPTo3 Output

MistralOCR Output

Full Fine-Grained Output — Full Fine-Grained (ours)

Fig-Priv Output — ⭐ Fig-Priv (ours)

Original Image

Gemini 2.5 Output

GPT-4o Output

GPTo3 Output

MistralOCR Output

Full Fine-Grained Output — Full Fine-Grained (ours)

Fig-Priv Output — ⭐ Fig-Priv (ours)

Original Image

Gemini 2.5 Output

GPT-4o Output

GPTo3 Output

MistralOCR Output

Full Fine-Grained Output — Full Fine-Grained (ours)

Fig-Priv Output — ⭐ Fig-Priv (ours)

Original Image

Gemini 2.5 Output

GPT-4o Output

GPTo3 Output

MistralOCR Output

Full Fine-Grained Output — Full Fine-Grained (ours)

Fig-Priv Output — ⭐ Fig-Priv (ours)

Original Image

Gemini 2.5 Output

GPT-4o Output

GPTo3 Output

MistralOCR Output

Full Fine-Grained Output — Full Fine-Grained (ours)

Fig-Priv Output — ⭐ Fig-Priv (ours)

Original Image

Gemini 2.5 Output

GPT-4o Output

GPTo3 Output

MistralOCR Output

Full Fine-Grained Output — Full Fine-Grained (ours)

Fig-Priv Output — ⭐ Fig-Priv (ours)