lucataco/florence-2-base

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

Capabilities

Reference Images

Community model (estimated from hardware time)

Name	Type	Description	Default	Constraints
`image`*	string(uri)	Grayscale input image	`—`	—
`task_input`	string	Input task	`"Caption"`	CaptionDetailed CaptionMore Detailed CaptionCaption to Phrase GroundingObject DetectionDense Region CaptionRegion ProposalOCROCR with Region
`text_input`	string	Text Input(Optional)	`—`	—

imagerequiredstring

Grayscale input image

task_inputstring

Input task

Default: "Caption"

CaptionDetailed CaptionMore Detailed CaptionCaption to Phrase GroundingObject DetectionDense Region CaptionRegion ProposalOCROCR with Region

text_inputstring

Text Input(Optional)

Version: c81609117f66Updated: 7/25/2026132.3K runs