Question 1

What is the VIdeO-and-Language INference (VIOLIN) dataset?

Accepted Answer

Dataset contains 95,322 video-hypothesis pairs from 15,887 video clips, spanning over 582 hours of video (YouTube and TV shows). Inference descriptions of video content were annotated. Inferences are used to measure entailment vs video clip.

Question 2

Is VIdeO-and-Language INference (VIOLIN) a benchmark?

Accepted Answer

VIdeO-and-Language INference (VIOLIN) is a dataset for training or evaluation; it isn't tracked as a standard LLM benchmark in our catalog.

Question 3

Where can I download VIdeO-and-Language INference (VIOLIN)?

Accepted Answer

VIdeO-and-Language INference (VIOLIN) is available at its source: https://github.com/jimmy646/violin.

VIdeO-and-Language INference (VIOLIN)

About VIdeO-and-Language INference (VIOLIN)

Details

Related Multi-Modal Learning datasets

FAQ