Unexpected Prediction Result on Zero-Shot VQA Task #41

zsun5 · 2024-09-24T19:23:55Z

Hello,

I am doing a zero-shot evaluation for the VQA task but got unexpected results. The results in _predict.json look like this:

{"question_id": "10", "answer": "no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no"}, {"question_id": "12", "answer": "no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no no"}, {"question_id": "13", "answer": "yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes yes"}, {"question_id": "19", "answer": "<code_2640><code_5423><code_5423><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_279><code_4021><code_4021><code_4021><code_4021><code_4021><code_4021><code_4021><code_4021><code_4021><code_4021><code_4021><code_5151><code_5151><code_5151><code_5151><code_5151><code_5151><code_5151><code_5151><code_5151><code_5151><code_5151><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026><code_3026>"}

When I made zero-shot predictions on my own dataset, the final results were all in the format of <code_xxxx>.
Do you have any idea how I caused the issue?

Thank you very much.

taokz · 2024-09-25T16:44:14Z

This is a common phenomenon in zero-shot settings due to the lack of diverse VQA (instruction-following data) during pretraining, which limits the model’s ability to understand human intent. The <code_xxxx> is the image code used for masked image infilling (a pretraining task), which means the model is mistakenly interpreting the question as a prompt for image infilling.

To address this issue, one option is to use the instruction-tuned checkpoints provided in this repository. Alternatively, I recommend fine-tuning the model for better performance.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Unexpected Prediction Result on Zero-Shot VQA Task #41

Unexpected Prediction Result on Zero-Shot VQA Task #41

zsun5 commented Sep 24, 2024

taokz commented Sep 25, 2024

Unexpected Prediction Result on Zero-Shot VQA Task #41

Unexpected Prediction Result on Zero-Shot VQA Task #41

Comments

zsun5 commented Sep 24, 2024

taokz commented Sep 25, 2024