TrafficInternVL: Spatially-Guided Fine-Tuning with Caption Refinement for Fine-Grained Traffic Safety Captioning and Visual Question Answering

Phimsiri S.; Sunpawatr S.; Cherdchusakulchai R.; Kiawjak P.; Tosawadi T.; Tungjitnob S.; Trairattanapa V.; Vatathanavaro S.; Kudisthalert W.; Utintu C.; Saetan W.; Kongsawat N.; Borisuitsawat P.; Mahakijdechachai K.; Su-Inn N.; Thamwiwatthana E.; Suttichaya V.

TrafficInternVL: Spatially-Guided Fine-Tuning with Caption Refinement for Fine-Grained Traffic Safety Captioning and Visual Question Answering

1

Issued Date

2025-01-01

Resource Type

Conference Paper

DOI

10.1109/ICCVW69036.2025.00559

Scopus ID

2-s2.0-105035187032

Journal Title

Proceedings 2025 IEEE Cvf International Conference on Computer Vision Workshops Iccv W 2025

Start Page

5358

End Page

5365

Rights Holder(s)

SCOPUS

Bibliographic Citation

Proceedings 2025 IEEE Cvf International Conference on Computer Vision Workshops Iccv W 2025 (2025) , 5358-5365

Suggested Citation

Phimsiri S., Sunpawatr S., Cherdchusakulchai R., Kiawjak P., Tosawadi T., Tungjitnob S., Trairattanapa V., Vatathanavaro S., Kudisthalert W., Utintu C., Saetan W., Kongsawat N., Borisuitsawat P., Mahakijdechachai K., Su-Inn N., Thamwiwatthana E., Suttichaya V. TrafficInternVL: Spatially-Guided Fine-Tuning with Caption Refinement for Fine-Grained Traffic Safety Captioning and Visual Question Answering. Proceedings 2025 IEEE Cvf International Conference on Computer Vision Workshops Iccv W 2025 (2025) , 5358-5365. 5365. doi:10.1109/ICCVW69036.2025.00559 Retrieved from: https://repository.li.mahidol.ac.th/handle/123456789/116233

Title

TrafficInternVL: Spatially-Guided Fine-Tuning with Caption Refinement for Fine-Grained Traffic Safety Captioning and Visual Question Answering

Author(s)

Phimsiri S.
Sunpawatr S.
Cherdchusakulchai R.
Kiawjak P.
Tosawadi T.
Tungjitnob S.
Trairattanapa V.
Vatathanavaro S.
Kudisthalert W.
Utintu C.
Saetan W.
Kongsawat N.
Borisuitsawat P.
Mahakijdechachai K.
Su-Inn N.
Thamwiwatthana E.
Suttichaya V.

Author's Affiliation

Carnegie Mellon University
Mahidol University
King Mongkut's Institute of Technology Ladkrabang
Ai and Robotics Ventures

Corresponding Author(s)

Phimsiri S.

Other Contributor(s)

Mahidol University

Abstract

Fine-grained traffic understanding requires both detailed visual descriptions and precise answers to safety-critical questions. We present TrafficInternVl, a framework for fine-grained traffic safety description and question answering, developed for AI City Challenge 2025 Track 2. Our approach is based on the InternVL3-38B vision-language model and integrates four key components: (1) spatially guided visual prompting via bounding-box-based cropping and rendering; (2) Adaptive view selection protocols; (3) low-rank adaptation (LoRA) fine-tuning, updating only 1% of model parameters; and (4) caption refinement for intra-scene consistency. Our model achieves a Caption Score of 32.75 (BLEU-4, METEOR, ROUGE-L, CIDEr averaged) and a VQA accuracy of 83.08 %. Code, prompts, and LoRA weights are released at https://github.com/ARV-MLCORE/TrafficInternVL

Keyword(s)

Computer Science

URI

https://repository.li.mahidol.ac.th/handle/123456789/116233

Collections

Scopus 2025

Full item page

Send Feedback

	Office Hour: Monday-Friday 08.30-12.00 and 13.00-16.30 hrs.
	Phutthamonthon Sai 4 Rd. Salaya, Nakhon Pathom 73170, Thailand
	The office: +66 (2) 800 2680 ext.4306
	thipsuda.van@mahidol.ac.th
	https://repository.li.mahidol.ac.th