Publications | V3ALab

Debiased Visual Question Answering from Feature and Sample Perspectives

Zhiquan Wen, Guanghui Xu, Mingkui Tan, Qingyao Wui, Qi Wu

September 2021 NeurIPS

PDF Code Video

Landmark-RxR: Solving Vision-and-Language Navigation with Fine-Grained Alignment Supervision

Keji He, Yan Huang, Qi Wu, Jianhua Yang, Dong An, Shuanglin Sima, Liang Wang

September 2021 NeurIPS

PDF Code Video

Neighbor-view Enhanced Model for Vision and Language Navigation

Dong An, Yuankai Qi, Yan Huang, Qi Wu, Liang Wang, Tieniu Tan

July 2021 ACM MM

PDF Code Video

R-GAN: Exploring Human-like Way for Reasonable Text-to-Image Sythesis via Generative Adversarial Networks

Yanyuan Qiao, Qi Chen*, Chaorui Deng, Ning Ding, Yuankai Qi, Mingkui Tan, Xincheng Ren, Qi Wu

July 2021 ACM MM

PDF Code Video

The Road to Know-Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation

Dong An, Yuankai Qi, Yan Huang, Qi Wu, Liang Wang, Tieniu Tan

July 2021 ICCV

PDF Code Video

CogTree: Cognition Tree Loss for Unbiased Scene Graph Generation

Jing Yu, Yuan Chai, Yujing Wang, Yue Hu, Qi Wu

April 2021 IJCAI

PDF Code Video

Proposal-free One-stage Referring Expression via Grid-Word Cross-Attention

Wei Suo, Mengyang Sun, Peng Wang, Qi Wu

April 2021 IJCAI

PDF Code Video

The Road to Know-Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation

Yuankai Qi, Zizheng Pan, Yicong Hong, Ming-Hsuan Yang, Anton van den Henhel, Qi Wu

April 2021 IJCAI

PDF Code Video

A Recurrent Vision-and-Language BERT for Navigation

Yicong Hong, Qi Wu, Yuankai Qi, Cristian Rodriguez-Opazo, Stephen Gould

March 2021 CVPR

PDF Code Video

Jo-SRC: A Contrastive Approach for Combating Noisy Labels

Zeren Sun, Yazhou Yao, Fumin Shen, Qi Wu, Zhenmin Tang, Jian Zhang

March 2021 CVPR

PDF Code Video

Non-Salient Region Object Mining for Weakly Supervised Semantic Segmentation

Tao Chen, Guo-Sen Xie, Yazhou Yao, Fumin Shen, Qi Wu, Zhenmin Tang, Jian Zhang

March 2021 CVPR

PDF Code Video

Room-and-Object Aware Knowledge Reasoning for Remote Embodied Referring Expression

Chen Gao, Jinyu Chen, Si Liu, Luting Wang, Qiong Zhang, Qi Wu

March 2021 CVPR

PDF Code Video

Sketch, Ground, and Refine: Top-Down Dense Video Captioning

Chaorui Deng, Shizhe Chen, Da Chen, Qi Wu

March 2021 CVPR

PDF Code Video

Towards Accurate Text-based Image Captioning with Content Diversity Exploration

Guanghui Xu, Mingkui Tan, Shuaicheng Niu, Yucheng Luo, Qing Du, Qi Wu

March 2021 CVPR

PDF Code Video

How to Train Your Agent to Read and Write?

Li Liu, Mengge He, Guanghui Xu, Mingkui Tan, Qi Wu

January 2021 AAAI

PDF Code Video

Optimistic Agent: Accurate Graph-Based Value Estimation for More Successful Visual Navigation

Mahdi Kazemi Moghaddam, Qi Wu, Ehsan Abbasnejad, Javen Qinfeng Shi

January 2021 AAAI

PDF Code Video

Simple is not Easy: A Simple Strong Baseline for TextVQA and TextCaps.

Qi Zhu, Chenyu Gao, Peng Wang, Qi Wu

January 2021 AAAI

PDF Code Video

Language and Visual Entity Relationship Graph for Agent Navigation

Yicong Hong, Cristian Rodriguez-Opazo, Yuankai Qi, Qi Wu, Stephen Gould

December 2020 NeurIPS

PDF Code Video

Learning Dual Encoding Model for Adaptive Visual Understanding in Visual Dialogue

Jing Yu, Xiaoze Jiang, Zengchang Qin, Weifeng Zhang, Yue Hu, Qi Wu

December 2020 TIP

PDF Code Video

Object-and-Action Aware Model for Visual Language Navigation

Yuankai Qi, Zizheng Pan, Shengping Zhang, Anton van den Hengel, Qi Wu

December 2020 ECCV

PDF Code Video

Reasoning on the Relation: Enhancing Visual Representation for Visual Question Answering and Cross-modal Retrieval

Jing Yu, Weifeng Zhang, Yuhang Lu, Zengchang Qin, Yue Hu, Jianlong Tan, Qi Wu

December 2020 TMM

PDF Code Video

REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments

Yuankai Qi, Qi Wu, Peter Anderson, Xin Wang, William Yang Wang, Chunhua Shen, Anton van den Hengel

December 2020 CVPR

PDF Code Video

Cops-Ref: A new Dataset and Task on Compositional Referring Expression Comprehension

Zhenfang Chen, Peng Wang, Lin Ma, Kwan-Yee K. Wong, Qi Wu

November 2020 CVPR

PDF Code Video

DAM: Deliberation- Abandon and Memory Networks for Generating Detailed and Non-repetitive Responses in Visual Dialogue

Xiaoze Jiang, Jing Yu, Yajing Sun, Zengchang Qin, Zihao Zhu, Yue Hu, Qi Wu

November 2020 IJCAI

PDF Code Video

DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue

Xiaoze Jiang, Jing Yu, Zengchang Qin, Yingying Zhuang, Xingxing Zhang, Yue Hu, Qi Wu

November 2020 AAAI

PDF Code Video

Give Me Something to Eat: Referring Expression Comprehension with Commonsense Knowledge

Peng Wang, Dongyang Liu, Hui Li, Qi Wu

November 2020 ACM MM

PDF Code Video

Language-guided Navigation via Cross-Modal Grounding and Alternate Adversarial Learning

Weixia Zhang, Chao Ma, Qi Wu, Xiaokang Yang

November 2020 TCSVT

PDF Code Video

Length Controllable Image Captioning

Chaorui Deng, Ning Ding, Mingkui Tan, Qi Wu

November 2020 ECCV

PDF Code Video

Modular Graph Attention Network for Complex Visual Relational Reasoning

Yihan Zheng, Zhiquan Wen, Mingkui Tan, Runhao Zeng, Qi Chen*, Yaowei Wang, Qi Wu

November 2020 AAAI

PDF Code Video

Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering

Zihao Zhu, Jing Yu, Yujing Wang, Yajing Sun, Yue Hu, Qi Wu

November 2020 IJCAI

PDF Code Video

Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

Shizhe Chen, Qin Jin, Peng Wang, Qi Wu

November 2020 CVPR

PDF Code Video

Semantic Equivalent Adversarial Data Augmentation for Visual Question Answering

Ruixue Tang, Chao Ma, Wei Emma Zhang, Qi Wu, Xiaokang Yang

November 2020 ECCV

PDF Code Video

Soft Expert Reward Learning for Vision-and-Language Navigation

Hu Wang, Qi Wu, Chunhua Shen

November 2020 ECCV

PDF Code Video

Sub-Instruction Aware Vision-and-Language Navigation

Yicong Hong, Cristian Rodriguez-Opazo, Qi Wu, Stephen Gould

November 2020 EMNLP

PDF Code Video

Attend and Imagine: Multi-label Image Classification with Visual Attention and Recurrent Neural Networks

Fan Lyu, Qi Wu, Fuyuan Hu, Qingyao Wu, Mingkui Tan

October 2020 TMM

PDF Code Video

Cascade Reasoning Network for Text-based Visual Question Answering

Fen Liu, Guanghui Xu, Qi Wu, Qing Du, Wei Jia, Mingkui Tan

October 2020 ACM MM

PDF Code Video

FVQA: Fact-based visual question answering

Peng Wang, Qi Wu, Chunhua Shen, Anthony Dick, Anton van den Hengel

October 2020 TPAMI

PDF Code Video

Medical Data Inquiry Using a Question Answering Model

Zhibin Liao*, Lingqiao Liu, Qi Wu, Damien Teney, Chunhua Shen, Johan Verjans, Anton van Hengel

October 2020 ISBI

PDF Code Video

Visual-Semantic Graph Matching for Visual Grounding

Chengchen Jing, Yuwei Wu, Mingtao Pei, Yao Hu, Yunde Jia, Qi Wu

October 2020 ACM MM

PDF Code Video

Visual Grounding via Accumulated Attention

Chaorui Deng, Qi Wu, Qingyao Wu, Fuyuan Hu, Fan Lyu, Mingkui Tan

September 2020 TPAMI

PDF Code Video

Data-driven Meta-set Based Fine-Grained Visual Classification

Chuanyi Zhang, Yazhou Yao, Xiangbo Shu, Zechao Li, Zhenmin Tang, Qi Wu

August 2020 ACM MM

PDF Code Video

Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

Shizhe Chen, Yida Zhao, Qin Jin, Qi Wu

August 2020 CVPR

PDF Code Video

Gold Seeker: Information Gain from Policy Distributions for Goal-oriented Vision-and-Langauge Reasoning

Ehsan Abbasnejad, Qi Wu, Iman Abbasnejad, Javen Shi, Anton van den Hengell

August 2020 CVPR

PDF Code Video

Image and Sentence Matching via Semantic Concepts and Order Learning

Yan Huang, Qi Wu, Wei Wang, Liang Wang

August 2020 TPAMI

PDF Code Video

Intelligent Home 3D: Automatic 3D-House Design from Linguistic Descriptions Only

Qi Chen*, Qi Wu* (equal contribution), Rui Tang, Yuhan Wang, Shuai Wang, Mingkui Tan

August 2020 CVPR

PDF Code Video

Scripted Video Generation with a Bottom-up Generative Adversarial Network

Qi Chen*, Qi Wu, Jian Chen, Qingyao Wu, Anton van den Hengel, Mingkui Tan

August 2020 TIP

PDF Code Video

Referring Expression Comprehension: A Survey of Methods and Datasets

Yanyuan Qiao, Chaorui Deng, Qi Wu

July 2020 TMM

PDF Code Video

Overcoming Language Priors in VQA via Decomposed Linguistic Representations

Chenchen Jing, Yuwei Wu, Xiaoxun Zhang, Yunde Jia, Qi Wu

June 2020 AAAI

PDF Code Video

Medical image classification using synergic deep learning

Jianpeng Zhang, Yutong Xie, Qi Wu, Yong Xia

May 2020 MIA

PDF Code Video

Heritage Image Annotation via Collective Knowledge

Junjie Zhang*, Qi Wu, Jian Zhang, Chunhua Shen

February 2020 PR

PDF Code Video

Multi-Label Image Classification with Regional Latent Semantic Dependencies

Junjie Zhang*, Qi Wu, Chunhua Shen, Jian Zhang

January 2020 TMM

PDF Code Video

Watch, Reason and Code: Learning to Represent Videos Using Program

Xuguang Duan, Qi Wu, Chuang Gan, Yiwei Zhang, Wenbing Huang, Anton van den Hengel, Wenwu Zhu

October 2019 ACM MM

PDF Code Video

Mind Your Neighbours: Image Annotation with Metadata Neighbourhood Graph Co-Attention Networks

unjie Zhang, Qi Wu, Jian Zhang, Chunhua Shen

June 2019 CVPR

PDF Code Video

Image Captioning and Visual Question Answering Based on Attributes and Their Related External Knowledge

Qi Wu, Chunhua Shen, Anton van den Hengel, Peng Wang, Anthony Dick

May 2019 TPAMI

PDF Code Video

Visual Question Answering: A Survey of Models and Datasets

Qi Wu, Damien Teney, Peng Wang, Chunhua Shen, Anthony Dick, Anton van den Hengel

March 2019 CVIU

PDF Code Video

Visual Question Answering: A Tutorial

Damien Teney, Qi Wu, Anton van den Hengel

March 2019 SPM

PDF Code Video

Skin Lesion Classification in Dermoscopy Images Using Synergic Deep Learning

Jianpeng Zhang, Yutong Xie, Qi Wu, Yong Xia

September 2018 MICCAI

PDF Code Video

Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning

Qi Wu, Peng Wang, Chunhua Shen, Ian Reid, Anton van den Hengel

June 2018 CVPR

PDF Code Video

Asking the Difficult Questions: Goal-Oriented Visual Question Generation via Intermediate Rewards

Junjie Zhang*, Qi Wu, Chunhua Shen, Jian Zhang, Jianfeng Lu

June 2018 ECCV

PDF Code Video

Learning Semantic Concepts and Order for Image and Sentence Matching

Yan Huang, Qi Wu, Liang Wang

June 2018 CVPR

PDF Code Video

Parallel Attention: A Unified Framework for Visual Object Discovery through Dialogs and Queries

Bohan Zhuang, Qi Wu, Chunhua Shen, Ian Reid, Anton van den Hengel

June 2018 CVPR

PDF Code Video

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko Sunderhauf, Ian Reid, Stephen Gould, Anton van den Hengel

June 2018 CVPR

PDF Code Video

Visual Grounding via Accumulated Attention

Chaorui Deng, Qi Wu, Fuyuan Hu, Fan Lv, Mingkui Tan

June 2018 CVPR

PDF Code Video

Visual Question Answering with Memory-Augmented Networks

Chao Ma, Chunhua Shen, Anthony Dick, Qi Wu, Peng Wang, Anton van den Hengel, Ian Reid

June 2018 CVPR

PDF Code Video

HCVRD: a benchmark for large-scale Human-Centered Visual Relationship Detection

Bohan Zhuang, Qi Wu, Ian Reid, Chunhua Shen, Anton van den Hengel

February 2018 AAAI

PDF Code Video

Kill Two Birds With One Stone: Weakly-Supervised Neural Network for Image Annotation and Tag Refinement

Junjie Zhang*, Qi Wu, Jian Zhang, Chunhua Shen, Jianfeng Lu

February 2018 AAAI

PDF Code Video

Explicit Knowledge-based Reasoning for Visual Question Answering

Peng Wang, Qi Wu, Chunhua Shen, Anton van den Hengel, Anthony Dick

August 2017 IJCAI

PDF Code Video

The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions

Peng Wang, Qi Wu, Chunhua Shen, Anton van den Hengel

July 2017 CVPR

PDF Code Video

Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources

Qi Wu, Peng Wang, Chunhua Shen, Anton van den Hengel, Anthony Dick

June 2016 CVPR

PDF Code Video

What Value Do Explicit High Level Concepts Have in Vision to Language Problems?

Qi Wu, Chunhua Shen, Anton van den Hengel, Lingqiao Liu, Anthony Dick

June 2016 CVPR

PDF Code Video

Beyond Photo-Domain Object Recognition: Benchmarks for the Cross-Depiction Problem

Hongping Cai, Qi Wu, Peter Hall

December 2015 ICCV Workshop

PDF Code Video

Learning Graphs to Model Visual Objects across Different Depictive Styles

Hongping Cai, Qi Wu, Peter Hall

September 2014 ECCV

PDF Code Video

Modelling Visual Objects Invariant to Depictive Style

Qi Wu, Peter Hall

September 2013 ECCV

PDF Code Video

Learning Graphs to Model Visual Objects across Different Depictive Styles

Qi Wu, Peter Hall

September 2012 ECCV

PDF Code Video

Selected Publications

Debiased Visual Question Answering from Feature and Sample Perspectives

Landmark-RxR: Solving Vision-and-Language Navigation with Fine-Grained Alignment Supervision

Neighbor-view Enhanced Model for Vision and Language Navigation

R-GAN: Exploring Human-like Way for Reasonable Text-to-Image Sythesis via Generative Adversarial Networks

The Road to Know-Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation

CogTree: Cognition Tree Loss for Unbiased Scene Graph Generation

Proposal-free One-stage Referring Expression via Grid-Word Cross-Attention

The Road to Know-Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation

A Recurrent Vision-and-Language BERT for Navigation

Jo-SRC: A Contrastive Approach for Combating Noisy Labels

Non-Salient Region Object Mining for Weakly Supervised Semantic Segmentation

Room-and-Object Aware Knowledge Reasoning for Remote Embodied Referring Expression

Sketch, Ground, and Refine: Top-Down Dense Video Captioning

Towards Accurate Text-based Image Captioning with Content Diversity Exploration

How to Train Your Agent to Read and Write?

Optimistic Agent: Accurate Graph-Based Value Estimation for More Successful Visual Navigation

Simple is not Easy: A Simple Strong Baseline for TextVQA and TextCaps.

Language and Visual Entity Relationship Graph for Agent Navigation

Learning Dual Encoding Model for Adaptive Visual Understanding in Visual Dialogue

Object-and-Action Aware Model for Visual Language Navigation

Reasoning on the Relation: Enhancing Visual Representation for Visual Question Answering and Cross-modal Retrieval

REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments

Cops-Ref: A new Dataset and Task on Compositional Referring Expression Comprehension

DAM: Deliberation- Abandon and Memory Networks for Generating Detailed and Non-repetitive Responses in Visual Dialogue

DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue

Give Me Something to Eat: Referring Expression Comprehension with Commonsense Knowledge

Language-guided Navigation via Cross-Modal Grounding and Alternate Adversarial Learning

Length Controllable Image Captioning

Modular Graph Attention Network for Complex Visual Relational Reasoning

Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering

Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

Semantic Equivalent Adversarial Data Augmentation for Visual Question Answering

Soft Expert Reward Learning for Vision-and-Language Navigation

Sub-Instruction Aware Vision-and-Language Navigation

Attend and Imagine: Multi-label Image Classification with Visual Attention and Recurrent Neural Networks

Cascade Reasoning Network for Text-based Visual Question Answering

FVQA: Fact-based visual question answering

Medical Data Inquiry Using a Question Answering Model

Visual-Semantic Graph Matching for Visual Grounding

Visual Grounding via Accumulated Attention

Data-driven Meta-set Based Fine-Grained Visual Classification

Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

Gold Seeker: Information Gain from Policy Distributions for Goal-oriented Vision-and-Langauge Reasoning

Image and Sentence Matching via Semantic Concepts and Order Learning

Intelligent Home 3D: Automatic 3D-House Design from Linguistic Descriptions Only

Scripted Video Generation with a Bottom-up Generative Adversarial Network

Referring Expression Comprehension: A Survey of Methods and Datasets

Overcoming Language Priors in VQA via Decomposed Linguistic Representations

Medical image classification using synergic deep learning

Heritage Image Annotation via Collective Knowledge

Multi-Label Image Classification with Regional Latent Semantic Dependencies

Watch, Reason and Code: Learning to Represent Videos Using Program

Mind Your Neighbours: Image Annotation with Metadata Neighbourhood Graph Co-Attention Networks

Image Captioning and Visual Question Answering Based on Attributes and Their Related External Knowledge

Visual Question Answering: A Survey of Models and Datasets

Visual Question Answering: A Tutorial

Skin Lesion Classification in Dermoscopy Images Using Synergic Deep Learning

Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning

Asking the Difficult Questions: Goal-Oriented Visual Question Generation via Intermediate Rewards

Learning Semantic Concepts and Order for Image and Sentence Matching

Parallel Attention: A Unified Framework for Visual Object Discovery through Dialogs and Queries

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

Visual Grounding via Accumulated Attention

Visual Question Answering with Memory-Augmented Networks

HCVRD: a benchmark for large-scale Human-Centered Visual Relationship Detection

Kill Two Birds With One Stone: Weakly-Supervised Neural Network for Image Annotation and Tag Refinement

Explicit Knowledge-based Reasoning for Visual Question Answering

The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions

Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources

What Value Do Explicit High Level Concepts Have in Vision to Language Problems?

Beyond Photo-Domain Object Recognition: Benchmarks for the Cross-Depiction Problem

Learning Graphs to Model Visual Objects across Different Depictive Styles

Modelling Visual Objects Invariant to Depictive Style

Learning Graphs to Model Visual Objects across Different Depictive Styles