1. 2023.07-今 中国科学院自动化研究所 紫东太初大模型研究中心 副研究员
2. 2021.07-2023.06 北京字节跳动 AI Lab 算法研究员
3. 2016.09-2021.06 中国科学院自动化研究所 模式识别国家重点实验室 博士
4. 2012.09-2016.06 西安交通大学 学士
多模态基础模型,多模态学习,图像与视频内容分析
作为项目/课题负责人/课题骨干承担和参加国家与企事业科研项目,包括科技部科技创新2030-“新一代人工智能”重大项目、国家自然科学基金重点项目、国家自然科学基金面上项目,以及华为、荣耀、三星等国内外企业单位合作科研项目。
1. SC-Tune: unleashing self-consistent referential comprehension in large vision language models. CVPR, 2024. 共同一作
2. MAMO: Masked multimodal modeling for fine-grained vision-language representation learning. SIGIR, 2023. 共同一作
3. Eve: Efficient vision-language pre-training with masked prediction and modality-aware moe. AAAI, 2023. 第二作者
4. GPT-4 对多模态大模型在多模态理解, 生成, 交互上的启发. 中国科学基金, 2023. 第二作者
5. Non-autoregressive image captioning with counterfactuals-critical multi-agent learning. IJCAI, 2020. 第一作者
6. Aligning linguistic words and visual semantic units for image captioning. ACM MM, 2019. 第一作者
7. Normalized and geometry-aware self-attention network for image captioning. CVPR, 2019. 第一作者
8. Mscap: Multi-style image captioning with unpaired stylized text. CVPR, 2019. 第一作者
9. Show, tell and polish: ruminant decoding for image captioning. IEEE Transactions on Multimedia, 2019. 第一作者
10. Sketch-based image retrieval using generative adversarial networks. ACM MM, 2017. 第一作者
1. 中国科学院院长优秀奖
2. 北京市普通高等学校 优秀毕业生
3. 2021年ACMMM 预训练视频理解竞赛 冠军
4. 2020年CVPR VATEX视频描述竞赛 中英文双赛道冠军
5. 2019年ICCV VATEX视频描述竞赛 中文赛道亚军,英文赛道季军
6. 2017年ICCV COCO-Places场景解析竞赛 冠军
1. CN202210138974.0,一种信息表征模型构建方法、信息表征方法,一种信息表征模型构建方法、信息表征方法
2. CN202110653593.1,基于多模态预训练模型的跨模态理解与生成方法和装置,刘静、朱欣鑫、刘飞、郭龙腾