Publications

In IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) · 2026

A Generative-First Neural Audio Autoencoder

Jonah Casebeer, Ge Zhu, Zhepei Wang, Nicholas J. Bryan

Paper

In IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) · 2026

Rethinking Music Captioning with Music Metadata LLMs

Irmak Bukey, Zhepei Wang, Chris Donahue, Nicholas J. Bryan

Paper

In IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) · 2025

On Class Separability Pitfalls In Audio-Text Contrastive Zero-Shot Learning

Tiago Tavares, Fabio Ayres, Zhepei Wang, Paris Smaragdis

Paper

In Interspeech · 2024

Audio Editing with Non-Rigid Text Prompts

Francesco Paissan, Luca Della Libera, Zhepei Wang, Paris Smaragdis, Mirco Ravanelli, Yusuf Cem Subakan

Paper Webpage

In IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) · 2023

A Framework for Unified Real-time Personalized and Non-Personalized Speech Enhancement

Zhepei Wang, Ritwik Giri, Devansh Shah, Jean-Marc Valin, Michael M. Goodwin, Paris Smaragdis

Paper Video Poster

In IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) · 2023

Unsupervised Improvement of Audio-Text Cross-Modal Representations

Zhepei Wang, Yusuf Cem Subakan, Krishna Subramani, Junkai Wu, Tiago Tavares, Fabio Ayres, Paris Smaragdis

Paper Video Poster Code

In Journal of Signal Processing Systems · 2022

Compute and Memory Efficient Universal Sound Source Separation

Efthymios Tzinis, Zhepei Wang, Xilin Jiang, Paris Smaragdis

Paper Code

In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) · 2022

Improved Singing Voice Separation with Chromagram-Based Pitch-Aware Remixing

Siyuan Yuan, Zhepei Wang, Umut Isik, Ritwik Giri, Jean-Marc Valin, Michael M. Goodwin, Arvindh Krishnaswamy

Paper

In IEEE Signal Processing Letters · 2022

Learning Representations for New Sound Classes With Continual Self-Supervised Learning

Zhepei Wang, Yusuf Cem Subakan, Xilin Jiang, Junkai Wu, Efthymios Tzinis, Mirco Ravanelli, Paris Smaragdis

Paper Poster Code

In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) · 2021

Semi-Supervised Singing Voice Separation With Noisy Self-Training

Zhepei Wang, Ritwik Giri, Umut Isik, Jean-Marc Valin, Arvindh Krishnaswamy

Paper Video Poster

In IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) · 2021

Separate But Together: Unsupervised Federated Learning for Speech Enhancement from Non-IID Data

Efthymios Tzinis, Jonah Casebeer, Zhepei Wang, Paris Smaragdis

Paper

In IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) · 2021

Sound Event Detection with Adaptive Frequency Selection

Zhepei Wang, Jonah Casebeer, Adam Clemmitt, Efthymios Tzinis, Paris Smaragdis

Paper Video Poster Code

In IEEE International Workshop on Machine Learning for Signal Processing (MLSP) · 2020

Sudo RM -RF: Efficient Networks for Universal Audio Source Separation

Efthymios Tzinis, Zhepei Wang, Paris Smaragdis

Paper Code

In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) · 2020

Two-Step Sound Source Separation: Training On Learned Latent Targets

Efthymios Tzinis, Shrikant Venkataramani, Zhepei Wang, Yusuf Cem Subakan, Paris Smaragdis

Paper

In IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) · 2019

Continual Learning of New Sound Classes Using Generative Replay

Zhepei Wang, Yusuf Cem Subakan, Efthymios Tzinis, Paris Smaragdis, Laurent Charlin

Paper

In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) · 2019

Multi-View Networks For Multi-Channel Audio Classification

Jonah Casebeer, Zhepei Wang, Paris Smaragdis

Paper

arXiv preprint arXiv:2602.15766 · 2026

Timestamped Audio Captioning

Sonal Kumar, Prem Seetharaman, Ke Chen, Oriol Nieto, Jiaqi Su, Zhepei Wang, Rithesh Kumar, Dinesh Manocha, Nicholas J. Bryan, Zeyu Jin, Justin Salamon

Paper Webpage

preprint · 2022

Semi-supervised Time Domain Target Speaker Extraction with Attention

Zhepei Wang, Ritwik Giri, Shrikant Venkataramani, Umut Isik, Jean-Marc Valin, Paris Smaragdis, Michael M. Goodwin, Arvindh Krishnaswamy

Paper Code

U.S. Patent 12,531,067 · 2026

Semi-supervised Training of a Machine Learning Model for Target Speaker Audio Enhancement

Ritwik Giri, Michael Mark Goodwin, Arvindh Krishnaswamy, Mehmet Umut Isik, Jean-Marc Valin, Zhepei Wang, Shrikant Venkataramani, Paris Smaragdis

Link

U.S. Patent Application 2025/0111857 · 2025

Unified Audio Suppression Model

Ritwik Giri, Zhepei Wang, Devansh Shah, Jean-Marc Valin, Michael Mark Goodwin

Link

Clinic (Senior Capstone Project) Report in Computer Science, Harvey Mudd College · 2018

Image-Text Classification to Correct the Amazon PrimeNow Search Experience

Zhepei Wang, Alex Mitchell, Kofi Sekyi-Appiah, Tina Zhu

Paper Poster

Doctoral Dissertation in Computer Science, University of Illinois Urbana-Champaign · 2023

Data-Efficient Approaches for Audio Classification and Separation

Zhepei Wang

Paper Slides

Peer-Reviewed Articles

A Generative-First Neural Audio Autoencoder

Rethinking Music Captioning with Music Metadata LLMs

On Class Separability Pitfalls In Audio-Text Contrastive Zero-Shot Learning

Audio Editing with Non-Rigid Text Prompts

A Framework for Unified Real-time Personalized and Non-Personalized Speech Enhancement

Unsupervised Improvement of Audio-Text Cross-Modal Representations

Compute and Memory Efficient Universal Sound Source Separation

Improved Singing Voice Separation with Chromagram-Based Pitch-Aware Remixing

Learning Representations for New Sound Classes With Continual Self-Supervised Learning

Semi-Supervised Singing Voice Separation With Noisy Self-Training

Separate But Together: Unsupervised Federated Learning for Speech Enhancement from Non-IID Data

Sound Event Detection with Adaptive Frequency Selection

Sudo RM -RF: Efficient Networks for Universal Audio Source Separation

Two-Step Sound Source Separation: Training On Learned Latent Targets

Continual Learning of New Sound Classes Using Generative Replay

Multi-View Networks For Multi-Channel Audio Classification

Preprints

Timestamped Audio Captioning

Semi-supervised Time Domain Target Speaker Extraction with Attention

Patents and Patent Applications

Semi-supervised Training of a Machine Learning Model for Target Speaker Audio Enhancement

Unified Audio Suppression Model

Reports

Image-Text Classification to Correct the Amazon PrimeNow Search Experience

Thesis

Data-Efficient Approaches for Audio Classification and Separation