標籤:
3. Cross-lingual speaker adaptation using STC with a bilingual corpus
第一段
- 問題1,為什麼要用雙語語料庫,雙語語料庫是同一個說話人的嗎?
- cross-lingual speaker adaptation的開山鼻祖是Yijiang Wang的論文,而且也實現了代碼,在HTS 2.2中。
- Yijiang Wang的做法是基於state mapping的,而本文作者的做法是基於STC,然後加上雙語語料庫
- 注意一點,本文作者與Yijian Wu都是做的cross-lingual的說話人自適應
In the state mapping technique described in the previous section, the mismatch of language characteristics affects the mapping performance of transformation matrices because only the acoustic features are taken into account in the KLD-based mapping construction.
- 本文作者,居然說語言之間的mismatch(肯定,粵語和英語之間必然是有mismatch的,粵語是音節為基元,英語是以音素為基元),會影響mapping的效能
- 為什麼mismatch of language就影響state mapping的效能了?還是不明白
- 哦,作者在這句話的後半部分給出瞭解釋,因為在state mapping是基於KLD的,而在計算KLD時,只是考慮了聲學特徵。
- 是不是英語和粵語的聲學特徵是不同的??
- To improve the mapping performance, we use not only acoustic features but also contextual factors when constructing the transform mapping.
- 擦,上面我感覺作者說的還是有點問題,說上面那句話,主要是為了引出下面的這句話,
- 還是為了提高mapping的效能,作者說的是transform mapping的效能,其實就是state mapping的效能,我目前理解的是二者沒有區別,
- 作者認為KLD的state mapping僅僅考慮了聲學特徵,他提出一種方法,state mapping不僅考慮聲學特徵,還考慮上下文相關因素。
-
讀論文 《TransForm Mapping Using Shared Decision Tree Context Clustering for HMM-based Cross-Lingual Speech Synthesis》(1)