Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts #54

Open
kogaki opened this issue Feb 4, 2019 · 0 comments

Comments

@kogaki
Copy link
Member

kogaki commented Feb 4, 2019

bilibiliデータセットを用いて、動画 + 近傍のコメント -> 新たなコメント を生成

論文本体・著者

解きたい問題

  • "動画"とそれに付随する"コメント群"を入力として新たなコメントを生成する

新規性

  • 動画と付随するコメントのデータセットを公開したデータセット論文

実装

  • 2つのモデル, Fusional RNN と Unified Transformerを提案している
image
論文 Fig. 6 より
  • Unified Transformer
    • 実験結果から見ると、こちらのほうがvideoをうまく使えているようである
    • 画像, Text(=コメント群), t-1までのコメントを3ステージで入力して、tのコメントをsoftmaxで出力するモデル
      • 各ステージの入力のself-attention -> 前のステージの出力からのattentionという構造になっている
      • Textは単純に近傍のコメントをL個つなげたもの
        • ちなみにコメントは、word levelでembedされてる
          • bilibiliの中国語でもそれでいけるんだなぁ。。
image
論文 Fig.5 より
  • Fusional RNN
    • Video, Commentを それぞれ attentionとしてまとめてからComment Decoderに与える点が違い
    • コメントの扱いも、全部くっつけるのではなくて、コメント毎にSentence-level representationに落としてからまとめている

実験・議論

  • Bilibili (https://www.bilibili.com/) から収集したデータセットを公開
    • 2,361動画
    • 19カテゴリ
    • 895,929コメント
image
論文 Table. 4 より
  • 評価実験: 生成したコメントのBLEUではなく、"既存のコメントを、このモデルで順位付けできるか"の性能を測る
    • 以下からground-truthを当てる問題
      • ground-truth(データセット内のコメント)1
      • タイトルからtf-idfのコサイン類似度で検索したコメント50
      • 単に頻度が高いコメント20
        • 2333とか
      • ランダムなコメント100
    • Recall@Nは、↑の171個のコメントを並び替えて、上位N個の中にground-truthが入る割合、の意
    • UnifiedTransformerが既存手法ら(S2S)を圧倒

読んだ中での不明点などの感想

image
論文 Fig.1 より
  • コメント生成という問題を、うまく、学術的に面白い問題だと持っていけてるのが参考になる。

  • 実装はattentionを素直に使っていてリーズナブル

  • baselineにしてるのがshow and tell(2015)などだが、VQAの最新手法と比べなくていいのか。。という気持ちはある

関連論文

  • Visual Dialog
    • Abhishek Das, Satwik Kottur, Khushi Gupta, Avi Singh, Deshraj Yadav, José M. F. Moura, Devi Parikh, Dhruv Batra
    • CVPR2017
    • 順位付け能力でモデルの性能を測る実験はこの論文に従っている
      • そもそもVisual Question Answeringの課題設定に近い
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants