Denoising Implicit Feedback for Recommendation

my image

introduction

false-positive interactionsを除外する手法

  • 追加情報を付与する(滞在時間、商品属性)
  • 追加フィードバックを考慮する(skip, お気に入り追加)
  • denoising

このうち、前者2つは、取得するのが簡単ではなかったり、全てのユーザーがイベントを残すわけではないので疎になりがち。

先行研究も、false-positiveのデータはモデルに適合しずらいことを示している。また、学習初期段階において、false-positiveのデータはtrue-positiveよりも大きなlossに繋がっていることを示している。

my image

全データを学習したモデルとfalse-positiveを除外した学習モデルで比較すると、false-positiveを除外したモデルのほうがパフォーマンスが良いことも見えてきた。(例えば、5段階評価のレビューがあった場合に3未満のレビューに紐づくログは除外するというルールで除外している) 但し、学習に使えるデータが少なくなるので実用的ではない。

my image

実験手法

タスクの設定

レコメンドは2値のクロスエントロピーを最小化することで算出できるという観点から展開していく。

クロスエントロピーの式

my image
Truncated Loss: 各イテレーションにおける動的な閾値で大きな損失を与えるサンプルを取り除く Reweighted Loss: 大きな損失を与えるサンプルのウェイトを小さくする
Truncated Cross-Entropy Loss(T-CE)

各イテレーションにおける動的な閾値で大きな損失を与えるサンプルを取り除く

my image

τ\tau:閾値

T-CE Lossでは、閾値を超えた場合にpositiveなinteractionは学習から除外される。

my image

閾値は学習が進むにつれ、減衰させる。このdrop率は以下で定式化した。

my image

ϵmax\epsilon_{max}: 上限, α\alpha: ハイパーパラメータ, TT: イテレーション

このdrop率は以下の特徴を持つ

  • ϵ():\epsilon(\cdot): データの欠損を防ぐため上限をもち、なめらかに増加していく
  • ϵ(0)\epsilon(0): 初期(T=0)には全てのインタラクションを学習に利用する
my image
Reweighted Cross-Entropy Loss(R-CE)

各イテレーションにおける動的な閾値で大きな損失を与えるサンプルを取り除く

my image
my image
my image

β\beta: ハイパーパラメータ[0, +inf\inf]

Focal Lossを参考にしている。

my image

5(a): defaultの学習(黒線)に比べβ\betaが大きくなるほど、lossが大きいpositiveデータの影響を減少させている。

5(b): β\betaが大きくなるほど、easy-interactionとhard-interactionとの影響度の差が開いてくる。5(a)と同様にβ\betaが大きいほどyが小さくなっている。

大きなLossとnoiseデータの相互関係に関する先行研究

Co-teaching: Robust training of deep neural networks with extremely noisy labels https://arxiv.org/abs/1804.06872 MentorNet: Learning Data-Driven Curriculum for Very Deep Neural Networks on Corrupted Labels https://arxiv.org/abs/1712.05055

ディープラーニングモデルは、学習の初期段階にsimpleでcleanなパターンを学習して、徐々にノイズを含んだ全てのinteractionを学んでいく。そのため、初期段階ではノイズを軽減することは有効に思われる。

hard interaction(lossが大きいもの)ほど情報量が多い可能性があるが、ノイズの多いデータでのhard interactionは汎化不良を引き起こすだろう。もちろん、学習精度とノイズ除去のトレードオフにはなる。

関連研究

implicit feedbackにおける先行研究

ノイズの同定
Evaluating Implicit Measures to Improve Web Search https://www.microsoft.com/en-us/research/publication/evaluating-implicit-measures-improve-web-search/ What Aspect Do You Like: Multi-scale Time-aware User Interest Modeling for Micro-video Recommendation https://dl.acm.org/doi/10.1145/3394171.3413653 Modeling dwell time to predict click-level satisfaction https://dl.acm.org/doi/10.1145/2556195.2556220 Gaze Prediction for Recommender Systems. In Proceedings of the Conference on Recommender Systems https://dl.acm.org/doi/10.1145/2959100.2959150 Between Clicks and Satisfaction: Study on Multi-Phase User Preferences and Satisfaction for Online News Reading https://dl.acm.org/doi/10.1145/3209978.3210007
様々なフィードバックの取り込み
Understanding web browsing behaviors through Weibull analysis of dwell time https://dl.acm.org/doi/10.1145/1835449.1835513 Leveraging Post-click Feedback for Content Recommendations https://dl.acm.org/doi/10.1145/3298689.3347037 Exploiting Various Implicit Feedback for Collaborative Filtering https://dl.acm.org/doi/10.1145/2187980.2188166
レコメンドモデルの堅牢性
シリング攻撃(=ユーザーの評価やレビューを捏造する) Shilling Recommender Systems for Fun and Profit https://dl.acm.org/doi/10.1145/988672.988726 ファジング攻撃(=ランダムな入力でモデルの中身を推定しようとする) Evaluating Recommender System Stability with Influence-Guided Fuzzing https://dl.acm.org/doi/abs/10.1609/aaai.v33i01.33014934 CDAE(auto-endoderによるノイズ除去) Collaborative denoising auto-encoders for top-n Recommender Systems https://dl.acm.org/doi/10.1145/2835776.2835837

実験内容

  • データセット
    • Adressa
      • 滞在時間が10s以下のデータをfalse-positive
    • Amazon-book
      • 購入後レビューが3以下をfalse-positive
    • Yelp
      • 3以下の評価をfalse-positive
  • train/validation/test
    • train/validation: 全てのデータを利用
    • test: true-positiveのみを利用(満足度の高いものをレコメンドするかを検証する)
  • 評価
    • 学習時にpositiveな評価がついているもの以外についてスコアを計算
    • Recall, NDCG
      • Amazon-book, Yelpは、50と100。 Adressaは、3と20
  • 学習モデル
    • GMF
    • NeuMF
    • CDAE: ノイズ除去モデルの代表として
      • MFやSVDはニューラルモデルに劣るため、全てニューラルモデルで検証している

実験結果

my image

提案手法のモデルはvanillaモデルより改善されている。

多くのケースでR-CEよりT-CEのほうが成績が良い。R-CEは、false-positiveによる影響をまだ受けている可能性がある。T-CEのほうは、動的に閾値を変更しているので、きめ細やかな学習が実現できていると思われる。

モデル全体では、NeuMFの成績が悪い。モデル自体にパラメータが多いため、false-positiveに適合しがちだと思われる。かつ、今回はture-positiveを正例としているためその影響も大きい。

ランダムノイズを除去する機構を持つCDAEに対しても、T-CE/R-CEによる学習は有効であることが示された。

追加フィードバックを利用したモデルとの比較

GMFに対して以下のモデルと比較する

  • Neural MultiTask Recommendation (NMTR)
  • Negative feedback Reweighting (NR)
    • フィードバック(滞留時間や評価など)を用いてtrue-positiveのインタラクションを識別し、false-positiveやインタラクションが発生していないitemを再重み付けする
    • Leveraging Post-click Feedback for Content Recommendations
    • https://dl.acm.org/doi/10.1145/3298689.3347037
my image
  • NMTRとNRはvanillaのGMFより改善されており、追加フィードバックの有効性が再確認できた
  • NMTRとNRはT-CE/R-CEより劣っており、追加フィードバックのsparsityに起因すると考えられる。
パフォーマンス

ADTはアクティブではないユーザーに対しては、嗜好学習に害を与える可能性がないか検証する(これらの層はinteractionがまばらであるため)

インタラクション数に応じてユーザーを4つのグループに分類して性能比較した

my image

全てのグループにおいて改善が見られたので問題はないことが示された。

False-positiveのインタラクションの記憶性

通常の学習ではfalse-positiveのinteractionも学習される。ADTモデルでもfalse-positiveが記憶されているかを検証する。

my image

各iterationにおけるfalse-positive/all interactionsに対するLossをplotしている。

7(a): iterationが進むにつれて、false-positiveに対しても適合している

7(b): 全体のlossは下がっているがfalse-positiveによるlossが増大している。つまり、false-positiveに適合していないことが確認できた。

7(c): false-positiveに対して適合していることが確認できる。ただし、allとfalse-postiveのlossを比較すると差があるため、false-positiveに対して強く適合することは防ぐことができている。

T-CEの識別性能

T-CEの識別性能を比較するために、無視されたfalse-positiveのinteractionに対して、precisionとrecallを計測した

my image

T-CEはdrop率が安定した後に、false-positiveの約半数を無視していた。

T-CEはprecisionが非常に低く、正しいinteractionを多く無視していることにつながっている。ただし、noiseを取り除く効果のほうが大きいため精度向上に寄与していると思われる。precisionの改善は今後の研究課題である。

ハイパーパラメータ

ϵmax\epsilon_{max}: 0.1 ~ 0.3

ϵN\epsilon_{N}: Amazon-bookでは30k以上で良さそうだが、敏感なパラメータである。

  • ϵmax\epsilon_{max}に到達するまでのiterationを逆算したもの: α\alphaと関連

β\beta: 0.15~0.3

が最適だと思われる。

実装

https://github.com/WenjieWWJ/DenoisingRec