Denoising Implicit Feedback for Recommendation

introduction

false-positive interactionsを除外する手法

追加情報を付与する(滞在時間、商品属性)
追加フィードバックを考慮する(skip, お気に入り追加)
denoising

このうち、前者２つは、取得するのが簡単ではなかったり、全てのユーザーがイベントを残すわけではないので疎になりがち。

先行研究も、false-positiveのデータはモデルに適合しずらいことを示している。また、学習初期段階において、false-positiveのデータはtrue-positiveよりも大きなlossに繋がっていることを示している。

全データを学習したモデルとfalse-positiveを除外した学習モデルで比較すると、false-positiveを除外したモデルのほうがパフォーマンスが良いことも見えてきた。（例えば、5段階評価のレビューがあった場合に3未満のレビューに紐づくログは除外するというルールで除外している）但し、学習に使えるデータが少なくなるので実用的ではない。

実験手法

タスクの設定

レコメンドは2値のクロスエントロピーを最小化することで算出できるという観点から展開していく。

クロスエントロピーの式

Truncated Loss: 各イテレーションにおける動的な閾値で大きな損失を与えるサンプルを取り除く Reweighted Loss: 大きな損失を与えるサンプルのウェイトを小さくする

Truncated Cross-Entropy Loss(T-CE)

各イテレーションにおける動的な閾値で大きな損失を与えるサンプルを取り除く

$\tau$ :閾値

T-CE Lossでは、閾値を超えた場合にpositiveなinteractionは学習から除外される。

閾値は学習が進むにつれ、減衰させる。このdrop率は以下で定式化した。

$\epsilon_{max}$ : 上限, $\alpha$ : ハイパーパラメータ, $T$ : イテレーション

このdrop率は以下の特徴を持つ

$\epsilon(\cdot):$ データの欠損を防ぐため上限をもち、なめらかに増加していく
$\epsilon(0)$ : 初期(T=0)には全てのインタラクションを学習に利用する

Reweighted Cross-Entropy Loss(R-CE)

各イテレーションにおける動的な閾値で大きな損失を与えるサンプルを取り除く

$\beta$ : ハイパーパラメータ[0, + $\inf$ ]

Focal Lossを参考にしている。

5(a): defaultの学習(黒線)に比べ $\beta$ が大きくなるほど、lossが大きいpositiveデータの影響を減少させている。

5(b): $\beta$ が大きくなるほど、easy-interactionとhard-interactionとの影響度の差が開いてくる。5(a)と同様に $\beta$ が大きいほどyが小さくなっている。

大きなLossとnoiseデータの相互関係に関する先行研究

Co-teaching: Robust training of deep neural networks with extremely noisy labels https://arxiv.org/abs/1804.06872 MentorNet: Learning Data-Driven Curriculum for Very Deep Neural Networks on Corrupted Labels https://arxiv.org/abs/1712.05055

ディープラーニングモデルは、学習の初期段階にsimpleでcleanなパターンを学習して、徐々にノイズを含んだ全てのinteractionを学んでいく。そのため、初期段階ではノイズを軽減することは有効に思われる。

hard interaction(lossが大きいもの)ほど情報量が多い可能性があるが、ノイズの多いデータでのhard interactionは汎化不良を引き起こすだろう。もちろん、学習精度とノイズ除去のトレードオフにはなる。

関連研究

implicit feedbackにおける先行研究

ノイズの同定

Evaluating Implicit Measures to Improve Web Search https://www.microsoft.com/en-us/research/publication/evaluating-implicit-measures-improve-web-search/ What Aspect Do You Like: Multi-scale Time-aware User Interest Modeling for Micro-video Recommendation https://dl.acm.org/doi/10.1145/3394171.3413653 Modeling dwell time to predict click-level satisfaction https://dl.acm.org/doi/10.1145/2556195.2556220 Gaze Prediction for Recommender Systems. In Proceedings of the Conference on Recommender Systems https://dl.acm.org/doi/10.1145/2959100.2959150 Between Clicks and Satisfaction: Study on Multi-Phase User Preferences and Satisfaction for Online News Reading https://dl.acm.org/doi/10.1145/3209978.3210007

様々なフィードバックの取り込み

Understanding web browsing behaviors through Weibull analysis of dwell time https://dl.acm.org/doi/10.1145/1835449.1835513 Leveraging Post-click Feedback for Content Recommendations https://dl.acm.org/doi/10.1145/3298689.3347037 Exploiting Various Implicit Feedback for Collaborative Filtering https://dl.acm.org/doi/10.1145/2187980.2188166

レコメンドモデルの堅牢性

シリング攻撃（＝ユーザーの評価やレビューを捏造する） Shilling Recommender Systems for Fun and Profit https://dl.acm.org/doi/10.1145/988672.988726 ファジング攻撃（＝ランダムな入力でモデルの中身を推定しようとする） Evaluating Recommender System Stability with Influence-Guided Fuzzing https://dl.acm.org/doi/abs/10.1609/aaai.v33i01.33014934 CDAE(auto-endoderによるノイズ除去) Collaborative denoising auto-encoders for top-n Recommender Systems https://dl.acm.org/doi/10.1145/2835776.2835837

実験内容

データセット

Adressa

滞在時間が10s以下のデータをfalse-positive

Amazon-book

購入後レビューが3以下をfalse-positive

Yelp

3以下の評価をfalse-positive

train/validation/test

train/validation: 全てのデータを利用
test: true-positiveのみを利用(満足度の高いものをレコメンドするかを検証する)

評価

学習時にpositiveな評価がついているもの以外についてスコアを計算
Recall, NDCG

Amazon-book, Yelpは、50と100。 Adressaは、3と20

学習モデル

GMF
NeuMF
CDAE: ノイズ除去モデルの代表として

MFやSVDはニューラルモデルに劣るため、全てニューラルモデルで検証している

実験結果

提案手法のモデルはvanillaモデルより改善されている。

多くのケースでR-CEよりT-CEのほうが成績が良い。R-CEは、false-positiveによる影響をまだ受けている可能性がある。T-CEのほうは、動的に閾値を変更しているので、きめ細やかな学習が実現できていると思われる。

モデル全体では、NeuMFの成績が悪い。モデル自体にパラメータが多いため、false-positiveに適合しがちだと思われる。かつ、今回はture-positiveを正例としているためその影響も大きい。

ランダムノイズを除去する機構を持つCDAEに対しても、T-CE/R-CEによる学習は有効であることが示された。

追加フィードバックを利用したモデルとの比較

GMFに対して以下のモデルと比較する

Neural MultiTask Recommendation (NMTR)

マルチタスク学習により、クリックと追加フィードバックの両方を考慮する
Learning to Recommend with Multiple Cascading Behaviors
https://ieeexplore.ieee.org/document/8930270

Negative feedback Reweighting (NR)

フィードバック（滞留時間や評価など）を用いてtrue-positiveのインタラクションを識別し、false-positiveやインタラクションが発生していないitemを再重み付けする
Leveraging Post-click Feedback for Content Recommendations
https://dl.acm.org/doi/10.1145/3298689.3347037