false-positive interactionsを除外する手法
このうち、前者2つは、取得するのが簡単ではなかったり、全てのユーザーがイベントを残すわけではないので疎になりがち。
先行研究も、false-positiveのデータはモデルに適合しずらいことを示している。また、学習初期段階において、false-positiveのデータはtrue-positiveよりも大きなlossに繋がっていることを示している。
全データを学習したモデルとfalse-positiveを除外した学習モデルで比較すると、false-positiveを除外したモデルのほうがパフォーマンスが良いことも見えてきた。(例えば、5段階評価のレビューがあった場合に3未満のレビューに紐づくログは除外するというルールで除外している) 但し、学習に使えるデータが少なくなるので実用的ではない。
レコメンドは2値のクロスエントロピーを最小化することで算出できるという観点から展開していく。
クロスエントロピーの式
Truncated Loss: 各イテレーションにおける動的な閾値で大きな損失を与えるサンプルを取り除く Reweighted Loss: 大きな損失を与えるサンプルのウェイトを小さくする
各イテレーションにおける動的な閾値で大きな損失を与えるサンプルを取り除く
:閾値
T-CE Lossでは、閾値を超えた場合にpositiveなinteractionは学習から除外される。
閾値は学習が進むにつれ、減衰させる。このdrop率は以下で定式化した。
: 上限, : ハイパーパラメータ, : イテレーション
このdrop率は以下の特徴を持つ
各イテレーションにおける動的な閾値で大きな損失を与えるサンプルを取り除く
: ハイパーパラメータ[0, +]
Focal Lossを参考にしている。
5(a): defaultの学習(黒線)に比べが大きくなるほど、lossが大きいpositiveデータの影響を減少させている。
5(b): が大きくなるほど、easy-interactionとhard-interactionとの影響度の差が開いてくる。5(a)と同様にが大きいほどyが小さくなっている。
大きなLossとnoiseデータの相互関係に関する先行研究
Co-teaching: Robust training of deep neural networks with extremely noisy labels https://arxiv.org/abs/1804.06872 MentorNet: Learning Data-Driven Curriculum for Very Deep Neural Networks on Corrupted Labels https://arxiv.org/abs/1712.05055
ディープラーニングモデルは、学習の初期段階にsimpleでcleanなパターンを学習して、徐々にノイズを含んだ全てのinteractionを学んでいく。そのため、初期段階ではノイズを軽減することは有効に思われる。
hard interaction(lossが大きいもの)ほど情報量が多い可能性があるが、ノイズの多いデータでのhard interactionは汎化不良を引き起こすだろう。もちろん、学習精度とノイズ除去のトレードオフにはなる。
implicit feedbackにおける先行研究
Evaluating Implicit Measures to Improve Web Search https://www.microsoft.com/en-us/research/publication/evaluating-implicit-measures-improve-web-search/ What Aspect Do You Like: Multi-scale Time-aware User Interest Modeling for Micro-video Recommendation https://dl.acm.org/doi/10.1145/3394171.3413653 Modeling dwell time to predict click-level satisfaction https://dl.acm.org/doi/10.1145/2556195.2556220 Gaze Prediction for Recommender Systems. In Proceedings of the Conference on Recommender Systems https://dl.acm.org/doi/10.1145/2959100.2959150 Between Clicks and Satisfaction: Study on Multi-Phase User Preferences and Satisfaction for Online News Reading https://dl.acm.org/doi/10.1145/3209978.3210007
Understanding web browsing behaviors through Weibull analysis of dwell time https://dl.acm.org/doi/10.1145/1835449.1835513 Leveraging Post-click Feedback for Content Recommendations https://dl.acm.org/doi/10.1145/3298689.3347037 Exploiting Various Implicit Feedback for Collaborative Filtering https://dl.acm.org/doi/10.1145/2187980.2188166
シリング攻撃(=ユーザーの評価やレビューを捏造する) Shilling Recommender Systems for Fun and Profit https://dl.acm.org/doi/10.1145/988672.988726 ファジング攻撃(=ランダムな入力でモデルの中身を推定しようとする) Evaluating Recommender System Stability with Influence-Guided Fuzzing https://dl.acm.org/doi/abs/10.1609/aaai.v33i01.33014934 CDAE(auto-endoderによるノイズ除去) Collaborative denoising auto-encoders for top-n Recommender Systems https://dl.acm.org/doi/10.1145/2835776.2835837
提案手法のモデルはvanillaモデルより改善されている。
多くのケースでR-CEよりT-CEのほうが成績が良い。R-CEは、false-positiveによる影響をまだ受けている可能性がある。T-CEのほうは、動的に閾値を変更しているので、きめ細やかな学習が実現できていると思われる。
モデル全体では、NeuMFの成績が悪い。モデル自体にパラメータが多いため、false-positiveに適合しがちだと思われる。かつ、今回はture-positiveを正例としているためその影響も大きい。
ランダムノイズを除去する機構を持つCDAEに対しても、T-CE/R-CEによる学習は有効であることが示された。
GMFに対して以下のモデルと比較する
ADTはアクティブではないユーザーに対しては、嗜好学習に害を与える可能性がないか検証する(これらの層はinteractionがまばらであるため)
インタラクション数に応じてユーザーを4つのグループに分類して性能比較した
全てのグループにおいて改善が見られたので問題はないことが示された。
通常の学習ではfalse-positiveのinteractionも学習される。ADTモデルでもfalse-positiveが記憶されているかを検証する。
各iterationにおけるfalse-positive/all interactionsに対するLossをplotしている。
7(a): iterationが進むにつれて、false-positiveに対しても適合している
7(b): 全体のlossは下がっているがfalse-positiveによるlossが増大している。つまり、false-positiveに適合していないことが確認できた。
7(c): false-positiveに対して適合していることが確認できる。ただし、allとfalse-postiveのlossを比較すると差があるため、false-positiveに対して強く適合することは防ぐことができている。
T-CEの識別性能を比較するために、無視されたfalse-positiveのinteractionに対して、precisionとrecallを計測した
T-CEはdrop率が安定した後に、false-positiveの約半数を無視していた。
T-CEはprecisionが非常に低く、正しいinteractionを多く無視していることにつながっている。ただし、noiseを取り除く効果のほうが大きいため精度向上に寄与していると思われる。precisionの改善は今後の研究課題である。
: 0.1 ~ 0.3
: Amazon-bookでは30k以上で良さそうだが、敏感なパラメータである。
: 0.15~0.3
が最適だと思われる。