Reenvisioning the comparison between Neural Collaborative Filtering and Matrix Factorization

「Neural Collaborative Filtering vs. Matrix Factorization Revisited」をさらに掘り下げた論文

Contribution

  • 前述のANNの精度は、結果が良すぎたのでということを改めて裏付けた。
    • 基本的には、Dacremaではなく、Rendleの論文の再現を目標としている
  • 追加の評価指標によって、それぞれのアプローチがいつどのように有用であるのかを提供した。

実験内容

  • baselineモデルとして、新たに5つのモデルを追加
    • SLIM
    • iALS
    • PureSVD
    • EASER
    • RP3β
  • ベンチマークフレームワークとしてElliotを利用した
  • 追加した評価指標: elliotに実装されている
    • F1
    • Limited AUC
    • MAP
    • MAR
    • MRR
  • 追加評価
    • Novelty(新規性)
    • Diversity
      • itemのcoverage
      • Gini
      • Shannon Entropy
    • bias(不均衡分布)

結果

my image

やはりMFの精度が高く、NeuMFに優位性はなさそう。RendleやDacremaの論文結果を裏付けるものになっている。

my image

全体的にMFの成績は良い。

MovieLens-1M: MAP,MAR,MRRについてはEASEがMFに勝っている

Pinterest: RP3βRP^3\betaの成績がMFに次いで2位。MovieLensでの成績差が顕著。

統計的仮説検定
my image

t検定で検証。

  • EASER, iALS, Slimの差は必ずしも統計的に有意ではない。
  • MAPとMRRを分析した場合、EASER, Slim, MFの間でも有意な差がない。
  • NeuMFに対するEASER , PureSVD , Slim との差は必ずしも大きくはない。
Novelty
my image

MFはlong-tailに属する商品も提案している。NeuMFはここでも成績が悪い。

ItemCoverageに関しては、NeuMFが最も優れている。逆に、MFはここでは成績が悪い。Giniの指標をみても、MFは多様性という観点では有効なモデルとは言えないかもしれない。

iALSは多様性に関して優位性がある。

また、ここでもRP3βRP^3\betaはMovieLensとPinterestで性能が安定していないことが示された。

bias
my image
ARP(各リストの推奨アイテムの平均的な人気度)
  • MovieLensでは、MFとNeuMFは似た結果である。EASERとRP3βRP^3\betaは人気のアイテムを提案しがち
  • iALS, Slim, PureSVDの成績はいい結果を出した
  • Pinterestではどのモデルも似たような結果になった
ACLT(ロングテールの占める割合) & APLT(ロングテールの露出度合い)
  • iALSとNeuMFは影響を受けにくい
  • MF, EASER, PureSVDは影響を強く受ける
  • RP3βRP^3\betaはデータセット間でパフォーマンスが異なる
RSP & REO

(ちょっとイメージできなかった。あとで原著を読む)

人気度に応じて2つのグループに分割した。「上位20%」と「それ以外」

RSP measures whether items in different groups have the same probabilities of being recommended. Poor RSP means one or more groups have lower recommendation probabilities than others. REO measures the bias that items in one or more groups have lower recommendation probabilities given the items enjoyed by users. Differently from RSP, REO-based bias does not depend on sensitive attributes.
  • Movielensでは、iALSとSLIMが良い成績を出した。
  • NeuMFはMFに比べてこれらのバイアスの影響を受けにくい。MFが不満足な結果だったというわけではない。
  • EASER,RP3βRP^3\beta,PureSVDは、ユーザーの履歴にlong-tailのアイテムが存在してたが、あまりレコメンドされない。

実装コード

https://github.com/sisinflab/Reenvisioning-the-comparison-between-Neural-Collaborative-Filtering-and-Matrix-Factorization