Neural Collaborative Filtering vs. Matrix Factorization Revisited

実験内容

確認: NCFの論文における検証内容

Movielens 1MとPinterestのデータセットを用いた

どちらも暗黙のフィードバックデータセット）
userとitem間のpositiveのラベルしか含まない

各ユーザーの最後のitemをtestで利用し、それ以外をtrainに分割
testで残した1itemとランダムな100itemの計101itemで評価

Hit Ratio(recall@10): top10までに目的のitemが含まれているか
NDCG@10: top10までのNDCGスコア

データセット分割と評価の実装を公開しているので、この論文でもそのまま利用して比較

検証モデル

NCF: MLPを利用したものと、NeuMF(MLP+GMF(Generalized Matrix Factorization))を利用したもの

GMF: NCFの論文で利用された、活性化関数と重みを掛けて出力する非線形のMF

NeuMF(https://arxiv.org/abs/1708.05031)

結果

シンプルなMatrix Factorizationのモデルが全ての指標、一つの次元数を除いてほぼ全ての次元数で成績が上回った。

NeuMFの論文では、MLPとMFを別々に学習させアンサンブルするモデルが提案されているが（Fig2の赤線）、MLP+GMFを同時学習させるモデルより(緑線)も精度が優れているというだけで、MFの単体モデルには及ばない。

GMFについて

NeuMFの論文では、GMFの結果が今回の結果よりも悪いものになっていたが、この食い違いは、一つはパラメータチューニングによるもの。もう一つは、このモデルで追加された重みパラメータがl2正則化から外れており、このままLossを最小化させるとEnbedding MatrixのP,Qのノルムが消え、重みが発散してしまうため、予測が安定しなくなることに起因する。また、この重みはP,Qに吸収されるものであるため、単純なMFに比べてモデルの表現を向上させることはない。

考察

MLPやNeuMFの成績は、設定や他のデータセットでは良い成績になるかもしれないが、今回の検証においてはそのような証拠は得られなかった。(単純なMFのほうが成績が良い)

前出の論文で提出されたNeuMLの成績は、cherry-pickされた(都合のいい結果を選択した)可能性がある。

MLPによって内積モデルを置き換えるのは困難

MLPは普遍的な関数近似ではあるが、必要なパラメータが膨大であり、学習には大量のデータが必要となるため関数を学習のは困難である。

（その実証実験が掲載されているが割愛）

内積モデルの適用性

実世界のレコメンドシステムにおいては、ユーザーのリクエストのタイミングで推論する必要がある。特に、context-awareなレコメンドシステムにおいては、事前計算することはできない。

内積モデルの類似度による予測には $O(d)$ 、MLPの場合は $O(d^2)$ のコストが発生する。大規模アプリケーションの場合は、どちらも計算コストが実用的ではないが、内積の場合は、最大内積探索や最近傍探索といった手法にて効率的に計算結果を近似することができる。ただし、MLPを用いた非線形の近傍探索の手法は今のところ存在しない。

結論

今回の研究は、レコメンドシステムにおいて、ニューラルネットワークを利用しないほうが良いという提案ではない。勢いのあるニューラルネットワークモデルの多くは、出力に内積を用いるが、MLPを出力にすることはない。また、多クラス分類で利用されているように内積は強力な埋め込み結合である。similarity関数をMLPで求めることはおすすめしない。

DNNのモデリングでは、MLPをより特化したものに置き換えることが一般的であり、この部分はアーキテクチャで解決している。（Transformerや、畳み込み層など）

検証コード

https://github.com/google-research/google-research/tree/master/dot_vs_learned_similarity