っていうのを考えてやってみた。
でも流石に全部載せるのはアレなので、触りだけ話します。
目次
記事をベクトル化する
記事でもタイトルでも商品リストでもなんでもいいんだけど、それらがどういう系か?みたいなのをベクトル化することで可視化(数値化?)できます。
LLMとかも言語をそんな感じで読んでて(雑な説明)、ベクトル的に似てるねってなったら関連ありと判断できたりするとなんかいい感じな気がするよねって話。
やり方としては、リストをExcelとかで作ってPythonでベクトル化します。
なんかパッケージがあるのでとりあえずはそれを使う。(LLMっぽくしたい場合はもっと色々する必要があるかも)
で、何十個も値がある謎のベクトルデータが完成する。
(2000~3000データくらいで、10分くらいはかかった)
ベクトルを比較する
今度はベクトルを比較していきます。
例えば、新しく出たこの商品、既存のどの商品と似てるんだろうね?みたいなのを新商品の説明を入れて類似度を計算することでいい感じにできる。(理論上)
これはコサイン類似度というのを使って、これは角度が合ってるかどうか、みたいな感じ。
(長さは評価されないのであくまで方向性だけ)
それをすることで、似てるやつトップ20!!とかが出せる。
で?
記事下に類似度トップ4を関連記事として入れたりとかできるよ。
あとは単純にDBさえ作ってしまえば、似た商品出てこいやーみたいなのができる。
拡張性がありそう。
ちなみにやってみた結果としては、入れたデータが適当だったのも合ったんだけど、類似度あるようなないような・・という感じだった。
(参考にはなるけどそのままは使えないレベル)
みたいな話でした。(ざっくり終わる)
コメント