NLPの基盤となるアルゴリズムを作るためには、まずAIに「教える」作業、つまりNLPツールに必要な大量のデータセットにタグ付けをする作業が必要になります。 NPLアルゴリズムの出力は、推論予測です。3つの一般的な種類を見てみましょう。
1. エンティティのタグ付け
エンティティのタグ付けは、テキスト内のエンティティをスキャン、識別、抽出、およびタグ付けするプロセスです。 エンティティにはいくつかの種類があります。
2. テキストの分類/カテゴリ分け
このタイプのタグ付けではNLPを使用して、特定のテキストの分類またはカテゴリの決定をします。ドキュメントの分類はエンティティのタグ付けとは異なり、特定の単語やフレーズにタグを付けるのではなく、テキスト全体をその内容に従って分類します。
テキストの分類/カテゴリ分けのトピックはとても広いので、この記事ではEコマースにおける商品の分類に焦点を当てて見ていきましょう。
商品の分類 - 商品が特定のカテゴリに分類されるプロセスです。ここで注意すべきなのは、カテゴリの範囲をどれだけ広げるかという点です。 アイテムを分類できるカテゴリは無限にありますが、それぞれの違いは小さいものであることが多いです。 最も関連性の高いものを厳選して選びましょう。
これは、ECモールが売り手の商品リストをカテゴリに分類するときに起こる典型的な問題で、複数のECモールにショップを構えている売り手にとってはさらに困難になる可能性もあります。 なぜなら個々のECモールがそれぞれ別の独自のカテゴリ構造、つまり分類法を持つためです。 たとえば、Tシャツを出品する場合、あるECモールでは「ファッション」カテゴリに分類する必要がありますが、他のECモールでは「衣料品」カテゴリに分類する必要があります。 売り手は各ECモールの要件に従って、各商品を個別にカテゴリ分けしなければなりません。 さらに、ECモールの分類法は頻繁に変更されるため、売り手はその都度チェックし、更新する必要があります。
他に起こりがちなNLPに関する問題は、商品リストの情報が不足しているためにカテゴリ分けができないというケースです。商品データは常に完璧で正確でなければなりません。
属性・特性のタグ - 特定の属性を持つ商品をタグ付けする作業です。その範囲が無数にあるカテゴリと違って、属性の範囲はある程度限られています。例えば商品に「色」のタグを付ける場合、タグ付けできる色は選択できる範囲内に限られます。しかし、特性のタグ付けでよく問題となるのが属性のあいまいさです。靴が何色かタグ付けするのは簡単でも、その特性がエレガントかフォーマルか、ドレスシューズかを決めるのはより複雑でしょう。
また、ほとんどの場合属性ごとの商品の分布は均一でなく、パレートの法則にあるように20%の商品が多くの属性を占めるということもあります。そういった複雑な分類は充分なケースがないとAIに学習させるのが困難な場合もあるでしょう。
3. 感情分析
最も困難なタイプのデータタグに、人間の感情分析と解釈があります。 人間でさえ作者の本当の感情を読み取るのに苦労することがあるように、コンピューターがユーモアや皮肉を含んだ人間のコミュニケーションを検出するのは非常に困難です。 感情分析や個人の意見に関する文章は、文章内の感情、気分、意見や雰囲気などを元にNLP機能がタグ付けを行います。Eコマースにおいてもっとも活用されるのは顧客のレビューです。
感情分析ツールは、データを元にSNSを精査したりサイトをレビューしたりすることで、売り手がマーケティング戦略を調整するのに役立つブランド認知度に関する効果的なリサーチを行います。