テキスト分類アルゴリズムの脆弱性

GigaZineで下記の記事が出ていました。

自然言語処理などに利用されるAIモデルは言葉の「言い換え」に脆弱であると研究者らが指摘 - GIGAZINE

記事によれば、攻撃が難しいとされるスパムメールフィルタのような「テキスト分類アルゴリズム」に対して、ハッキングの可能性が出てきたというものです。

具体的には、文章の意味が同じになるように単語や言い回しを変えることで、フィルタをスルーしたり、評価結果を変えてしまうというものです。

その結果、人間がハッキングされた結果アウトプットを読んでも、評価が変わったことを発見できないと記事に書かれています。

言い換え攻撃のポイントは、元の文章の意味を保ったまま一部の言葉だけを言い換えるため、人間に知覚されることはないという点です。

テキスト分類アルゴリズムは意外と単純

考えてみると、テキスト分類アルゴリズムの仕組みは比較的単純で、誤解を恐れずに言えば、文章中の単語の出現個数／頻度を算出して、怪しい単語が一定の割合／頻度で出てきたら引っ掛けるというものです。

記事の事例でいうと、下記のようなものになります。

例えば、製品レビューで「価格はそこにある大企業の一部よりも安い」という文章を、「価格を以下のビッグネームの一部よりも安い」というものに言い換えることで、意味的には同じものであると感じられるものの、レビューをチェックするAIモデルのレビューへの評価を「100％ポジティブ」なものから「100％ネガティブ」なものに変更することに成功したそうです。

この入れ替えの発見が意外と難しいのは、下記のツイートから推察できます。

特に「否定文」の分析で相当に高度な技術がを使っているので、テキスト分析はなかなか奥深いと思われます。

まったく解らないよ　→　「解る（否定）」
いまいち解りにくい　→　「解る（否定）」
まぁ解らないこともないか　→　「解る」
もし解らなければ尋ねるよ　→　「解る」

…という感じで区別して抽出できます。文錦™シリーズは決して安価とは言えませんが、KH Coderがより便利に、より強力に。
— KH Coder (@khcoder) 2019年1月29日

最近、テキスト分析が仕事に関連しつつあり、こういう記事に触れることが多くなっています。

また気付いたらまとめていきたいと思います。

では、また。

tommy24july blog

名前：tommy24july / ウナギオウ　twitterアカウント　：　@unagiou　　タスク管理や仕事術、組込みソフトウェアに関することを書いています。

2019/04/03　AIによる自然言語処理

テキスト分類アルゴリズムの脆弱性

テキスト分類アルゴリズムは意外と単純