Appleは、自社の機械学習ジャーナルウェブサイトで新しいホワイトペーパーを公開しました。このホワイトペーパーでは、差分プライバシーを活用しながらも、iOSアナリティクスを活用して製品をどのように改善しているかが詳述されています。Appleを批判する人々は、ユーザーデータのプライバシー保護に多大な努力を払っているため、機械学習に関しては競合他社に遅れをとっていると主張しています。
しかし、Appleは機械学習とプライバシーを両立できることを一貫して示しており、同社が使用している技術は「差分プライバシー」と呼ばれています。その仕組みについては以前にも少し触れましたが、今回の最新論文にはさらに詳しい情報が含まれています。論文よりも詳細な情報が掲載されたPDF版も公開されています。

大規模なプライバシー保護学習
iOSアナリティクスにオプトインすると、Appleはイベントごとにイプシロンと呼ばれるプライバシーパラメータを作成します。イプシロンの値は情報の種類によって異なります。よく使われる絵文字など、特定のデータは他のデータほどプライバシーを保つ必要はありません。デバイス上でイベントが作成されると、データは直ちにプライバシー保護され、一時的に保存されます。データはすぐにAppleのサーバーに送信されるわけではなく、デバイスの状態に応じて送信されます。
システムはプライベートレコードからランダムにサンプルを抽出し、サーバーに送信します。これらのレコードには、デバイス識別子やイベント発生時のタイムスタンプは含まれません。デバイスとサーバー間の通信はTLSを使用して暗号化されます。
アルゴリズム
データ処理には、Private Count Mean Sketchアルゴリズム(CMS)、Private Hadamard Count Mean Sketchアルゴリズム(HCMS)、そしてSequence Fragment Puzzle(SFP)アルゴリズムという異なるアルゴリズムが使用されています。各アルゴリズムはそれぞれ異なる処理を行いますが、詳細は論文をご覧ください。

しかし、この論文には、アルゴリズムが人気のある絵文字を発見し、新しい単語を発見し、ウェブサイトSafariでの使用状況を特定する方法も含まれています。絵文字に関しては、CMSアルゴリズムはm=2014、k=65,536、e=4というパラメータを使用し、辞書サイズは2600個の絵文字です。
エネルギーとメモリの使用量が多いウェブサイトを特定するために、HCMSアルゴリズムのパラメータはm=32,768、k=1024、e=4で、辞書サイズは250,000ウェブドメインです。最後に、自動修正機能を向上させるためにSFPアルゴリズムを使用します。