DropboxはPDF文書と画像にテキスト検索を組み込んでいます

目次:
わずか2か月で2回目となるDropboxの 検索システムが改善され、 PDF文書内のテキストや、PNGやJPGなどの画像ファイルを検索できるようになりました。
Dropbox:欲しいものをどこにでも見つけよう
これがDropboxの前提であると思われます。Dropboxは、ここ数ヶ月間、検索システムの改善に焦点を当ててきた人気のクラウドストレージプラットフォームです。 先月、同社は新しい 機械学習ベースの 検索エンジンを導入し、ユーザーがPDFと画像ファイルの両方でテキストを検索できるようにする光学式文字認識(OCR)機能の改善を発表しました。
「画像形式(JPEG、PNG、GIFなど)は、テキストコンテンツがないため、通常はインデックスに登録できません。一方、テキストベースのドキュメント形式(TXT、DOCX、HTMLなど)は、通常、インデックスに登録できます。 PDFファイルは、テキストと画像のコンテンツを混在させることができるため、中央に残されます。 画像の自動テキスト認識により、 これらのすべてのドキュメントをインテリジェントに区別して、含まれているデータを分類できます。
良いニュースにもかかわらず、現時点では、この新しい改善は2つの側面で制限されています。 一方で、それは英語に限定されているようです :
したがって、ユーザーがこれらのファイルのいずれかに表示される英語のテキスト検索を実行すると、検索結果に表示されます。
一方、 Jon Porter がThe Vergeで 収集 している ため、機能は最も高額なサブスクリプションレベルに制限されています 。
新しい機能は、Dropbox Business AdvancedおよびEnterpriseユーザーが利用できるようになり、プロのDropboxサブスクライバーが数か月以内に利用できるようになります。
操作は昨年のDropboxモバイルアプリにすでに実装されている技術と似ています。アプリを使用してドキュメントを撮影しますが、同時にOCRを実行してテキストを抽出します 。 ただし、これはドキュメントの小さなサブセットでのみ機能しました。
DropboxはOCR機能を検索エンジンに直接実装することで、 スキャンや写真の方法に関係なく 、すべてのPDFファイルおよび画像内のテキストを検索できるようになりました。
DropboxThe Vergeフォント