IBM watsonx.ai DojoでRAGとして様々なファイルのフォーマットを使用するための変換ツールを紹介していただきました。 それが今回紹介するDoclingです😊 Doclingとは? Doclingは、簡単にいうならば様々なドキュメントに対応したHTML、Markdown、JSONへのコンバートツールになります。 ds4sd.github.io 【Doclingの特徴】 一般的な文書フォーマット(PDF、DOCX、PPTX、XLSX、画像、HTML、AsciiDoc、Markdown)を読み取り、HTML、Markdown、JSON(埋め込み画像や参照画像付き)にコンバート可能 ページレイアウト、読み取り順序、表構造を含む高度なPDF文書理解の能力もつ DoclingDocumentを使用することで、統一性と表現性を実現 LangChain、LlamaIndex、Crew A