MarkItDownという「なんでもMarkdownにしてくれるライブラリ」が話題になっています。 先日の記事にも書いたんですが、内製チャットボットでは外部ファイルをどうAIが解釈可能な文字列として読み込ませるか悩むことが多いです。 すでにQiitaにも記事はあって若干煎じなんですが、もう少し社内のユースケースにありそうなものを試してみようと思います。 先にまとめ Unstructuredではライブラリそのものや機械学習モデルのサイズが大きいのに対して、MarkItDownでは一般的なライブラリのみです。画像や音声はOpenAI APIに頼っています。 Unstructuredを使っているとどうしてもデプロイに時間がかかったり、モデルダウンロード時の問題が発生したり困ることが多かったので。 pdfminer内でOCRモデル使っていたのでこのメリットは小さそうでした🥺 また、HTMLの構造