WordファイルをMarkdownへ変換

はじめに

WordファイルをMarkdownへ変換するために、pandocというツールを使用した。その実行方法について記載する。

環境

  • Windows11(ホストOS)
  • WSL2
  • Ubuntu 22.04.3 LTS(WSL2上)

環境構築

pandocをUbuntuにインストールする。

$ apt install -y pandoc

実行

実行コマンド

$ pandoc -s 入力.docx --wrap=none --extract-media=media -t gfm -o 出力.md

以下は、Markdownへ変換する際のオプションの説明です。

  • --wrap=none

出力時のwrap(枠を超えないように複数行に折り返し指定する処理)の設定をします noneを指定することで、1行を72文字で折り返す処理を無効化します デフォルトだと勝手にwrapされる。

  • --extract-media=DIR

出力先のフォルダを引数で指定する。 docxに埋め込まれたpngなどが抽出されて、指定した DIR フォルダ内に格納される

  • -t gfm

出力形式として、gfm (GitHub-Flavored Markdown) はGitHub形式のMarkdownでを指定する デフォルトだとPandoc形式のMarkdownになる。

実行例

実際に次のtest.docxというファイルに対して実行した場合を記載する。

$ ls
test.docx

#変換
$ pandoc -s test.docx --wrap=none --extract-media=media -t gfm -o test.md

#確認
$ ls -la
drwxrwxrwx 1 ubuntu ubuntu    512 Apr 20 09:16  media
-rwxrwxrwx 1 ubuntu ubuntu 392082 Apr 20 09:14  test.docx
-rwxrwxrwx 1 ubuntu ubuntu     70 Apr 20 09:16  test.md

#markdownの中身を確認
$ cat test.md
# Aaaa

## Iiiii

テスト文章です

![](media/media/image1.jpeg)

#画像の確認
$ ls media/media/
image1.jpeg

参考

pandoc.org

tex2e.github.io