メディア変換

Derek Herman
Derek Herman
Joe Medley
Joe Medley

この記事では、メディア ファイルの特定の特性を変換して操作するための一般的なコマンドについて説明します。すべてのプロシージャで同等のオペレーションを示すようにしましたが、すべてのオペレーションが両方のアプリケーションで可能なわけではありません。

多くの場合、ここで説明するコマンドは 1 つのコマンドライン オペレーションに結合されており、実際に使用されるときに使用できます。たとえば、ファイル変換と同じオペレーションで出力ファイルのビットレートを設定できます。この記事では、わかりやすくするために、これらのオペレーションを個別のコマンドとして頻繁に示しています。

変換は以下のアプリケーションで行われます。

ディスプレイ特性

Shaka Packager と FFmpeg の両方を使用して、メディア ファイルの内容を検査し、ストリームの特性を表示できます。ただし、どちらも同じメディアに対して異なる出力を提供します。

Shaka Packager を使用した特徴

packager input=glocken.mp4 --dump_stream_info

出力は次のようになります。

File "glocken.mp4":
Found 2 stream(s).
Stream [0] type: Video
 codec_string: avc1.640028
 time_scale: 30000
 duration: 300300 (10.0 seconds)
 is_encrypted: false
 codec: H264
 width: 1920
 height: 1080
 pixel_aspect_ratio: 1:1
 trick_play_factor: 0
 nalu_length_size: 4

Stream [1] type: Audio
 codec_string: mp4a.40.2
 time_scale: 48000
 duration: 481280 (10.0 seconds)
 is_encrypted: false
 codec: AAC
 sample_bits: 16
 num_channels: 2
 sampling_frequency: 48000
 language: eng
 seek_preroll_ns: 20833

FFmpeg を使用した特徴

ffmpeg -i glocken.mp4

出力は次のようになります。

Input #0, mov,mp4,m4a,3gp,3g2,mj2, from 'glocken.mp4':
  Metadata:
    major_brand     : isom
    minor_version   : 512
    compatible_brands: isomiso2avc1mp41
    encoder         : Lavf57.83.100
  Duration: 00:00:10.03, start: 0.000000, bitrate: 8063 kb/s
    Stream #0:0(eng): Video: h264 (High) (avc1 / 0x31637661), yuvj420p(pc), 1920x1080, 7939 kb/s, 29.97 fps, 29.97 tbr, 30k tbn, 59.94 tbc (default)
    Metadata:
      handler_name    : VideoHandler
    Stream #0:1(eng): Audio: aac (LC) (mp4a / 0x6134706D), 48000 Hz, stereo, fltp, 127 kb/s (default)
    Metadata:
      handler_name    : SoundHandler
At least one output file must be specified

音声ストリームと動画ストリームを Demux(分離)する

Shaka Packager は、ファイルの変換時に逆多重化を必要とします。これは、メディア フレームワークを使用する場合にも必要です。

Shaka Packager のデマルチプレクシング

MP4

packager input=myvideo.mp4,stream=video,output=myvideo_video.mp4
packager input=myvideo.mp4,stream=audio,output=myvideo_audio.m4a

または

packager \
  input=myvideo.mp4,stream=video,output=myvideo_video.mp4 \
  input=myvideo.mp4,stream=audio,output=myvideo_audio.m4a

WebM

packager \
  input=myvideo.webm,stream=video,output=myvideo_video.webm \
  input=myvideo.webm,stream=audio,output=myvideo_audio.webm

FFmpeg のデマルチプレクシング

MP4

ffmpeg -i myvideo.mp4 -vcodec copy -an myvideo_video.mp4
ffmpeg -i myvideo.mp4 -acodec copy -vn myvideo_audio.m4a

WebM

ffmpeg -i myvideo.webm -vcodec copy -an myvideo_video.webm
ffmpeg -i myvideo.webm -acodec copy -vn myvideo_audio.webm

音声ストリームと動画ストリームを再多重化する(結合する)

状況によっては、音声と動画を 1 つのコンテナに結合し直す必要があります。特にメディア フレームワークを使用しない場合はなおさらです。これは FFmpeg で十分に処理できるため、Shaka Packager は現在サポートしていません。

ffmpeg -i myvideo_video.webm -i myvideo_audio.webm -c copy myvideo.webm

変更の特徴

ビットレート

FFmpeg の場合は、これを .mp4 または .webm に変換する際に行うことができます。

ffmpeg -i myvideo.mov -b:v 350K myvideo.mp4
ffmpeg -i myvideo.mov -vf setsar=1:1 -b:v 350K myvideo.webm

サイズ(解像度)

ffmpeg -i myvideo.webm -s 1920x1080 myvideo_1920x1080.webm

ファイル形式

Shaka Packager は .mov ファイルを処理できないため、この形式からのファイルの変換には使用できません。

.mov から .mp4

ffmpeg -i myvideo.mov myvideo.mp4

.mov から .webm

ffmpeg -i myvideo.mov myvideo.webm

音声と動画を同期する

再生中に音声と動画が同期するように、キーフレームを挿入します。

ffmpeg -i myvideo.mp4 -keyint_min 150 -g 150 -f webm -vf setsar=1:1 out.webm

MP4/H.264

ffmpeg -i myvideo.mp4 -c:v libx264 -c:a copy myvideo.mp4

MP4 用のオーディオ

ffmpeg -i myvideo.mp4 -c:v copy -c:a aac myvideo.mp4

WebM/VP9

ffmpeg -i myvideo.webm -v:c libvpx-vp9 -v:a copy myvideo.webm

WebM 用の音声

ffmpeg -i myvideo.webm -v:c copy -v:a libvorbis myvideo.webm
ffmpeg -i myvideo.webm -v:c copy -v:a libopus myvideo.webm

ビデオ オンデマンドとライブ ストリーミング

この記事で説明するストリーミング プロトコルは 2 種類あります。1 つ目は Dynamic Adaptive Streaming over HTTP(DASH)です。これは適応型ビットレート ストリーミング技術であり、ウェブ標準ベースの方法でビデオ オンデマンドを表示します。2 つ目は HTTP Live Streaming(HLS)です。HLS は、ウェブのライブ ストリーミングとビデオ オンデマンドの Apple の標準です。

DASH/MPD

この例では、音声ストリームと動画ストリームから Media Presentation Description(MPD)出力ファイルを生成します。

packager \
  input=myvideo.mp4,stream=audio,output=myvideo_audio.mp4 \
  input=myvideo.mp4,stream=video,output=myvideo_video.mp4 \
  --mpd_output myvideo_vod.mpd

HLS

これらの例では、音声ストリームと動画ストリームから M3U8 出力ファイルを生成します。これは、UTF-8 でエンコードされたマルチメディア再生リストです。

ffmpeg -i myvideo.mp4 -c:a copy -b:v 8M -c:v copy -f hls \
  -hls_time 10 -hls_list_size 0 myvideo.m3u8

または:

packager \
  'input=myvideo.mp4,stream=video,segment_template=output$Number$.ts,playlist_name=video_playlist.m3u8' \
  'input=myvideo.mp4,stream=audio,segment_template=output_audio$Number$.ts,playlist_name=audio_playlist.m3u8,hls_group_id=audio,hls_name=ENGLISH' \
  --hls_master_playlist_output="master_playlist.m3u8"

ファイルの変換方法を理解できたところで、この記事で学んだ内容を基に、次にメディアの暗号化について学習しましょう。