実は随分前からAI使ってる


Googleの音声入力

 昔から予想するのにAIを使っているのではなく、「先週の結果分析」のコメントデータの半分以上はAIが書いてます。予想にAI使い出したのは最近。

 何の事は無い「Google ドキュメント」の音声入力の機能を使っているだけなのですが…。コロナの影響でzoomとかmeetとか所謂テレビ会議をする事が増えているかと思います。テレビ会議するという事はPCやスマホについているカメラやマイクを使っているという事で、マイクがあれば誰でも割と簡単にこの「音声入力」ができます。マイクに向かってしゃべれば、Googleの音声入力(AI)がテキストで文字を打ってくれます。

音声入力は探せばいろいろありそうですが、今のところ無料で使えてランニングコスト(サブスク等の月額費用)もかからないのと、「使えない」と言ってる人も見かけるのですが、逆にこれで十分かなと。

ソース

 今更ではありますが、大昔(2001年ごろ)は確かに「先週の結果分析」の番組をビデオデッキで録画し、再生と巻き戻しを繰り返してテレビから出てくる音を聞いて、テキスト化していました。流石に、再生を巻き戻しを繰り返すのにビデオは非効率と感じ、速攻でチューナーをmpeg録画につなげてPCで録画。PCで録画させれば、簡単に5秒戻しや10秒戻しもできたり任意の時間が設定できるので、テキスト起こしをするには楽。

 かなり脱線しますが、録画したファイル容量が巨大で保存するにも当時はまだHDDが高く、DVDのメディアに焼こうにも1枚1000円くらいしていたので、音声部分と動画部分を切り離して別々に圧縮し、音声部分はmp3形式・動画部分はDivxとかのエンコーダー使って圧縮し、60分番組を250MBぐらいまで落としてCDRに焼いて保存していた。なので、古い先週の結果分析も競馬の仕事から離れていた2007年・2008年ごろ以外は全部電子データで持っている。流石に動画にテロップを入れたりとかまではできないが、ファイル形式とか圧縮とか部分カット等くらいの動画編集なら難しくない。ここについてはまた後日。

 本題に戻るとソースはグリーンチャンネルをPCで見て(再生できて)、録画したファイル。今だとグリーンチャンネルWebがあるが、ある程度ネット回線が良くないと切断されて見れなくなる事があるので、個人的には録画には向かないと思う。
自宅のネット回線が光とかなら問題ないと思うけど、ポケットwifiとか携帯の回線をテザリングしてるとかは切断される可能性が高い(回線が不安定)ので、PCにチューナーをつけれるならつけた方が良い。回線の問題以外にも画質の問題で、グリーンチャンネルwebと通常のテレビとではやは画質の差が歴然なので、無観客競馬で土日の17時までテレビでグリーンチャンネルが見れるので、見てみるとよくわかるかと思う。
 私の方環境がデスクトップなので、PIXELAのPCIeのチューナーを使って、グリーンチャンネルを契約している。

 バンドル(付属)の録画ソフトもあるが、Bandicam使って録画している。もちろんBandicamのライセンス払った有料版。

テキスト化

動画ファイルができたらあとは簡単で、Google ドキュメントを開いて、「ツール→音声入力」でマイクを起動し、動画を再生するだけ。あとはほぼ勝手にGoogleのAIが音声をテキストに起こしてくれる。
ただ、この時再生する音をPCの中?に向けないと、普通にスピーカーから音が出てきてしまうので、若干設定が必要。スピーカーの前にマイクを持っていくという超アナログでも良いが、

(Windows)
・画面右下のスピーカーマークを右クリックして「サウンド」をクリック
・「録音」を開き「ステレオミキサー」を有効に
・「ステレオミキサー」が見つからない場合は、空白部分で右クリックし、「無効なデバイスを表示」にチェックを入れる

(Mac)
・Soundflowerをインストール
・音声設定の出力をSoundflower(2ch)

にしてやれば、動画を再生するだけでGoogle ドキュメントにテキストが作られて行く。
再生した部分がテキスト化されるので、60分番組なら60分かかる。

テキストの整形

まぁ競馬は専門用語が多いので、GoogleのAIと言えども全部は上手く変換してくれない。←コレがあるから使えないという人がいるんだろうけど、だいたいどの単語をどう変換されるかわかっているので、予め秀丸で変換マクロを作成。変な変換されたら、マクロをアップデートして置換リストを更新している。「1勝クラス」とかちゃんと変換してくれず「一生暮らす」に変換されるので、そんなのを置換リストに入れて↑のテキストが終わったら置換マクロでガーッと置換。これで70%ぐらいできてしまう。
あとは、普通に再生して変換してもらったテキストファイルを見ながら、言い回し等を整形する。結果分析の番組、解説者が期間が変わるので解説者によっては上手くされない方もいらっしゃいますが、そこは仕方ない。
整形して、出来上がったテキストをDBに登録(コピペ)している。このコピペも面倒なので、もうちょっと効率化しようとは思っている。まぁ真っ白な紙に耳で聞いてテキストを起こす労力より、ある程度書いてくれているモノを見ながら整形するのとでは労力が全然違うので、この方法を取っている。
「整形前」と「マクロ置換+整形後」

何にでも使える

コレ何にでも使えるので、書くとやる人が増えそうな気がしなくもないのでこれまで書かなかったが、もう流石に良いかなと。
・youtubeにアップしている人がテロップ作る時のテキスト起こし(字幕ファイル作成とかも可)
・youtubeにアップされている動画の音声をテキスト化
・ネットラジオのテキスト化
・チコちゃんとか情報系テレビ番組のまとめサイト作る時
・グリーンチャンネルのパドック解説を全テキスト化
 (全テキスト化した後DB登録してしまえば、後で見返したりTARGETに出力させたり、パドックからの推奨馬まとめとかも可)
・字幕がないと困る人(耳の不自由な方)への字幕化
 (既にあるのかもしれんけど、ジブリ映画の台詞全部テキスト化とか、競馬の実況のテキスト化とか)

まぁ一昔前よりも色々便利になってきているので、新しいモノは積極的に取り入れて少しは楽しましょうという話でした。2018年の更新からはGoogleの音声入力を使っているので、こうかれこれ2年ぐらいか。たまに変な変換したり、変換ミスってたりするのはチェック漏れです…。

コメントを残す

メールアドレスが公開されることはありません。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください