マンスリー・エッセイ
5月
10日月曜日

Back Number

About the Author

Mail to the Author

 

 

 #4 1999年:「私はMacintosh」

 

まえがき(あるいは、まえあがき?)

murat氏がBe Be Rumorsでも書いていたように、今年に入ってからも忙しい日々が続いている。本連載もこれまでのように過去のメモを漁り、インターネットの情報を検索しまくって、肩肘はって書いていたのでは、とても月1回ペースを持続できそうにない。

そこで、現在重荷となっている仕事が一段落するまでは、少しリラックスして、筆者の曖昧な記憶をもとに短めのコラムを書くことにしたい。

 

いまから始まるWWDCの隠し玉

'99年5月10日よりアップル社は年に1度の世界開発者会議(Worldwide Developers Conference。略称WWDC)を開催する。これはMacにハード・ソフト製品を提供する開発者を対象に、アップルの今後の戦略やこれからリリースを行う新技術を紹介し、早くから準備をしてもらおうという趣旨のイベントだ。5日間の会期中に100を越える細かなセッションが行われる〔註1〕

今年のWWDCは、OSだけでもMac OS 8.6、Sonata、Mac OS X、Mac OS X Serverと目玉が多い。さらにクロックアップ版のPower Mac G3や新PowerBook G3の発表も噂されており、待望のコンシューマーポータブル機が発表されるという噂も絶えない。

今年のWWDC 99のスケジュールはアップル社の開発者向けWebページで内容が確認できる〔註2〕

スケジュールを見ても、今年のWWDCの目玉が先の4つの次世代OSであることはあきらかだ。しかし、実は筆者には他にもう一つ注目しているセッションがある。音声関連のセッションだ。

アップルはパソコンを使った音声合成・音声認識技術(便宜上、音声技術と記す)では常に他のパソコンより一歩先に進んでいた。Apple IIは1980年には音声合成を実現していたし、Macはそのデビューを自らの声(音声合成の声)で飾った。しかし、1997年3月14日、大規模なリストラが行われると、音声合成技術の開発も取りやめられたことが明らかになった。以来、Macで音声合成・認識を行うソフト、PlainTalkは最新ハードやOSとの互換性を確保するためのマイナーアップデートはされても、大幅な仕様変更はなされていない。

そんななか、今年のWWDCになって突然、音声関連のセッションが用意されているのだから、これに注目しないわけにはいかない。

 

バッグから出られてうれしい

ここで簡単にアップルと音声技術の関わりを振り返ってみよう。アップル製品で初めて音声合成ができるようになったのは1980年のこと。米Street Electronics社が、Apple II用に「Echo」と呼ばれる専用のカードとソフトの組み合わせだった。当時、すでに電話関係のサービスやテレビではコンピューターによる合成音声は登場していたし、ホビイストが自作のマイコンに専用ハードを組み込んでしゃべらせたりはしていたが(*1)、コンピューターに詳しくない人でも使える家庭用コンピューターがしゃべるという事実はやはり衝撃的だった。

最初は物珍しさで人気を呼んでいた音声合成システムだが、これが視覚障害者のための補助システムなどとして注目され始めたのもおそらくこの頃だと思う。

Macはそのデビューを音声合成で飾った。1984年のアップル社株主総会で、スティーブ・ジョブズは専用バッグに隠されていたMacを取り出すと、こう語った。

「今日は、(コンピューターの発表会としては)初めての試みとしてMacintoshそのものに自己紹介してもらおうと思う」

集まった株主たちが発表されたばかりの未来からのパソコンのその斬新なデザインに目を奪われたのもつかの間、今度はそのコンピューターがしゃべりだしたのだ。

「こんにちは。私はMacintoshです。あのバッグから出られてうれしく思っています」

音声合成を実現していた技術の名は「MacinTalk」。ジョブズがMacにはぜひ何か他のコンピューターにはできない特徴が欲しいと、外部のベテランプログラマーを集めてつくらせたものだと言われている。おそらく、世界でも初めてのソフトウェアのみの音声合成技術で、これが実現できたのは初代Macが他のパソコンよりも圧倒的に優れたサウンドチップを搭載していたからに違いない。

MacinTalkは、Mac OSの標準機能ではなかったが、パソコン通信やユーザーグループの集まりでもらえるフロッピーディスク、MacinTalkを応用したアプリケーション製品などを通して比較的簡単に入手することができた。  どういう政策だったのか定かではないが、昔のMacにはこうした特殊ルートからのみ入手可能なOS機能が多々あった〔註3〕

MacinTalkは、それ以後も何度か細かな改良が加えられたが、あまり目立った存在ではなかった。おそらく一般のMacユーザーが同技術を本格的に使いだしたのは、筆者の曖昧な記憶では、HyperCardで音声合成をするためのソフト(もう何という名前かも忘れてしまった)が登場してからだと思うので、1980年代も後半のはずだ〔註4〕

アップルが音声技術をOSの一部として出荷し始めたのは、それからさらに数年後の1993年秋、Centris 660AV〔註5〕とQuadra 840AVを発表したときのことだった。この二つはMacの歴史の中でただ2台だけのDSP〔註6〕を搭載したMacintoshだ。一時はCoplandプロジェクトの開発も仕切ったイタリア系アメリカ人、ビート・サルバジオ氏が製品担当マネージャーだった。

出た当初、サルバジオは処理内容によってはPowerPCのみを搭載した場合のMacを上回るだろうと語っていたが、数カ月後、米MacWeek誌が、PowerPC搭載Mac〔註7〕にはDSPがつかないといった予想記事を書いた後に会った時は、「PowerPCは高速なのでDSPは必要ない」と発言を改めていた〔註8〕

話が横道にそれたが、この2つのAV MacのOSに付属していたのがPlainTalkで、これは音声合成処理を行うソフトと、音声合成に用いる声のファイルが完全に独立しており、それまでのMacinTalkで採用されていた声に加えて、DSP搭載Mac(そして後に登場したPowerPC搭載Mac)でのみ利用可能な高品質の音声ファイルが用意されていた。後者は新設計のMacinTalk IIという音声合成ソフトを使って言葉を発しており、このソフトは、たとえば「840」という数字を「エイトハンドレッドフォーティー」と発音したり〔註9〕、「Mr.」を「ミスター」といった具合に略語を解釈する機能も加えられていたし、通常の文と疑問文の違いなどもより明確に発音し分けた。

 

ここにも天才技術者がひとり

MacinTalkは、個々の英単語とフェノームと呼ばれる単語の発音の対応付けをした辞書を用いて英語を発音していたが、MacinTalk IIは辞書にないような外来語もかなりアメリカ人に近い読み方で発声した。これが実現できたのは、アップル社の研究開発部門、Advanced Technology Groupに世界でも指折りの音声技術の天才、カイフ・リー博士がいたからだと言われている。

PlainTalkには、さらに驚くべき事実が隠されていた。なんとパソコン用OSとしては世界でも初めて音声認識の技術を採用していたのだ。ちなみに音声認識技術の応用法には、ユーザーが発した言葉をワープロなどに入力するディクテーションソフトと、ユーザーが声で発した命令をコンピューターが実行するボイス・ナビゲーション(音声操作)の2種類があるが、PlainTalkが実現したのは後者の方だ。

サードパーティーの音声認識製品はそれまでにもあった。Mac用製品ではなんといっても米Articulate Systems社のVoiceNavigator〔註10〕がいちばん有名だろう(*2)。同社は今でも音声認識技術に関しては非常に優れた技術を持っており、アップルがPlainTalkでボイス・ナビゲーションを実現すると、同社はPowerSecretaryというディクテーションソフトを発売した。Articulate Systems社はMacコミュニティーに大きく貢献した開発者の一つだが、二、三年前になって、PlainTalkの技術の一部が同社の特許を侵害したという訴えを起こし、この裁判は現在もなお係争中のようだ。

アップルのボイスナビゲーション機能は「Casper」というコード名で開発されていた。その精度もさることながら、ユーザーインターフェースの設計も非常に洗練されており、Mac OSに見事にとけ込んでいた。実行したいアプリケーションのエイリアスを「Speakable Items」というフォルダにいれれば、後はそのファイル名を発声するだけで実行できたのだ。複雑な処理もAppleScriptを使って記録すれば簡単に音声実行できる。

コンピューターが周囲の声に勝手に反応しないように、あらかじめ設定した名前を呼んだときしか耳を傾けないように設定することもできた。

同技術はまた、当時としてはまだ少ない、話者を特定しない音声認識技術だった(*3)。当時はまだ、あらかじめユーザーの声の特徴を登録して使う「話者特定型」音声認識技術が一般的だったのだ。

ただし、認識できるのが一般的な北米英語だけで、なまりが強い場合や、英国・オーストラリアの発音では認識率が極端に落ちるなどの難点もあった。

当時、熱狂的なMacユーザーの間では、このPlainTalkをいかにクールに使いこなすかがホットな話題だった。米国のオフィスでは、社内のWindows勢力に押され気味だったMacユーザーたちが、PlainTalkを使ってオフィスの隅から「ヘイ! Mac、メールをチェックして読み上げろ」などと命令する姿もよく見られたと聞く。

実用性はともかく、アップルもカイフ・リー博士も同技術にはかなりの自信があったに違いない。実際に当時、この技術を他社が真似することは容易ではなかったはずだ。

Power Mac発表会では、(本連載の第2回目ドン・ノーマン博士が登場したと紹介した、同じ)プレゼンテーションビデオの中にカイフ・リー博士が登場し、「PowerPCの採用で、これからのMacでは音声認識などの新しい技術が可能になる」という強い期待感を述べていた。

当時、アップルの音声認識技術に対する期待は大きかった。

音声技術は1990年のKnowledge Navigatorというコンセプトビデオでも主要な役割を果たしていたが、PlainTalkの登場でこれが一歩実現に近づいていたのだ。

当時ATGにいたドン・ノーマン博士らは、Knowledge Navigatorでも紹介されなかったボイスナビゲーションの応用を考えていた。Macを電話を使って遠隔地から操作するというものだ。

AV MacやPowerPC搭載Macは、モデムの機能をDSPやCPUを使ってエミュレーションが可能で、シリアルポートと電話線を仲介するアダプター、「GeoPort Telecom Adapter」を使って完全に電話と融合することができた〔註11〕ので、これはあまり難しいことではなかったはずだ。

筆者も、音声関係の開発をしている技術者から、電話回線を使ってMacを音声操作できる新PlainTalkが完成間近かまでこぎ着けていることを聞いた。しかし、同ソフトは実際にはリリースされず、1996年ギル・アメリオCEO時代にカイフ・リー博士が同社を辞めた(*4)のをきっかけに、音声関連技術の開発は急速に衰退し、以後、PlainTalkも最新ハードや最新OSに対応するためのマイナーアップデートしか行われないようになっていた。

ちなみに、ここまで書いたのはすべて、英語の音声合成・音声認識技術の話だ。

 

アップルが出す次世代音声技術とは

Macでの日本語音声合成は、1996年にリリースされたOpenDocで初めて実現した。これに日本語音声合成をするためのソフトが含まれていたのだ。当時、日本のアップルの社長だった志賀徹也氏は英語に比べて文字体系の複雑な日本語では音声関連の技術が非常に重要として、米アップル社に対して、積極的に日本語の音声関連技術の開発促進を呼びかけると約束していたが、氏は同年、突然、社長の座を退任し、以後、アップルからは日本語音声関連技術に関してはあまり聞くことがなくなってしまった。

もっとも、音声合成に関しては、英語であろうと日本語であろうと、単語とその発音に関するデータさえあればちゃんと発音できるのだ。アップルはこの辞書をすでに持っているし、Mac OS 8以降のMac OSは日本語の文章を形態素解析という方法で分析して漢字の読みなどを割り出す機能も搭載されている。その辞書には、発生時の正確なイントネーションなどの情報も記録可能だ。

アップルの音声認識技術もまたフェノームに頼っている。ユーザーが発した声をフェノームに変換して、辞書から対応する語を割り出すのだ。つまり、音声合成用の辞書がしっかりできていれば(同音異義語の問題などはあるにしても)音声認識技術の日本語対応の土壌にもなるのではないかと筆者は勝手に憶測している。

アップルの音声関連技術のデザインは非常に整然としている。この整然とした仕組みのおかげで、他言語に応用したり、ディクテーション技術へと発展させることも(もちろんそれなりの手間はかかるが、無から開発することを考えれば)比較的楽なのではと想像している。ちなみにアップルは英語でも日本語でもないが、ディクテーション用ソフトも開発している。米本社についでもっとも優秀なスタッフが集まっていたといわれる、ATGのシンガポール支部で開発された中国語音声認識ソフトで、同ソフトは発表された当時、非常に高い評価を受けていた。

今年のWWDCで(*5)、アップルはいったいどんな音声関連技術を発表するのか、筆者は今から楽しみでならない(*6)。 いずれにせよ、これまで15年間で煩雑なマウス操作が主体になってしまったパソコンのユーザーインターフェースにまもなく大きな変化が期待できることは間違いなさそうだ。

(WWDC出発12時間前)


 

*11977年に創刊した月刊ASCII誌の最初の特集は音声関連の技術だった。

*21990年に創刊した月刊MACPOWER誌はこのVoiceNavigatorを大々的にフィーチャーしている。

*3マサチューセッツ工科大学、メディアラボ所長のニコラス・ネグロポンテ氏は彼の著書『Being Digital』(邦題『ビーイング・デジタル』アスキー出版局刊)の中で、アップルも話者特定型技術を採用していればもっと早く技術を完成できたし、パソコンを他ユーザーに濫用されないという売りにもできたと書いている。実際、一番望ましいのは、その両方の機能を備えることだろう。

*4この件に関してはギル・アメリオ著の『アップル 薄氷の500日』(ソフトバンク刊)の中にも書かれている。筆者はこの2年前、リー博士と共にATGで音声認識技術の研究をしていた博士の愛弟子2人がマイクロソフト社によって引き抜かれていたことを確認している。音声関連技術には、アップルのみならず、IBMやマイクロソフトも積極的で、IBMはViaVoiceというベストセラー製品で長年の研究の成果を結実させている。マイクロソフトは次期OSのWindows 2000でこれを結実させるようだ。ちなみに日本ではNECや富士通が非常に早い時期からこうした研究開発を行っており、NECは1980年頃には当時のベストセラーパソコン、PC-8001用に、日本語音声認識用周辺機器を発売していた。

*5ちなみにセッションのタイトルになっている「Ask-And-Tell」は、ドン・ノーマンらの全盛期であった1994〜5年頃のアップルがよく用いていた言葉だ。

*6一部では、アップルがIBMにVia Voice Mac版開発の約束を取り付けたという噂もある。これが本当ならそれはそれでうれしいが、もし発表内容がそれだけなら、それはちょっと寂しい。

 

〔註1〕
最新技術のプレゼンテーションだけでなく、開発者からの声を聞くフィードバックセッション、さらには開発者とアップルのエンジニアの知恵問答のような遊び要素の濃いセッションもある

〔註2〕
もっとも、これは部外者に見られても構わないように色づけされたスケジュールで、実際のスケジュールは実際に参加するまでわからないのだが。

〔註3〕
MIDI機器とのやりとりを管理するMIDI Managerもその一つだ。
〔註4〕
もっともこの間、Macの優れたサウンド機能はStudio Session、MacRecoder、SoundEdit、ConcertWareなど数々の名作ソフトを生み出した
〔註5〕
後にQuadra 660AVと改名された。
〔註6〕
Digital Signal Processorの略。特定のデータ処理を高速化させる専用チップ。
〔註7〕
初代Power Macのこと。この翌年発表された
〔註8〕
おそらくアップルの社内ではDSPの採否で激しい論争や派閥争いが行われたのだろう。当時の筆者は、PowerPCがいかに速くても、DSPを搭載すれば負荷の分散ができるし、それはそれでいいと思っていたが、サルバジオは 「PowerPCは高速なのでDSPはいらない」 の一点張りだった
〔註9〕
それまでのMacinTalkは「エイト・フォー・ゼロ」と数字の並びをそのまま読み上げていた
 
〔註10〕
専用ハード、マイク、ソフトで構成されている
 
〔註11〕
具体的にはMacそのものを留守番電話機能付き電話機、FAX、モデムとして使うことができた
 
Copyright 1999 by Nobuyuki Hayashi, Boiled Eggs Ltd. All rights reserved.