成年女人免费碰碰视频-国产精品一区二区熟女不卡-激情视频一区二区三区-毛片黄色片在线观看-碰超免费人妻中文字幕-少妇与黑人一二三区无码

首頁 > 生活分享 > 免費教學 > OpenAI 發布 o1-mini : 更經濟高效的推理模型 | LibreOffice 24.8.1 發布

OpenAI 發布 o1-mini : 更經濟高效的推理模型 | LibreOffice 24.8.1 發布

發布時間:2024-09-16 16:27:04

OpenAI 發布 o1-mini:更經濟高效的推理模型

OpenAI 推出 o1-mini,一款專注于 STEM 領域的經濟高效推理模型。o1-mini 在數學和編碼方面表現出色,接近 OpenAI o1 的水平,同時成本更低,速度更快。

一、o1-mini 簡介

  • OpenAI o1-mini 是一款專注于 STEM 領域的經濟高效推理模型,尤其擅長數學和編碼。
  • o1-mini 在 AIME 和 Codeforces 等評估基準測試中接近 OpenAI o1 的性能。
  • o1-mini 比 OpenAI o1-preview 便宜 80%,并且延遲更低,速率限制更高。

二、o1-mini 的優勢

  • STEM 領域推理能力強 :o1-mini 經過專門優化,在 STEM 領域表現出色,尤其在數學和編碼方面。
  • 成本效益高 :o1-mini 比大型語言模型更小,因此運行成本更低,更適合實際應用。
  • 速度更快 :o1-mini 的響應速度比大型語言模型更快,例如在單詞推理問題上比 GPT-4o 快 3-5 倍。

三、o1-mini 的性能表現

領域

基準測試

o1-mini

o1-preview

o1

GPT-4o

數學

AIME

70.0%

44.6%

74.4%

-

編碼

Codeforces Elo

1650

1258

1673

-

STEM

GPQA (科學)

更高

更低

-

更低

STEM

MATH-500

更高

-

-

更低

 

MMLU

-

-

-

更高

  • o1-mini 在 AIME 數學競賽中取得了 70.0% 的成績,與 o1 (74.4%) 相當,并優于 o1-preview (44.6%)。
  • o1-mini 在 Codeforces 編碼競賽中獲得了 1650 Elo 的評分,與 o1 (1673) 相當,并高于 o1-preview (1258)。
  • 在一些需要推理能力的學術基準測試中,例如 GPQA (科學) 和 MATH-500,o1-mini 的表現優于 GPT-4o。
  • 在人類偏好評估中,o1-mini 在需要推理能力的領域優于 GPT-4o,但在語言類領域則不如 GPT-4o。

四、o1-mini 的安全性

  • o1-mini 采用與 o1-preview 相同的對齊和安全技術進行訓練。
  • 在內部版本的 StrongREJECT 數據集上,o1-mini 的越獄魯棒性比 GPT-4o 高 59%。

指標

GPT-4o

o1-mini

對有害提示的拒絕率(標準)

0.99

0.99

對有害提示的安全完成率(挑戰:越獄和邊緣案例)

0.714

0.932

對良性邊緣案例的合規性(“不過度拒絕”)

0.91

0.923

Goodness@0.1 StrongREJECT 越獄評估

0.22

0.83

人工來源的越獄評估

0.77

0.95

五、o1-mini 的局限性

  • o1-mini 在非 STEM 主題(如日期、傳記和冷知識)方面的知識儲備有限。

六、未來展望

  • OpenAI 將在未來版本中改進 o1-mini 在非 STEM 領域的知識儲備。
  • OpenAI 還將嘗試將 o1-mini 擴展到其他模態和 STEM 以外的專業領域。

OpenAI o1-mini 是一款專注于 STEM 領域的經濟高效推理模型,在數學和編碼方面表現出色。o1-mini 比大型語言模型更經濟、更快,是需要推理能力但對世界知識要求不高的應用的理想選擇。

來源:

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

 

LibreOffice 24.8.1 發布,注重隱私保護的辦公套件

2024 年 9 月 12 日 – LibreOffice 24.8.1 發布! 這是 LibreOffice 24.8 系列的第一個次要版本 ,適用于 Windows(Intel、AMD 和 ARM)、macOS(Apple 和 Intel)和 Linux。

主要特點

  • 注重隱私: LibreOffice 24.8 系列專為注重隱私的辦公套件用戶而優化,他們希望完全控制自己共享的信息。LibreOffice 確保用戶能夠決定是否以及與誰共享他們創建的內容。
  • 功能豐富: LibreOffice 提供了一系列界面選項,以適應不同的用戶習慣,從傳統到現代,并通過優化桌 面上的可用空間,最大限度地利用不同的屏幕尺寸,只需點擊一兩次即可實現最多的功能。
  • 完全互操作性: LibreOffice 基于 LibreOffice 技術引擎,可提供更好的用戶體驗,并生成基于兩種可用 ISO 標準的相同且完全可互操作的文檔:開放文檔格式 (ODT、ODS 和 ODP) 和專有的 Microsoft OOXML (DOCX、XLSX 和 PPTX)。
  • 企業級支持: TDF 強烈推薦生態系統合作伙伴提供的 LibreOffice Enterprise 系列應用程序,適用于桌面、移動和云,具有廣泛的專用增值功能和其他優勢,例如 SLA。

免費教學更多>>

男子連買三臺小米汽車 稱永久不會賣 雷軍祝賀 宇樹機器人Unitree H1 和 G1 人形機器人從2025年開始上線后便迅速售罄,尤其是 G1 機型以 9.9 萬元開啟預售 蘇州主場降溫機器人出大招:具備吹風、排煙、滅火三合一功能 “挺不過明年”的長城,越來越強大?魏建軍的造車術 王傳福突訪小米汽車工廠,他是最早知道雷軍造車能成的人 奧迪A3/S3再次改款,內飾變化可能最大 德系豪華全力反擊 寶馬奔馳奧迪四款新車來襲 全新寶馬iX3領銜 消費稅“剪刀”下的豪車市場:洗牌與新生! 捷豹路虎明年推六款電動新車,攬勝純電動版首發 逆勢六連漲,上汽集團上半年銷量奪冠顯鋒芒 “蕪湖邁巴赫”火了,試車排隊!高管:4S店營業延至22點 “蕪湖邁巴赫”火了,試車排隊!高管:4S店營業延至22點 猛士M817開啟預售:搭載華為智能越野技術方案,32.99萬起 OpenAI之后,蘋果也被Meta挖麻了 疑似2名龐若鳴嫡系出走 上汽邵景峰:新能源車時代的最大困境是同質化,摘掉標大家都一樣 中東、非洲、拉美:中企出海的新三極 三星Galaxy Watch8系列智能手表新增電池保護:充電上限90% Meta全新AI組織架構曝光,這范兒有點字節 商務部部長會見黃仁勛:希望英偉達提供可靠產品服務 爭議聲中,李想還能再贏一把? 為出行提供更多情緒價值,沃爾沃EX30 CC上市售23.38萬元 天仙下凡當奶媽,油車老頑固動搖了 又提“油電同權”新勢力汽車,有些人干嘛這么著急? 特斯拉急了,這回真要死磕一款爆單奶爸車 加長戰對手,6座特斯拉Model Y L有無戲 新晉爆款沃爾沃EX30 CC:高級質感硬剛Smart#1! 今秋上市,享界S9T申報圖曝光,北汽集團上半年銷量同比增長6% 純電動跨界SUV,沃爾沃EX30 Cross Country售價23.38萬 理想高管回應MEGA交付時間久:曾因銷量慘淡縮減產能 30億元/臺!全球首臺頂級光刻機出貨 支持后2nm工藝:中國廠商不可能買到
主站蜘蛛池模板: 国产精品成人av在线观看| 7777久久亚洲中文字幕蜜桃| 亚洲日韩国产中文其他| 内射女校花一区二区三区| 中文字幕日韩精品有码视频| 亚洲日韩乱码中文无码蜜桃| 中文字幕人妻丝袜美腿乱| 亚洲日韩久久综合中文字幕| 人妻综合专区第一页| 午夜影视啪啪免费体验区入口| 国产97色在线 | 亚洲| 特级a欧美做爰片第一次| a级毛片免费观看在线播放| 亚洲国产精品无码观看久久| 国产亚洲欧美日韩精品一区二区| 毛片无码免费无码播放| 国产一区二区三区久久精品| 国产精品区一区第一页| 一区二区三区波多野结衣在线观看| 无码人妻一区二区三区av| 免费看性视频xnxxcom| 久久久久久午夜成人影院| 国产男女猛| 国产综合亚洲区在线观看| 欧美性猛交ⅹxxx乱大交妖精| 精品一区二区三区| 亚洲综合无码一区二区三区不卡| 国产18禁黄网站免费观看| 成人无码a区在线观看视频| 色婷婷网| 中文字幕日本六区小电影| 精品国产福利拍拍拍| 国产精品-区区久久久狼| 动漫h无码播放私人影院| 情侣做性视频在线播放| 亚洲综合一区无码精品| 亚洲女初尝黑人巨| 天天爽天天爽天天爽| 亚洲欧美va在线播放| 成人综合伊人五月婷久久| 国内精品久久毛片一区二区|