Nov
20
上次说了,OpenVZ解决方案的VPS内核没有ppp模块, 不能搞PPTP;不过还好,很多服务商都提供tun(有些需要找客服发ticket,有些在管理后台就可以开,比如BurstNet的就在管理后台开),可以搞OpenVPN。据说OpenVPN效率比PPTP要高,不过PPTP的好处是各种OS直接集成(Windows7,iOS,Android……),而OpenVPN就相对折腾一点。
闲话不说了,进入正题。
==== 首先坑的总结,下面特别注意下 ====
1. iptables规则执行完要输入完然后check一下是否规则已经添加
2. 21端口不靠谱
3. tcp协议不靠谱
4. 配置Server的时候不要一路按回车!有些是问[y/n]需要输入 y 的!
闲话不说了,进入正题。
==== 首先坑的总结,下面特别注意下 ====
1. iptables规则执行完要输入完然后check一下是否规则已经添加
2. 21端口不靠谱
3. tcp协议不靠谱
4. 配置Server的时候不要一路按回车!有些是问[y/n]需要输入 y 的!
Nov
16
[UPDATE 11.20] 昨天发现通用PE工具箱出了2.0版本,更新一下,体积增加了一点,并且把GHOST换成了11.5版,这样SSD对齐就不愁了。有需要的同学自己选择吧,下载地址: http://dl.dbank.com/c09zz78k5g
[UPDATE 11.19] 发现无忧论坛有人做了个神器 fbinst和对应的GUI fbinstool,可以把ISO写进去,类似量产的CDROM。
可能很多人不知道U盘其实可以有多个分区的。在U盘的主控与PC通讯的时候,有一个Bit,叫做Removable Media Bit(简称RMB哟),让操作系统知道,这个设备是不是“可移动设备”。对于U盘,这个Bit一般是被设置成1,而移动硬盘则设置成0。所以U盘的分区在我的电脑中被分类到“可移动磁盘”,移动硬盘的分区却是在“硬盘”列表里。Windows有一个强制的规定,如果一个存储设备是可移动磁盘,那么这个设备只能分一个区;即使有多个分区,也只能给第一个分区分配盘符。很霸道吧。据说是因为早期版本的Windows创建对齐的的分区不是xx对齐的,使得闪存的读取效率低,才加了这个规定。反正我觉得不太合理。
题外话1,Linux没有这个限制,可以任意挂载U盘上的分区,所以安卓论坛上会建议某些人把tf卡分出一个区,格式化成ext2,挂载到/data,美名曰app2ext,这样就不需要app2sd,安装到卡上的程序更稳定。
题外话2,很多U盘(但不是所有U盘)的量产工具支持将这个RMB设置为0,这样U盘会被操作系统认为是移动硬盘,就可以分区了;甚至还可以加载一个ISO文件把它当作一个USB光驱来启动系统,详情可搜索 ChipGenius 或者 UpanTool 。
言归正传,手头的U903和S102是IS902主控的,量产工具不太靠谱(第一次买的U903就被我量产挂了,让X东返修,结果它直接给我退货了),只好老老实实当作可移动磁盘用。尽管只能有一个盘符,也还是有些东西可以挖的。折腾了半天,在此推出Felix021版 PE.SATA.U2,功能嘛,就是把网上流传的 《通用PE工具箱v1.9.6》塞进U盘的第二个分区。这个PE工具箱很好用,支持大部分SATA驱动,包含很多好工具,而且还支持安装Vista/ Win7 /2008到硬盘。
好处有3: 1.跟U盘的正常数据区分开来,不会误删,甚至格式化U盘分区都无所谓;2.PE是单独的分区,而且永远不会被Windows载入,不用担心病毒感染;3.(相比于量产+ISO的U盘)不会有多余的分区;4.对不起我数学不好。
下载地址: http://dl.dbank.com/c02b4urxuu ,使用说明在安装包里有了。
注意:1. 并不是所有U盘都支持启动,很多读卡器不支持; 2. 不保证在所有机器上都能启动; 3. 不保证所有SATA都能支持,不支持的话请手动改BIOS设置成IDE模式; 4. 喝完水忘了T_T。
下面是具体实现过程,记录一下,以后如果它有更新,能记得怎么再来一次。。。伸手党可以不用浪费时间了。
[UPDATE 11.19] 发现无忧论坛有人做了个神器 fbinst和对应的GUI fbinstool,可以把ISO写进去,类似量产的CDROM。
可能很多人不知道U盘其实可以有多个分区的。在U盘的主控与PC通讯的时候,有一个Bit,叫做Removable Media Bit(简称RMB哟),让操作系统知道,这个设备是不是“可移动设备”。对于U盘,这个Bit一般是被设置成1,而移动硬盘则设置成0。所以U盘的分区在我的电脑中被分类到“可移动磁盘”,移动硬盘的分区却是在“硬盘”列表里。Windows有一个强制的规定,如果一个存储设备是可移动磁盘,那么这个设备只能分一个区;即使有多个分区,也只能给第一个分区分配盘符。很霸道吧。据说是因为早期版本的Windows创建对齐的的分区不是xx对齐的,使得闪存的读取效率低,才加了这个规定。反正我觉得不太合理。
题外话1,Linux没有这个限制,可以任意挂载U盘上的分区,所以安卓论坛上会建议某些人把tf卡分出一个区,格式化成ext2,挂载到/data,美名曰app2ext,这样就不需要app2sd,安装到卡上的程序更稳定。
题外话2,很多U盘(但不是所有U盘)的量产工具支持将这个RMB设置为0,这样U盘会被操作系统认为是移动硬盘,就可以分区了;甚至还可以加载一个ISO文件把它当作一个USB光驱来启动系统,详情可搜索 ChipGenius 或者 UpanTool 。
言归正传,手头的U903和S102是IS902主控的,量产工具不太靠谱(第一次买的U903就被我量产挂了,让X东返修,结果它直接给我退货了),只好老老实实当作可移动磁盘用。尽管只能有一个盘符,也还是有些东西可以挖的。折腾了半天,在此推出Felix021版 PE.SATA.U2,功能嘛,就是把网上流传的 《通用PE工具箱v1.9.6》塞进U盘的第二个分区。这个PE工具箱很好用,支持大部分SATA驱动,包含很多好工具,而且还支持安装Vista/ Win7 /2008到硬盘。
好处有3: 1.跟U盘的正常数据区分开来,不会误删,甚至格式化U盘分区都无所谓;2.PE是单独的分区,而且永远不会被Windows载入,不用担心病毒感染;3.(相比于量产+ISO的U盘)不会有多余的分区;4.对不起我数学不好。
下载地址: http://dl.dbank.com/c02b4urxuu ,使用说明在安装包里有了。
注意:1. 并不是所有U盘都支持启动,很多读卡器不支持; 2. 不保证在所有机器上都能启动; 3. 不保证所有SATA都能支持,不支持的话请手动改BIOS设置成IDE模式; 4. 喝完水忘了T_T。
下面是具体实现过程,记录一下,以后如果它有更新,能记得怎么再来一次。。。伸手党可以不用浪费时间了。
Nov
15
坎坷经历就不说了,反正最后是¥79买的郎科U903 8GB,128买的威刚S102 16GB,直接上图。
Windows 7 32bit Ultimate, X3 450 3.2G, DDR3 1600 4GB.
测试:ATTO Disk Benchmark, 0.5~8192KB, 256MB读写速度;HDTune存取时间/突发传输速率
详情如下:
Windows 7 32bit Ultimate, X3 450 3.2G, DDR3 1600 4GB.
测试:ATTO Disk Benchmark, 0.5~8192KB, 256MB读写速度;HDTune存取时间/突发传输速率
详情如下:
Nov
15
@2019-03-19 STL里的lowerbound算法简单有效。
该元素在数组中不一定存在,只是要找一个i,使得 arr[i] <= t <= arr[i+1]。非递归的代码看起来真蛋疼。
该元素在数组中不一定存在,只是要找一个i,使得 arr[i] <= t <= arr[i+1]。非递归的代码看起来真蛋疼。
//区间是 [s, e),左闭右开,类似STL。
int binsearch(int arr[], int t, int s, int e)
{
int left = s, right = e, mid;
while (left < right)
{
mid = left + (right - left) / 2;
if (arr[mid] == t)
return mid;
else if (arr[mid] < t)
{
//right most OR ...right here
if (mid + 1 >= right || t < arr[mid + 1])
return mid;
else
left = mid + 1;
}
else /* arr[mid] > t */
{ //left most OR ...right here
if (mid - 1 < left || arr[mid - 1] <= t)
return mid - 1;
else
//11.18.DELETED: right = mid - 1;
right = mid; //[11.18.update]发现这里是个BUG……
}
}
return -2; //bad range
}
int binsearch(int arr[], int t, int s, int e)
{
int left = s, right = e, mid;
while (left < right)
{
mid = left + (right - left) / 2;
if (arr[mid] == t)
return mid;
else if (arr[mid] < t)
{
//right most OR ...right here
if (mid + 1 >= right || t < arr[mid + 1])
return mid;
else
left = mid + 1;
}
else /* arr[mid] > t */
{ //left most OR ...right here
if (mid - 1 < left || arr[mid - 1] <= t)
return mid - 1;
else
//11.18.DELETED: right = mid - 1;
right = mid; //[11.18.update]发现这里是个BUG……
}
}
return -2; //bad range
}
Nov
15
其实最早是想把XP装进移动硬盘,这样的话只要有需要随时可以从移动硬盘启动一个完整的系统。可惜无论是从安装程序安装还是Ghost,都会在XP滚动条过去以后就挂断(蓝屏或者直接重启)。发现有个USBOOT好像能够把XP放进去,但是还得注册帐号什么的,操作步骤也很麻烦。
最近各种折腾,最终结果是手头有个2个USB3.0的U盘。朗科 U903 8GB(某东现在特价69,很值得买):USB2.0下面读30M/s,写20M/s,USB3.0下读40M/s,写25M/s,延迟约1.1ms,也就是大约900IOPS;威刚S102 16GB(某东正常价139),USB2.0读写也是30/20左右,3.0还没实测,延时0.6ms,约1600IOPS。虽然连续读写速度和HDD没得比,但是IOPS却要快一个数量级,于是蛋疼地想着,是不是把Windows装上去试试,说不定还能体验一下SSD的快感。
PE SATA 1.9.6 里面有个WIM安装器,说是支持USB HDD,于是试着往U盘里面塞了个Win7进去,发现不行(估计非得是移动硬盘)。昨天在公司的时候查了一下,发现一个神器PWBoot 3.0.2可以patch Win7,昨晚S102被czyhd同学拿去拷了BF3,于是回家后只能用U903试了。
下载下来运行,发现PWBoot选择install.wim以后就出现数组越界错误,安装没法用。只有patch功能可以使,只好曲线救国。看到网上有人说VHD的事儿,才发现原来Win7已经原生支持VHD的创建、挂载、启动(启动啊!),out了好几年啊……
不废话了,昨晚折腾了很久,最后实现U盘启动的方式是这样的:
0. 打开compmgmt.msc,创建一个VHD,FixedSize或者Dynamic都可以。
1. 安装VirtualBox 4.x,这个支持VHD作为磁盘
2. 把VHD作为磁盘,安装Win7
3. 安装完以后打开cmdline,执行 c:\windows\system32\sysprep\sysprep.exe /generalize /oobe /shutdown
4. 等到VBox关机以后打开compmgmt.msc,右键磁盘管理->附加VHD,选择好挂载上。
5. 运行PWBoot,选择Patch Windows,把VHD上的Win7打个补丁
6. 将VHD的Win7分区Ghost到U盘(5G+)
7. 如果VHD有个100M的分区包含了boot目录和bootmgr,则一并拷贝到U盘的根目录下面
8. 启动,等待安装驱动(相当慢……………………)
第8步已经剧透了,效果很烂。
虽然30M的读取不快,但是不应该是瓶颈,初步估计是因为USB协议的原因,导致系统的运行受到限制,甚至刷新桌面都要卡呀卡的。
不过用VHD启动是个挺好玩的事儿,回头有空可以折腾折腾……
最近各种折腾,最终结果是手头有个2个USB3.0的U盘。朗科 U903 8GB(某东现在特价69,很值得买):USB2.0下面读30M/s,写20M/s,USB3.0下读40M/s,写25M/s,延迟约1.1ms,也就是大约900IOPS;威刚S102 16GB(某东正常价139),USB2.0读写也是30/20左右,3.0还没实测,延时0.6ms,约1600IOPS。虽然连续读写速度和HDD没得比,但是IOPS却要快一个数量级,于是蛋疼地想着,是不是把Windows装上去试试,说不定还能体验一下SSD的快感。
PE SATA 1.9.6 里面有个WIM安装器,说是支持USB HDD,于是试着往U盘里面塞了个Win7进去,发现不行(估计非得是移动硬盘)。昨天在公司的时候查了一下,发现一个神器PWBoot 3.0.2可以patch Win7,昨晚S102被czyhd同学拿去拷了BF3,于是回家后只能用U903试了。
下载下来运行,发现PWBoot选择install.wim以后就出现数组越界错误,安装没法用。只有patch功能可以使,只好曲线救国。看到网上有人说VHD的事儿,才发现原来Win7已经原生支持VHD的创建、挂载、启动(启动啊!),out了好几年啊……
不废话了,昨晚折腾了很久,最后实现U盘启动的方式是这样的:
0. 打开compmgmt.msc,创建一个VHD,FixedSize或者Dynamic都可以。
1. 安装VirtualBox 4.x,这个支持VHD作为磁盘
2. 把VHD作为磁盘,安装Win7
3. 安装完以后打开cmdline,执行 c:\windows\system32\sysprep\sysprep.exe /generalize /oobe /shutdown
4. 等到VBox关机以后打开compmgmt.msc,右键磁盘管理->附加VHD,选择好挂载上。
5. 运行PWBoot,选择Patch Windows,把VHD上的Win7打个补丁
6. 将VHD的Win7分区Ghost到U盘(5G+)
7. 如果VHD有个100M的分区包含了boot目录和bootmgr,则一并拷贝到U盘的根目录下面
8. 启动,等待安装驱动(相当慢……………………)
第8步已经剧透了,效果很烂。
虽然30M的读取不快,但是不应该是瓶颈,初步估计是因为USB协议的原因,导致系统的运行受到限制,甚至刷新桌面都要卡呀卡的。
不过用VHD启动是个挺好玩的事儿,回头有空可以折腾折腾……
Nov
12
最近和sandy一起在做的项目中,对文件系统有些纠结的地方。主要都是一致性问题。
比较简单的一个问题是,往某个文件末尾追加内容,希望保证断电数据不丢失,又想速度快。fsycn可以保证缓存被刷到存储设备;但是在机械硬盘上执行fsync又变成了瓶颈。经过测试,在某机器上fsync大约每秒可以执行1100次左右。虽然目前能够满足业务需求,但是的确是项目中最大的瓶颈。解决办法就是花钱,买SSD。
还有几个麻烦的问题。
====
首先,记录锁。APUE 14.3 记录锁 中提到一个"锁的隐含和释放"
因为fd2是dup出来的,所以跟fd1实际上指向的是同一个文件。如果fd2被关闭,那么fd1上的锁被释放。这一点比较好理解。但是后面跟着一个坑爹的情况:
大坑。
经过编码测试,的确dup或者再次open的fd2(即使OPEN的时候用的是不同的flag)被关闭后,的确会出现记录锁的释放。一个进程中的另一个pthread线程(其他线程库没有测试过)关闭fd2效果是一致的(说明是用pid来识别锁的归属)。不过,如果使用flock(fd, LOCK_**)对整个文件进行加锁,则不会出现这个问题。
====
其次,write的原子性#1:进程a在调用write的期间,进程b是否可以往相同的文件中写数据?
《IEEE Std 1003.1, 2004 Edition》里面提到,当count<PIPE_BUF,如果write成功返回,write对pipe/FIFO的写入是原子的。但是对普通文件的写入呢?没有说明。
翻了一下 linux-2.6.38.8.tar.bz2 ,源码在 fs/read_write.c 中定义了 write 系统调用:
vfs_write调用的是 file->f_op->write , 如果这个指针是NULL,那么调用 do_sync_write。
以ext2为例,ext2/file.c 中定义了
也就是说,实际上调用的还是 do_sync_write 函数,蛋疼。更蛋疼的是,do_sync_write 在一个for循环里面(虽然是循环,但是没看出分段写入的意思) 调用的是 file->f_op->aio_write ,也就是上面的 generic_file_aio_write @ mm/filemap.c。这个函数获取了 file->f_mapping->inode, 然后对该inode加锁,调用 __generic_file_aio_write , 对inode解锁,然后根据文件的属性决定是否需要sync数据。(之所以有这么蛋疼的调用链,应该是不同的文件系统/内核其他功能模块在调用各个函数的时候,希望做一些包装,完成一些额外的事情)。
__generic_file_aio_write 大概有100行,kernel.org的<部分>说明是:
这个函数完成了将数据写入文件的所有必需操作。它要做的事情包括各种基本检查(可能被schedule)、删除文件的SUID、修改文件更新时间、调用更底层的操作(取决于是Direct IO还是Buffered Write)。
This function does all the work needed for actually writing data to a file. It does all basic checks, removes SUID from the file, updates modification times and calls proper subroutines depending on whether we do direct IO or a standard buffered write.
它期望 inode 的mutex已经被获取,除非是不需要锁的块设备或其它对象。(这个在generic_file_aio_write里面的确获取了)
It expects i_mutex to be grabbed unless we work on a block device or similar object which does not need locking at all.
从内核源码来看,只要 __generic_file_aio_write 没有返回,对同一个inode的写入是排斥的。但是写了个多线程的程序,每次对文件APPEND 1MB数据,各写1G。检查后发现并不是写入互斥的。(求kernel hacker解答……)
只是,每次原子写入的数据大小到底是多少?这个值会影响到很多应用的正确性,比如,日志文件的写入一般是追加的,如果一次追加的数据多于这个值,那么多个进程写同一个日志文件会很BUGGY。
====
再有,write的原子性#2:进程a在调用write的期间,进程b是否可以从相同的文件中读取数据?
读取的时候,一路从 read -> vfs_read -> do_sync_read -> generic_file_aio_read 没有需要获取 i_mutex 的地方。再到 do_generic_file_read 这个函数的时候,就是各种内存页面的处理,包括从页表找出实际的页,或者从磁盘中读取、换页之类(这个过程中可能被schedule)。当页面可用的时候,调用传入的 file_read_actor,这个函数使用硬件体系相关的 __copy_to_user(to, from, n) ...
看起来写操作和读操作并不是互斥的,这个也比较符合平时对文件操作的逻辑。不过从上一个问题可以看出的是,write并不是原子的,它是一段一段往内核BUFF里面写的,在每一段完成之前,read获取到的这一段数据还是旧数据。
====
最后,接上个问题,调用write写文件的时候,写入顺序是否是按地址顺序写入?如果不是的话,read可能先读到一段旧数据,再读到一段新数据,这个会让人崩溃的……
在这里,[写入]有两层意思:a. 写入缓存; b. 刷回存储设备。
对于写入缓存,实际上就是从用户空间将数据拷贝到内核空间,调用的是 __copy_from_user(to,from,n) 这个宏。这个宏的实现是在 arch 目录下,不同硬件平台的具体汇编代码。虽然没有去具体了解每个平台的实现方式(代价太大了,各种汇编啊……),但是几乎可以肯定,绝大部分平台下这个顺序是按照地址顺序写入的。虽然内核可以选择不顺序拷贝数据,但是开发者应该不会这么蛋疼吧……
对于刷回设备,调用的[应该](未考证,求证实)就是具体的fsync函数了,比如ext3下面是 fs/ext3/fsync.c 中的 ext3_sync_file 这个函数。这个由于跟具体设备相关,考证更困难了。。不过sandy同学举了个例子,磁带,就有可能是根据磁头目前的位置来刷写的,在有些时候逆向写效率更高(当然,同样未考证具体实现)。
应用程序调用read,实际上是从内核的缓存中获取数据的,所以一般的应用程序只需要关心 a. 写入缓存 的顺序就行了。从实现的合理性来判断,内核应该是按照顺序拷贝的。
我在stackoverflow.com问了最后这个问题,有人推荐了 http://flamingspork.com/talks/ 里面的 Eat My Data: How Everybody Gets File IO Wrong ,值得一看。
好吧。今天一整天就废在这上面了,本篇暂时到此为止,欢迎各种评论拍砖。
比较简单的一个问题是,往某个文件末尾追加内容,希望保证断电数据不丢失,又想速度快。fsycn可以保证缓存被刷到存储设备;但是在机械硬盘上执行fsync又变成了瓶颈。经过测试,在某机器上fsync大约每秒可以执行1100次左右。虽然目前能够满足业务需求,但是的确是项目中最大的瓶颈。解决办法就是花钱,买SSD。
还有几个麻烦的问题。
====
首先,记录锁。APUE 14.3 记录锁 中提到一个"锁的隐含和释放"
fd1 = open(filename, ...);
read_lock(fd1, ...); //这个是APUE自带的apue.h中定义的一个宏,调用fcntl(fd, F_SETLK, ...)
fd2 = dup(fd1);
close(fd2);
read_lock(fd1, ...); //这个是APUE自带的apue.h中定义的一个宏,调用fcntl(fd, F_SETLK, ...)
fd2 = dup(fd1);
close(fd2);
因为fd2是dup出来的,所以跟fd1实际上指向的是同一个文件。如果fd2被关闭,那么fd1上的锁被释放。这一点比较好理解。但是后面跟着一个坑爹的情况:
fd1 = open(filename, ...);
read_lock(fd1, ...);
fd2 = open(filename, ...);
close(fd2);
注意:APUE说,这个情况和上一个情况是相同的。read_lock(fd1, ...);
fd2 = open(filename, ...);
close(fd2);
大坑。
经过编码测试,的确dup或者再次open的fd2(即使OPEN的时候用的是不同的flag)被关闭后,的确会出现记录锁的释放。一个进程中的另一个pthread线程(其他线程库没有测试过)关闭fd2效果是一致的(说明是用pid来识别锁的归属)。不过,如果使用flock(fd, LOCK_**)对整个文件进行加锁,则不会出现这个问题。
====
其次,write的原子性#1:进程a在调用write的期间,进程b是否可以往相同的文件中写数据?
《IEEE Std 1003.1, 2004 Edition》里面提到,当count<PIPE_BUF,如果write成功返回,write对pipe/FIFO的写入是原子的。但是对普通文件的写入呢?没有说明。
翻了一下 linux-2.6.38.8.tar.bz2 ,源码在 fs/read_write.c 中定义了 write 系统调用:
SYSCALL_DEFINE3(write, unsigned int, fd, const char __user *, buf,
size_t, count)
{
struct file *file;
ssize_t ret = -EBADF;
int fput_needed;
file = fget_light(fd, &fput_needed); //根据fd获取struct file;如果refcnt>0,加锁
if (file) {
loff_t pos = file_pos_read(file); //获取文件当前位置
ret = vfs_write(file, buf, count, &pos); //调用vfs层进行写入
file_pos_write(file, pos); //更新文件位置
fput_light(file, fput_needed); //如果fget_light加锁了,解锁
}
return ret;
}
size_t, count)
{
struct file *file;
ssize_t ret = -EBADF;
int fput_needed;
file = fget_light(fd, &fput_needed); //根据fd获取struct file;如果refcnt>0,加锁
if (file) {
loff_t pos = file_pos_read(file); //获取文件当前位置
ret = vfs_write(file, buf, count, &pos); //调用vfs层进行写入
file_pos_write(file, pos); //更新文件位置
fput_light(file, fput_needed); //如果fget_light加锁了,解锁
}
return ret;
}
vfs_write调用的是 file->f_op->write , 如果这个指针是NULL,那么调用 do_sync_write。
以ext2为例,ext2/file.c 中定义了
const struct file_operations ext2_file_operations = {
.llseek = generic_file_llseek,
.read = do_sync_read,
.write = do_sync_write,
.aio_read = generic_file_aio_read,
.aio_write = generic_file_aio_write,
........
.llseek = generic_file_llseek,
.read = do_sync_read,
.write = do_sync_write,
.aio_read = generic_file_aio_read,
.aio_write = generic_file_aio_write,
........
也就是说,实际上调用的还是 do_sync_write 函数,蛋疼。更蛋疼的是,do_sync_write 在一个for循环里面(虽然是循环,但是没看出分段写入的意思) 调用的是 file->f_op->aio_write ,也就是上面的 generic_file_aio_write @ mm/filemap.c。这个函数获取了 file->f_mapping->inode, 然后对该inode加锁,调用 __generic_file_aio_write , 对inode解锁,然后根据文件的属性决定是否需要sync数据。(之所以有这么蛋疼的调用链,应该是不同的文件系统/内核其他功能模块在调用各个函数的时候,希望做一些包装,完成一些额外的事情)。
__generic_file_aio_write 大概有100行,kernel.org的<部分>说明是:
这个函数完成了将数据写入文件的所有必需操作。它要做的事情包括各种基本检查(可能被schedule)、删除文件的SUID、修改文件更新时间、调用更底层的操作(取决于是Direct IO还是Buffered Write)。
This function does all the work needed for actually writing data to a file. It does all basic checks, removes SUID from the file, updates modification times and calls proper subroutines depending on whether we do direct IO or a standard buffered write.
它期望 inode 的mutex已经被获取,除非是不需要锁的块设备或其它对象。(这个在generic_file_aio_write里面的确获取了)
It expects i_mutex to be grabbed unless we work on a block device or similar object which does not need locking at all.
从内核源码来看,只要 __generic_file_aio_write 没有返回,对同一个inode的写入是排斥的。但是写了个多线程的程序,每次对文件APPEND 1MB数据,各写1G。检查后发现并不是写入互斥的。(求kernel hacker解答……)
只是,每次原子写入的数据大小到底是多少?这个值会影响到很多应用的正确性,比如,日志文件的写入一般是追加的,如果一次追加的数据多于这个值,那么多个进程写同一个日志文件会很BUGGY。
====
再有,write的原子性#2:进程a在调用write的期间,进程b是否可以从相同的文件中读取数据?
读取的时候,一路从 read -> vfs_read -> do_sync_read -> generic_file_aio_read 没有需要获取 i_mutex 的地方。再到 do_generic_file_read 这个函数的时候,就是各种内存页面的处理,包括从页表找出实际的页,或者从磁盘中读取、换页之类(这个过程中可能被schedule)。当页面可用的时候,调用传入的 file_read_actor,这个函数使用硬件体系相关的 __copy_to_user(to, from, n) ...
看起来写操作和读操作并不是互斥的,这个也比较符合平时对文件操作的逻辑。不过从上一个问题可以看出的是,write并不是原子的,它是一段一段往内核BUFF里面写的,在每一段完成之前,read获取到的这一段数据还是旧数据。
====
最后,接上个问题,调用write写文件的时候,写入顺序是否是按地址顺序写入?如果不是的话,read可能先读到一段旧数据,再读到一段新数据,这个会让人崩溃的……
在这里,[写入]有两层意思:a. 写入缓存; b. 刷回存储设备。
对于写入缓存,实际上就是从用户空间将数据拷贝到内核空间,调用的是 __copy_from_user(to,from,n) 这个宏。这个宏的实现是在 arch 目录下,不同硬件平台的具体汇编代码。虽然没有去具体了解每个平台的实现方式(代价太大了,各种汇编啊……),但是几乎可以肯定,绝大部分平台下这个顺序是按照地址顺序写入的。虽然内核可以选择不顺序拷贝数据,但是开发者应该不会这么蛋疼吧……
对于刷回设备,调用的[应该](未考证,求证实)就是具体的fsync函数了,比如ext3下面是 fs/ext3/fsync.c 中的 ext3_sync_file 这个函数。这个由于跟具体设备相关,考证更困难了。。不过sandy同学举了个例子,磁带,就有可能是根据磁头目前的位置来刷写的,在有些时候逆向写效率更高(当然,同样未考证具体实现)。
应用程序调用read,实际上是从内核的缓存中获取数据的,所以一般的应用程序只需要关心 a. 写入缓存 的顺序就行了。从实现的合理性来判断,内核应该是按照顺序拷贝的。
我在stackoverflow.com问了最后这个问题,有人推荐了 http://flamingspork.com/talks/ 里面的 Eat My Data: How Everybody Gets File IO Wrong ,值得一看。
好吧。今天一整天就废在这上面了,本篇暂时到此为止,欢迎各种评论拍砖。
Nov
5
不知道是支付宝的产品人员太牛比,还是开发人员太傻比,还是测试人员太装比呢。这尼玛玩用户啊?
Nov
3
首先声明,换的是电脑,不是大脑,跟RPT那货是不一样的。换脑的想法是这么来的。
在7月份某个阳光明媚草长莺飞的早晨,和sandy同学一起坐在开往某厂的636上面。注意,是坐,那天公交车居然很空。sandy同学用一种略带兴奋的语气说,京东上有一个Acer的本,i3 370,才只要2699(现在京东还是这价,AS4739-372G32Mikk),很适合买来写码啊。于是开始讨论,发现自己太久没有关注硬件了,连i3集成显卡都不知道,而且这卡还不算太差。B公司给Boluor同学发的那个X201i,用的就是i3的CPU,玩一般的游戏也是没有压力的。
于是开始考虑,是不是可以把我手头用了一年半的Acer本本卖掉(起码可以破除买->丢->买的恶性循环?),然后添点钱换个i3的本本。毕竟那是AMD当时新平台最低端的CPU,M320 2.1G,跑Win7还是略有压力。XP倒是很顺畅,只是用久了Win7,XP用起来实在是不习惯。接下来的一段时间,经常在某东上闲逛,发现本本都便宜到这个地步了,2k4买能有T4500 + 2G DDR3,性能不见得比我这个本子差。于是关注了下,发现3000以下的i3本也有好几个了,蛋疼得心动啊。
然后又是某个阳光明媚草长莺飞的早晨(7月底),和sandy同学一起站在开往某厂的636上面(这回是站着了)。魔都的公交车上都配有一个小显示屏,放些广告什么的,当时放的是,免费、快速、卖得掉,也就是某姓网的广告。到了某厂,跟sandy同学讨论说(sandy同学曾经把他用1w+买的BenQ S41以大约1850元的价格卖个了ZGC的JS),我这本扔上去卖个1K5怎么样,他说,很不错啊这个价格,我的本比你的好才卖了1850,还是一年前啊。于是就上百姓去看了看,我这一看啊,我勒个去,满眼小白,又老又旧的本本还开价1K5或者更高。顿时信心暴涨啊,把心理价位给定在了1K7,如果再低的话,不如过年回去扔给家里。
于是根据Sandy同学当年在zol卖本的帖子发了个帖子出去,开价2K。然后下午就有人给电话了,只是价格谈不拢。后来想了想,在Sandy同学的建议下(1999),把价格改成了1949。接下来的一段时间里面各种折腾,N个电话,最低有开1K5的,也有好几个1K7的,但不想卖,毕竟现在自己用着,被买走要折腾好久,麻烦。甚至有个开价1K8的到家里来看了本,但是觉得不送包鼠不太满意,跑了。。。。期间受到Sandy同学的各种毒害,觉得买个台式机也挺好的,好CPU、大容量、高转速硬盘、大显示器……唯一的一点"小"缺陷就是不太便携……
过了几天,在8月14号那个阳光明媚草长莺飞的周日早晨,和sandy同学一起到某厂加班。玩了一会儿,还没开始干活,扣扣上有个人加好友。谈了7句话,连价格都没还,还是我自己SB地说,1900包邮怎样,买家说,“嗯 可以”。我勒个去啊,这个买家要不要这么实诚搞得我都不好意思了……于是下午奔回家把数据备份了,然后写了个程序把硬盘全部写了过去。晚上打包好,周一早上叫了宅急送(顺丰不接受保价……)送了过去,40+邮费。。
然后当天在易迅和京东上下单,买了接近3K的硬件,周二陆续送到公司,和sandy同学当场组装。由于电源用的是sandy同学升级电源换下来的TT XP420,所以扛回家才把电源装上,然后居然木有点亮!坑爹啊!难道就这么杯具了吗!后来仔细看了下主板的说明书,发现好像是RESET/POWER的正负极接反了……坑爹的没有防呆化设计的针脚,哎……再桶了一下,终于把我攒的第一台电脑给点亮了……
另外由于某厂某活动送的某在线商城购物券实在没什么好买的,于是就买了个Edifier M17,反正我对音质没啥要求,这种能够插SD卡/U盘播MP3而且还带锂电池的音箱我一直挺想弄一个来着……
于是就比较舒畅地用了两个多月,直到泰国洪水发飙,发现硬盘的价格一路飙升……当初350买的硬盘,现在在淘宝商城已经涨到了690…………于是蛋疼地搜了一下各个配件现在的价格,发现现在配同样的机器要¥3441,比当初贵了¥330啊!于是蛋疼地开始考虑。。。为了结束实习回武汉以及再工作时的各种折腾,是不是把这台机器以不亏本的价格出掉,换一台笔记本………………
在7月份某个阳光明媚草长莺飞的早晨,和sandy同学一起坐在开往某厂的636上面。注意,是坐,那天公交车居然很空。sandy同学用一种略带兴奋的语气说,京东上有一个Acer的本,i3 370,才只要2699(现在京东还是这价,AS4739-372G32Mikk),很适合买来写码啊。于是开始讨论,发现自己太久没有关注硬件了,连i3集成显卡都不知道,而且这卡还不算太差。B公司给Boluor同学发的那个X201i,用的就是i3的CPU,玩一般的游戏也是没有压力的。
于是开始考虑,是不是可以把我手头用了一年半的Acer本本卖掉(起码可以破除买->丢->买的恶性循环?),然后添点钱换个i3的本本。毕竟那是AMD当时新平台最低端的CPU,M320 2.1G,跑Win7还是略有压力。XP倒是很顺畅,只是用久了Win7,XP用起来实在是不习惯。接下来的一段时间,经常在某东上闲逛,发现本本都便宜到这个地步了,2k4买能有T4500 + 2G DDR3,性能不见得比我这个本子差。于是关注了下,发现3000以下的i3本也有好几个了,蛋疼得心动啊。
然后又是某个阳光明媚草长莺飞的早晨(7月底),和sandy同学一起站在开往某厂的636上面(这回是站着了)。魔都的公交车上都配有一个小显示屏,放些广告什么的,当时放的是,免费、快速、卖得掉,也就是某姓网的广告。到了某厂,跟sandy同学讨论说(sandy同学曾经把他用1w+买的BenQ S41以大约1850元的价格卖个了ZGC的JS),我这本扔上去卖个1K5怎么样,他说,很不错啊这个价格,我的本比你的好才卖了1850,还是一年前啊。于是就上百姓去看了看,我这一看啊,我勒个去,满眼小白,又老又旧的本本还开价1K5或者更高。顿时信心暴涨啊,把心理价位给定在了1K7,如果再低的话,不如过年回去扔给家里。
于是根据Sandy同学当年在zol卖本的帖子发了个帖子出去,开价2K。然后下午就有人给电话了,只是价格谈不拢。后来想了想,在Sandy同学的建议下(1999),把价格改成了1949。接下来的一段时间里面各种折腾,N个电话,最低有开1K5的,也有好几个1K7的,但不想卖,毕竟现在自己用着,被买走要折腾好久,麻烦。甚至有个开价1K8的到家里来看了本,但是觉得不送包鼠不太满意,跑了。。。。期间受到Sandy同学的各种毒害,觉得买个台式机也挺好的,好CPU、大容量、高转速硬盘、大显示器……唯一的一点"小"缺陷就是不太便携……
过了几天,在8月14号那个阳光明媚草长莺飞的周日早晨,和sandy同学一起到某厂加班。玩了一会儿,还没开始干活,扣扣上有个人加好友。谈了7句话,连价格都没还,还是我自己SB地说,1900包邮怎样,买家说,“嗯 可以”。我勒个去啊,这个买家要不要这么实诚搞得我都不好意思了……于是下午奔回家把数据备份了,然后写了个程序把硬盘全部写了过去。晚上打包好,周一早上叫了宅急送(顺丰不接受保价……)送了过去,40+邮费。。
然后当天在易迅和京东上下单,买了接近3K的硬件,周二陆续送到公司,和sandy同学当场组装。由于电源用的是sandy同学升级电源换下来的TT XP420,所以扛回家才把电源装上,然后居然木有点亮!坑爹啊!难道就这么杯具了吗!后来仔细看了下主板的说明书,发现好像是RESET/POWER的正负极接反了……坑爹的没有防呆化设计的针脚,哎……再桶了一下,终于把我攒的第一台电脑给点亮了……
另外由于某厂某活动送的某在线商城购物券实在没什么好买的,于是就买了个Edifier M17,反正我对音质没啥要求,这种能够插SD卡/U盘播MP3而且还带锂电池的音箱我一直挺想弄一个来着……
于是就比较舒畅地用了两个多月,直到泰国洪水发飙,发现硬盘的价格一路飙升……当初350买的硬盘,现在在淘宝商城已经涨到了690…………于是蛋疼地搜了一下各个配件现在的价格,发现现在配同样的机器要¥3441,比当初贵了¥330啊!于是蛋疼地开始考虑。。。为了结束实习回武汉以及再工作时的各种折腾,是不是把这台机器以不亏本的价格出掉,换一台笔记本………………
购买日期:2011-08-15
硬件 现价 现价出处 购买价 购买处
AMD X3 450(3.2G,可开四核) 529 易迅 509 易迅
海盗船XMS3 DDR3-1600 4GB 180 淘宝商城 229 京东(缺货)
技嘉GA-880GM-USB3 588 易迅 599 京东(-50优惠?)
日立7k1000.d 1TB 单碟500G 690 淘宝商城 349 易迅(缺货)
TT XP420 350w电源 210 淘宝商城 --- sandy
酷冷至尊RC-K100 ESATA 229 京东 229 京东
飞利浦19寸193E1SB(LED,DVI) 699 京东 729 京东
TP-Link WN781N无线网卡 88 易迅 89 易迅
微软IE3.0鼠标 168 易迅 169 易迅
戴尔8115键盘 40 淘宝 --- sandy
天敏V801摄像头(带麦克风) 18.8 易迅 19 易迅
硬件 现价 现价出处 购买价 购买处
AMD X3 450(3.2G,可开四核) 529 易迅 509 易迅
海盗船XMS3 DDR3-1600 4GB 180 淘宝商城 229 京东(缺货)
技嘉GA-880GM-USB3 588 易迅 599 京东(-50优惠?)
日立7k1000.d 1TB 单碟500G 690 淘宝商城 349 易迅(缺货)
TT XP420 350w电源 210 淘宝商城 --- sandy
酷冷至尊RC-K100 ESATA 229 京东 229 京东
飞利浦19寸193E1SB(LED,DVI) 699 京东 729 京东
TP-Link WN781N无线网卡 88 易迅 89 易迅
微软IE3.0鼠标 168 易迅 169 易迅
戴尔8115键盘 40 淘宝 --- sandy
天敏V801摄像头(带麦克风) 18.8 易迅 19 易迅